Catégories
français tech

Auditer rapidement la sémantique de beaucoup de pages avec l’API yourtext.guru

Il est très fréquent de vouloir vérifier la qualité de l’optimisation sémantique de nombreuses pages face à de nombreuses requêtes. Le faire à la main c’est très besogneux, d’autant que ça impose une certaine rigueur dans l’extraction des contenus à analyser pour être sur de faire des comparaisons équitables ensuite.
Dans ce billet, je vous explique comment nous faisons cette analyse massive dans le cadre de nos audits, et je vous donne le code pour le faire si vous avez l’API yourtextguru.

Ce que l’on veut faire

Globalement, voici le processus que l’on va suivre :

  • On détermine une liste de pages que l’on veut analyser, et pour chacune on va fixer la requête qui nous intéresse au regard de cette page. Concrètement notre entrée sera un fichier excel avec 2 colonnes : la première contiendra les URLs, la deuxième les requêtes.
Un screenshot de qualitay
  • On va ensuite récupérer le contenu de chaque page, générer le guide correspondant à chaque requête, puis analyser les contenus avec l’outil de vérification associé à chaque guide.
    Le livrable final sera un fichier excel contenant URL, requête, SOSEO, DSEO et les scores de la SERP. Un code couleur mettra en avant la qualité de l’optimisation et du danger. J’explique tout plus loin, mais cela ressemble à ça :
Ca donne faim…

Allez, voyons comment on va faire tout ça. En attendant voilà le code :

Extraire le contenu des pages

Dans le code vous pouvez voir un exemple de fichier d’entrée, il contient ce que j’ai décrit plus haut, il n’y a donc aucune surprise.

Nous allons ensuite utiliser le premier script python, get_urls_content.py, il n’utilise pas du tout yourtext.guru. L’extraction se fait avec trafilatura, c’est actuellement le meilleur extracteur de contenu disponible (regardez ce benchmark par exemple). Le script va tout simplement aller récupérer les pages et trafilatura va extraire le contenu important de chaque page, puis le copier dans un nouveau fichier excel (du même nom que celui d’origine avec _content en plus dans le nom) qui contiendra une colonne supplémentaire avec le contenu des pages.

python3.9 get_urls_content.py -f cuisine_spirit.xlsx
Le résultat de l’extraction

Ce script est un peu le cadeau bonus, vous pouvez vous en servir pour plein d’autres choses, profitez-en !

Générer les guides via l’API yourtextguru

Alors pour cela nous allons utiliser le script get_ytg_guides.py.

N’oubliez pas de renseigner votre clé API yourtextguru dans le fichier (il faudra faire pareil dans le fichier de vérification).
Pour lancer la génération, c’est très simple :

get_ytg_guides.py -l fr_fr -f cuisine_spirit.xlsx 

La génération des guides est séquentielle, cela peut être très long si vous avez beaucoup de guides à faire, le mieux est de lancer ça tranquille avant d’aller se coucher, et de revenir le lendemain 😉 Le script va créer un fichier en concaténant _guides dans le nom. Voici le résultat en image.

C’est pas spectaculaire ^^

Faire l’analyse pour faire les meilleurs audits

Enfin, la dernière étape est de procéder à l’analyse. Nous avons un script dédié. Il prend en entrée le fichier excel avec le contenu, celui avec les identifiants de guides, et il va passer le tout à la moulinette de l’outil d’analyse via l’API (là aussi n’oubliez pas de renseigner votre clé API).
Le livrable est un fichier excel, avec en plus un code couleur : si le SOSEO est dans une case verte, tout va bien, vous êtes suffisamment au dessus de la moyenne des 3 meilleurs. Si votre DSEO est vert, vous êtes suffisamment au dessous du top5. Vous l’aurez compris, en rouge c’est que vous êtes trop bas (pour le SOSEO) ou trop haut (pour le DSEO). En orange ? vous êtes a peu près au même niveau, ça vaut le coup de se différencier un peu.

Comment faire le calcul ? avec la ligne de commande suivante, qui va créer un fichier excel avec _scores à la fin, qui contiendra tous les résultats.

python3.9 get_ytg_scores.py -f cuisine_spirit_content.xlsx -g cuisine_spirit_guides.xlsx 

cela nous donne dans le cas de cet exemple :

Sur ce site il y a visiblement des optimisations supplémentaires à faire pour se positionner sur des requêtes « recettes de XXX » (ouf, c’est pas le but !).

Voilà, avec ce code et l’API yourtextguru à vous les audits sémantiques faciles !