Vous êtes ici : Accueil » Référencement / SEO » Analysez le crawl de Googlebot avec la Watussi Box de Jean Benoit

Analysez le crawl de Googlebot avec la Watussi Box de Jean Benoit

20 janvier 2013 Référencement / SEO 8 Commentaires 9 358 vues

googlebot

Aujourd’hui j’accueille Jean Benoit, le créateur de la Watussi Box, un analyseur de crawl qui a très fière allure ! Je l’ai découvert il y a quelques semaines et adopté dans la foulée pour mes sites personnels et clients.

Allez Go !

Petite interview de Jean Benoit, qui j’en suis sur vous donnera l’envie de télécharger et tester son application.

Bonjour Jean Benoit, pour les lecteurs qui ne te connaissent pas encore, peux-tu te présenter rapidement ?

Bonjour Florian, pour me présenter rapidement : je suis un passionné de SEO ! J’ai découvert cet art au moment où j’ai mis un compteur de visites sur les premiers sites que je bricolais au lycée et que je me suis demandé comment le faire grimper. J’ai une formation de développeur obtenu à l’IUT d’Orsay. J’ai depuis connu plusieurs expériences : j’ai créé une boîte, ai été premier salarié d’une start-up, consultant SEO chez Aposition et désormais responsable SEO chez le groupe PagesJaunes. J’ai un blog, watussi.fr où je partage régulièrement quelques scripts ainsi que ma vision plutôt technique et structurelle du SEO.

Pourquoi passer du temps à étudier les logs d’un site ?

La première étape lorsqu’on souhaite référencer un site, c’est de faire en sorte que Google puisse crawler et indexer un maximum de pages. Ça semble trivial comme ça, mais plus un site est volumineux et complexe, plus le risque est important que Google ne crawl pas régulièrement les pages qui nous intéressent.

Avec l’avènement de Panda, il est aussi intéressant de contrôler quelles sont les pages qu’on expose à Google. J’ai plusieurs exemples de sites qui ont été sanctionnés malgré un contenu de haute qualité. Le responsable SEO ne s’était pas aperçu qu’en effet de bord technique générait des dizaines de milliers de pages complètement vides. La perception du site par Google était donc forcément mauvaise.

Étant donné que les bots n’exécutent pas le javascript, il n’existe que deux moyens d’étudier et de monitorer le comportement de crawl de Googlebot.

La première solution est de créer un tracker que l’on met sur chaque page de son site. L’inconvénient de cette méthode est qu’on n’a pas l’exhaustivité de l’information, Google crawl souvent des pages dont on ne soupçonne même pas l’existence. Cette méthode peut également avoir un impact sur le temps d’exécution des pages.

La deuxième solution est d’étudier directement les logs serveur car chaque appel est enregistré. Ce sont donc les données les plus fiables.

Peux tu nous parler de ta Watussi Box ?

Lorsque l’on souhaite étudier et monitorer le comportement de crawl de Google, il existe très peu d’outils.

Google Webmaster Tools nous fournit le minimum syndical (et encore…), il existe des outils extrêmement pointus mais qui ne sont pas publics, il existe également quelques programmes d’analyse de logs mais qui ne sont pas orientés SEO. J’essaie donc de combler ce manque en proposant Watussi Box, un script d’analyse de log gratuit et Open Source.

Watussi Box permet d’avoir un premier niveau d’information avec des indicateurs assez basiques : volume de crawl quotidien, hebdomadaire, nombre de pages actives, nombre de nouvelles pages, codes retour, …

Il y a également un petit module amusant qui permet de voir en temps réel les pages crawlées, on a généralement des surprises. Un tel outil permet aussi de faire des tests et apporter une réponse précise à des questions qui font souvent débat dans le milieu SEO : est-ce que Google crawl des pages bloquées par le robots.txt ? Est-ce que Google crawl le javascript ? En combien de temps sont prises en compte des redirections ? …

J’ai voulu un script le plus simple possible pour qu’il soit utilisable pour un maximum de sites. Il est écrit en PHP et propose deux modes d’installation en fonction de son hébergement : mutualisé ou dédié.

Watussi Box offre donc une « introduction » à l’analyse de log. Ceux qui veulent aller plus loin peuvent me contacter :-)

Voici une petite vidéo de présentation de la Watussi Box :

As tu d’autres projets à venir dans le même genre ? (SEO…)

J’ai toujours plein de projets plus ou moins ambitieux dans ma to do list, mais les journées ne font que 24h :-)

En attendant, n’hésitez pas à me suivre sur twitter et sur mon blog ! :-)


Vous avez aimé ? Partagez !


Actuellement, il y a 8 commentaires sur cet article :
  1. Eric from What is a Encoder dit :

    Décidemment Jean-Benoit est partout 😉 Après le Podcast de LaurentB je le retrouve ici ! La gloire est à potée de mains pour lui 😀

    Plus sérieusement, Jean-Benoit fait un super travail et s’intéresse a des aspects du SEO moins « médiatisés » mais tout aussi important à savoir : le crawl et l’analyse des logs des bots.

    Souvent ramenés au second rang, ces informations restent fondamentales dans le travail d’optimisations on-site. N’oublions pas que le but est toujours de faire plaisir au Bot de Big G !

    Il y a également un autre outil crée par Jean-Benoit : Watussi Report !

    Bonne semaine à tous.

    • Fred from TicketConcert dit :

      Complètement d’accord avec toi Eric, depuis le podcast de Laurent ca parle de crawl un peu partout ! C’est bien !
      La Watussi Box permet de vous fournir des éléments d’analyse sur les log et les bots. A ma connaissance, il n’existe pas de logiciel ou de site permettant de fournir autant d’infos.
      A tester !

  2. Gilles Bahda dit :

    L’outil a l’air super intéressant, je vais essayer ça.
    C’est vrai que je n’ai pas l’habitude d’analyser les loges, mais il faut que je m’y mette.
    Merci pour la découverte :)

  3. LaurentB dit :

    J’ai édité mon billet pour inclure ton lien.
    C’est clair qu’il faut parler de l’analyse de logs à fond. Le sujet est crucial et doit rentrer dans les processus obligatoires du SEO.
    Grâce à JB, on a un tool gratuit à disposition, qui fait déjà du super boulot.

  4. Merci @Laurent pour le lien dans ton article. J’ai pensé, tout comme toi apparemment, qu’il était bon de mettre en avant ce nouvel outil bien pratique ! 😉

  5. Isa dit :

    Décidemment Jean-Benoit est partout en ce moment avec ses nouveaux outils !
    J’avoue avoir aussi adopté la Watussi Box. Pas trouvé mieux pour l’instant !

  6. Julien from papa dit :

    J’ai découvert l’outil sur le site de Laurent.
    C’est clair que Jean-benoit est partout, normal avec un outil sympa.
    J’essai tant bien que mal d’apprendre le seo, et c’est vraiment genial que la communauté soit si active, partage ses softs et ses découvertes. Sans ca je serais perdu.

  7. Christophe from par ici dit :

    J’ai installé le tool sur plusieurs sites et c’est effectivement un très bon outil. Je n’avais pas l’habitude d’analyser les logs des bots jusqu’à présent. Ça me parait désormais indispensable.
    Merci Jean Benoit !

Commenter cet article :
Leave a Reply






Anti-Spam Question:

Nous suivre
Rechercher dans le site
S'abonner a la newsletter
Retrouvez-nous sur facebook