Google, nous l’utilisons tous les jours, mais finalement, est-ce que vous savez comment ça marche ? C’est parti pour une petite explication pour les plus curieux.

Google, il crawl…

Et oui le robot Google « Googlebot » est un spécialiste du crawl. Rien à voir avec ça : crawl
Crawler un site signifie tout simplement explorer tout un site, en suivant les liens présents sur les pages. Googlebot va donc en arrivant sur un site prendre connaissance de tous les liens d’une page, les suivre et ensuite indexer ces pages dans sa base de données. Il faut donc que Googlebot comprenne les éléments à indexer. C’est grâce à un fichier « robots.txt » que l’on va pouvoir lui donner ce type de renseignements. Ce fichier est accessible à tous en ajoutant à l’URL d’un site www.nomdedomaine.fr/robots.txt. Vous pouvez l’essayer sur mon site ! Ou cliquez ici si vous avez vraiment la flemme de l’écrire vous-même. Vous verrez donc quelles directives je donne aux robots d’indexations 🙂 . A première vue, ça parait un peu barbare, mais ce fichier est vraiment très simple. Les éléments que j’inscris après « Disallow », sont les fichiers, répertoires, pages, etc… que je ne souhaite pas indexer chez Google. C’est éléments ne figureront donc pas dans la base de donnée des moteurs de recherches. La dernière ligne « Sitemap » indique à Google l’adresse de mon Sitemap, c’est à dire le plan de mon site avec tous les liens que je souhaite qu’il suive. C’est une petite aide pour lui. En cliquant ici ou la, vous accéderez à mon sitemap.

Googlebot a donc suivi et indexé tous / la plupart des liens. Maintenant ces liens, il faut les traiter.

Le traitement des liens

Pour pouvoir juger la qualité d’un site web, il faut que Google analyse ces liens. A partir des liens qu’il a indexés, Googlebot va établir une sorte de graph pour relier tous ces liens entre eux. Le but étant de trouver une logique entre ces liens, et les évaluer positivement ou négativement. Il va aussi dissocier les liens sortant (le fameux Netlinking), et les liens internes (le maillage interne du site). A parti de cela, Googlebot va attribuer une certaine popularité à tous ces liens, et attribuer des critères de pertinences aux différents sites qu’il rencontrera. Imaginez donc le nombre de liens que Google suit. C’est considérable ! Voilà pourquoi on représente souvent le web comme étant une toile : Un ensemble de points reliés entre eux par des liens.
toile du web

Voilà déjà un bref aperçu de ce que Google fait comme travail en termes de suivi de liens. Mais c’est pas tout…

Ce que Google fait en plus de suivre les liens

Google ne s’arrête pas là pour être le plus pertinent possible. Il faut savoir que les algorithmes de Google sont top secret, et que finalement ce que j’explique ici, ne représente qu’un aperçu très vague du travail de Google. Toute la partie analyse lexicale à lieu lors du crawl du site. Le robot d’indexation va juger, d’un point de vu lexical, la pertinence de votre site par rapport à une thématique souhaitée. Cela passe par une analyse des mots clés, une analyse du contenu (richesse, longueur, pertinence…), bref, si un site raconte n’importe quoi, avec des mots clés aléatoire, Google n’est pas prêt de le faire remonter… A moins d’être un petit génie, et de tromper Google !! 🙂

Mais nous alors, c’est quoi le résultat de tout ça ?

Le résultat de tout ça ? Et bien jugez par vous-même ! Est-ce que Google répond à vos questions ? « OK Google, ou est la station d’essence la plus proche ? », « OK Google, c’est quoi une panenka ? »… La plupart du temps, il y arrive ce bougre ! Voilà donc le résultat principale, Google va répondre avec le plus de pertinence possible à vos requêtes, et va tenter de vous proposer la réponse la plus juste.

Pour finir

Il est vrai que dans ce billet je parle de Google, et pas des autres moteurs de recherches Bing, Yahoo… Il faut savoir que leur fonctionnement reste très proche de celui de Google, et en France, Google reste très largement leader. Notons que Bing, c’est 20% d’utilisation aux Etats-Unis.
Donc pour résumer un peu : pour être apprécié par Mr.Googlebot il faut : avoir un site pas trop dur à indexer (côté technique), des liens de bonne qualité (le Netlinking), et un registre lexical irréprochable (le contenu). Bienvenue dans l’univers d’un référenceur web (ou d’un SEO, c’est le terme anglais pour référenceur : Search Engine Optimisation) ! 🙂 Et maintenant, vous saurez tout sur mon travail au sein de Mediaveille : optimiser l’indexation des pages d’un site web sur les moteurs de recherches !
Si vous avez encore des questions, n’hésitez pas à interagir ! Dans le cadre de mes études en stratégie digitale, je pense que c’est important de partager mes connaissances nouvelles, et mes passions. Je ne fais que résumé brièvement l’univers d’un référenceur, mais dans tous les cas j’espère que ça vous a plu, et que cela vous apprend des choses utiles !