Lilapuce
 

supports (lundi 7 décembre 2009)

Moteur de recherche : interpréter les résultats

Il est important de pouvoir analyser les résultats proposés par le moteur de recherche.

C’est en observant attentivement ces résultats, que nous pouvons effectuer un premier niveau de tri, sans même avoir à cliquer sur quoi que ce soit.

Titre, extrait, adresse

Prenons l’exemple suivant : nous avons formulé une requête à partir d’un mot clé, tout en laissant les options par défaut (Web) :

Voilà, à quoi ressemble la réponse de Google, vu de loin :

Essayons d’avoir un peu plus de précision.

En premier lieu, le moteur nous indique un nombre de résultats.

"Résultat 1-10 sur un total d’environ 30 600 pour ..." : cela signifie que Google classe les résultats par page de 10.

Il faut faire défiler la fenêtre pour prendre connaissance de tout ce qui est proposé. Cette fenêtre n’affiche donc que les 10 premiers résultats ("Résultat 1-10").

Pour accéder à la 11e réponse et les suivantes, il faut, en bas de page, cliquer sur Suivant (pour aller sur la deuxième page), ou sur l’un des chiffres ; par exemple 3 pour atteindre la troisième page. Le numéro de la page active s’affiche à chaque fois en rouge.

Voici, le plus important :

Pour chaque résultat, Google nous indique trois informations distinctes :

- Le titre de la page, en bleu : c’est là qu’il faut cliquer pour consulter le site (lien hypertexte). Ce titre, donné par l’auteur du site, apparaît dans la barre de titre du navigateur quand vous affichez la page.

- L’extrait, en noir : est une portion du texte figurant dans la page. Qu’elle soit ou non visible à l’écran quand vous l’affichez, cette partie de l’information est essentielle pour établir le rapport entre votre recherche et le résultat donné par Google (même s’il ne s’agit pas d’un critère de classement ; sujet, que nous aborderons par la suite). Vous remarquez que votre mot clé apparaît en gras.

- L’adresse du site web, en vert : c’est peut-être le plus important à observer. Cela vous renseigne immédiatement sur l’origine de l’information : est-ce un site perso, un site commercial, une page suisse, canadienne, institutionnelle, etc. Sans préjuger d’une quelconque association a priori entre la fiabilité d’une information et son origine, il importe toutefois de prendre l’habitude de regarder systématiquement l’adresse pour essayer de répondre le plus tôt possible à la question : qui me parle ?

PageRank

Passons, à présent, à la question du critère de tri de Google.

Pour quelle raison, par exemple, Wikipedia arrive-t-elle en tête des résultats pour la recherche rossinante ?

Nous l’avons constaté lors de l’atelier : il s’agit d’un article aussi maigre et dépourvu que le personnage qui en est l’objet.

Nous aurons l’occasion de revenir sur Wikipedia pour expliquer comment fonctionne cette encyclopédie très particulière ; en attendant, un constat s’impose : Google ne classe pas les résultats en fonction de critères qualitatifs ou quantitatifs ayant cours, par exemple, dans la presse ou l’édition. Il est vraisemblable que, selon ces critères, d’autres résultats seraient arrivés en tête.

Contrairement à certains annuaires, ce ne sont pas des humains qui procèdent manuellement à un classement. Nous l’avons vu, il s’agit d’un algorithme (voir support) ; donc d’un programme, d’une procédure automatisée.

Ce point est essentiel : comme je l’ai déjà souligné, il ne faut pas attendre d’un moteur qu’il apporte autre chose que ce pour quoi il a été conçu. Ce n’est qu’en acceptant, au contraire, ce principe élémentaire de réalité - un chat est un chat - qu’on peut arriver à comprendre les logiques de fonctionnement des technologies numériques pour les utiliser, voire les contourner en toute connaissance de cause.

Le moteur de recherche Google a intégré dans son algorithme un critère de tri qui faisait défaut jusqu’alors à ses concurrents : la popularité.

Gosso-modo : un site est considéré comme populaire par Google, en fonction du nombre de liens hypertextes dont il fait l’objet depuis d’autres sites. Voilà donc la raison pour laquelle, indépendamment de son contenu, Wikipedia arrive en tête de résultat dans notre exemple : Wikipedia est extrêmement populaire sur Internet. Cela ne désigne pas seulement le fait que de nombreux visiteurs consultent ce site, mais cela indique surtout que de très nombreuses pages Web contiennent des liens hypertextes vers Wikipedia.

La popularité représente donc l’une des principales règles permettant de définir le PageRank d’un site sur Google ; c’est à dire la place occupée parmi les milliers (voir millions) de résultats sur un même mot recherché.

Cette question prend souvent une importance démesurée (voire obsessionnelle) pour certaines catégories d’usagers d’Internet : webmestres, blogueurs, consultants, entrepreneurs... bref, tout ceux qui ont quelque chose à promouvoir par Internet.

Même si vous ne vous rangez pas dans ces catégories, vous avez certainement tout intérêt à savoir comment fonctionne le PageRank
, ne serait-ce que pour comprendre les résultats de Google.

Pour en savoir plus, lisez ceci :

http://www.webrankinfo.com/google/pagerank/

La publicité

Tapons, à présent, un autre mot-clé dans le champ de recherche de Google : cheval.

Voilà typiquement le genre de recherche trop générale : 20 900 000 résultats. Un contre-exemple parfait. Le thème est beaucoup trop vaste ; du coup, je suis submergé d’une quantité d’information à retraiter. Mieux aurait fallu ajouter un deux autres mots clé pour affiner la recherche.

Le but de la manœuvre, dans cet exemple, ne consiste pas à effectuer une recherche particulière mais à montrer certains types de résultats qu’il est très fréquent de retrouver sur Google (comme d’ailleurs sur la plupart des moteurs de recherche) : les liens commerciaux, ici visibles en haut de page et dans la colonne de droite :

Le principe : des sites achètent aux enchère des mots clés sur Google, en sorte qu’ils arrivent en tête de classement.

Afin d’éviter toute confusion, les insertions publicitaires des moteurs de recherche sont explicitement (mais discrètement) indiquées comme telles : encadrées d’un fond tramé coloré et accompagnées de la mention "liens commerciaux".

Lien commercial n’est pas obligatoirement synonyme d’escroquerie. Dans certains cas, notamment si vous recherchez, justement, un service commercial, ces insertions peuvent même être très utiles. Mais si l’on effectue une recherche d’une autre nature (par exemple, information ou documentation) il est préférable de s’en tenir au sens commun : un lien commercial, par définition, n’a d’autre finalité que d’inciter l’internaute à acheter des produits ou des services.

La publicité, comme nous aurons souvent l’occasion de le vérifier, est le principal (si ce n’est le seul) modèle économique de services en ligne, tels que les moteurs de recherche, messageries, partage de fichiers, web communautaire, etc.

Ces petits bandeaux colorés rapportent des fortunes à Google. Des sommes astronomiques, immédiatement réinvesties pour assurer à l’entreprise une place de leader sur ce nouveau marché des services en ligne. En ce moment, pour contrer cette hégémonie, Microsoft - autre poids lourd, qu’il est inutile de présenter - essaye de d’avaler Yahoo. Vous en avez certainement entendu parler. Combat de coqs, combats de titans : pas spécialement excitant, tout ça.

Voilà de quoi sont faites, aussi, les technologies numériques.

Support suivant : logique générale des moteurs de recherche