ATTENTION : ces archives ne sont plus tenues à jour, des liens peuvent être brisés.

Indexation de ressources

Séminaire SDTICE 2007

Interventions du 26 mars

Un éclairage externe : intervention d'un expert "extérieur"

 Olivier ANDRIEU (Abondance)

"Comment obtenir une visibilité sur les moteurs de recherche généralistes ?", interroge Olivier Andrieu, consultant indépendant du cabinet Abondance (www.abondance.com). Selon lui, il n'y a  "plus d’autre choix que d’imaginer un site en fonction des moteurs de recherche, quand on élabore le contenu du site, la ligne éditoriale, etc. " Il identifie "trois sources de trafic sur un site web, qui s’équilibrent : un tiers avec des liens directs de site à site, un tiers d'accès directs et par les favoris en tapant l’adresse du site dans la barre web du navigateur, un tiers qui vient des outils de recherche, les moteurs. L’idéal est de bien harmoniser les trois". Pour l’Europe, "90% du trafic moteurs est généré par Google. Sur la France apparaissent des outsiders comme  voilà.fr. Il y a des centaines d’outils mais 99% du trafic sont représentés par 10 outils. Aux Etats-Unis, Google est majoritaire à 50% avec une présence plus forte de MSN et de Yahoo ! qu'en Europe. Google est encore moins utilisé en Asie". "On ne sait pas parfaitement comment Google fonctionne, mais on a quand même quelques pistes de réflexion », poursuit Olivier Andrieu. "La plupart des moteurs de recherche sont, dans les grandes lignes, des clones de Google. Il y a eu très peu d’innovation depuis son arrivée, en 1998. Les grands outsiders ont une stratégie de clonage".

"Comment fonctionnent les moteurs de recherche ?" Telle est la question posée par Olivier Andrieu, qui veut donner des indications sur les mécanismes qui permettent de rendre un site visible efficacement. Il s'agit d'un système qui référence les pages web,  et leur code HTML, il est basé sur un index de 25 milliards de pages qui représentent le web "utile", pour un moteur généraliste. Les moteurs savent dire si la page est écrite dans une langue, mais pas si elle est multilingue. Il faut donc faire attention à publier en une seule langue. Le moteur de recherche crée maintenant des index à partir de spiders [1] alors qu’auparavant il fallait soumettre le site, voire l’adresse de toutes les pages. Le référencement est maintenant automatisé par ces logiciels spiders qui suivent tous les liens et sauvegardent le code HTML des pages. En deux jours, tout un site est indexé par les moteurs, si les choses sont bien faites. Les spiders calculent la fréquence de mise à jour des pages des sites pour s’adapter au mieux aux délais de mise à jour. Olivier Andrieu souligne qu'il y a « une façon de créer les documents pour se faire référencer et une façon de mettre en valeur les liens de ses pages".

Le référencement est l'ensemble des techniques qui permettent d'inscrire un site dans les moteurs de recherche ou dans les annuaires : c’est l'art d’avoir la présence la plus massive possible de ses pages dans les moteurs. Ce n'est pas pareil que le positionnement. Le référencement de sites web s'articule donc par la mise en place des deux stratégies distinctes et complémentaires : le référencement naturel et les liens sponsorisés. La première stratégie passe par une phase d'indexation (c’est-à-dire une prise en compte) du site par les outils de recherche, puis une phase de positionnement de ces sites sur les résultats naturels des outils de recherche lors d'une recherche faite par les internautes. Il existe le référencement payant chez Yahoo ! et  voila.fr pour une garantie d’indexation des pages, sans garantie de positionnement. Ce qui marche pour bien indexer son site, c’est un lien vers le site depuis des pages populaires.

"Aujourd’hui le travail se fait sur les liens : externes et internes ", reprend Olivier Andrieu. Le format Sitemaps de Google (www.google.fr/webmasters/sitemaps), en XML, est un fichier de type "plan du site" qui permet de fournir aux moteurs de recherche des informations pour chaque page. Ce standard est récent. Les sites web qui en ont mis un sont bien mieux indexés que les autres, sans que ça joue sur leur positionnement. Pour apparaître dans les premières positions des moteurs de recherche, il faut retenir plusieurs "critères importants". Il faut d'abord voir "comment est construite la page au niveau du titre du document en HTML (balise title), un des champs les plus importants, qui doit contenir entre sept et dix mots. C’est une balise HTML avec un titre qui doit décrire parfaitement le contenu de la page. Deuxième critère, le texte, qui doit être organisé pour faciliter la lecture : par exemple avec les mots importants en gras par souci d’ergonomie. Le plus important est tout ce que voit l’internaute. Les balises META description [2] ne servent plus au référencement des moteurs, ne rentrent plus du tout dans les algorithmes sur les critères de pertinence".

"Le système de PageRank est lié à l’aspect quantitatif de liens qui pointent vers une page -pas un site - et à la qualité, la popularité de ces liens". La présence de mots-clés dans le nom de domaine et l’url sont aussi très importants. L'indice de réputation : le PageRank (terme anglais signifiant  "classement d'une page") ou PR, désigne le système de classement des pages Web utilisé par le moteur de recherche Google pour attribuer l'ordre des liens dans les résultats de recherche. Il correspond à ce qui fait que les moteurs arrivent à trouver des pages sans les mots-clés, donc plutôt sur les liens visibles : une page parle de formation continue, il faut que les liens internes ou externes pointent sur « formation continue en comptabilité" par exemple. Ce qu’il ne faut pas faire, c’est d’avoir un lien sur "cliquez ici". Google prend aussi en compte la notion de TrustRank, un indice de confiance donné en partie par des être humains avec des sites de confiance, par exemple Wikipedia. Selon Olivier Andrieu, "les six critères les plus importants pour avoir la visibilité sont le titre, le texte visible, le PageRank, l'indice de réputation, les mots-clés dans l’url, le TrustRank. L’immense majorité des sites ne sont pas conçus à partir de ces contraintes. Pour avoir un bon positionnement, il faut avoir optimisé le site quand on a créé le code HTML, quand on utilise le CMS, etc., faire de la réécriture d’Url s’il y a des identifications de session ou des passages de paramètres, par exemple, etc." . Le même principe s'applique aux images et vidéos.

"Il est impossible de dire quel sera l’avenir du référencement », continue Olivier Andrieu. Il faudrait déjà savoir ce qu’il faut faire pour détrôner Google... La dernière grande innovation était le PageRank. Aujourd’hui de nouvelles voies de recherche rencontrent du succès, tel le web sémantique. De nouvelles gammes de produits intègrent la prise en compte des métadonnées pour le web sémantique. Par exemple le moteur de recherche français Exalead qui propose de nouvelles fonctionnalités pour se démarquer de ce que fait Google, la reconnaissance des contenus pour affiner les recherches (à partir du mot « Jaguar » distinguer l'animal, de la voiture, du système d'exploitation Mac OS, etc.). D'autres pistes existent aussi avec des outils de cartographie comme Kartoo ou le système du genre de Google Earth avec la cartographie satellite, une personnalisation en fonction du profil d’utilisateur et des recherches antérieures, etc. Le "Google killer" n'est pas encore trouvé mais il y a beaucoup de prise en compte des aspects communautaires.

 Questions

Les établissements sont « assis sur un trésor de mots-clés, il faudrait qu’on travaille dessus », remarque Gilles Bertin. Pour Olivier Andrieu, "il faut parfois revoir le contenu avec de la réécriture de titres par exemple. Ce n’est pas technique, c’est de la méthodologie, du temps à passer avec quelques gestes à comprendre. Il faut travailler sur certains points précis qui permettent de démultiplier le trafic".

"Quelles recommandations faites-vous sur les CSM ?",  demande Gilles Bertin. "Certains peuvent être bloquants car pas assez souples, mais il n'y a pas de problème a priori, dès qu’il génère du code HTML propre, répond Olivier Andrieu. Le CSM permet même d’automatiser un certain nombre de tâches".

________

[1] La balise meta description se place dans le code HTML, juste derrière la meta balise titre <TITLE> </TITLE>.
Le contenu de cette balise est une description concise du contenu de la page internet. Il ne doit pas excéder 200 caractères et reprendre les mots clés les plus pertinents pour décrire votre page. Pour un meilleur référencement, il est préférable de construire ce descriptif à l'aide de quelques phrases bien tournées plutôt qu'une simple succession de mots clés

[2] Un robot d'indexation (ou araignée ; en anglais web crawler ou web spider) est un logiciel qui explore automatiquement le Web. Il est généralement conçu pour collecter les ressources (pages Web, images, vidéos, documents Word, PDF ou PostScript, etc.), afin de permettre à un moteur de recherche de les indexer.