ATTENTION : ces archives ne sont plus tenues à jour, des liens peuvent être brisés.

À découvrir, à tester : Google Ngram Viewer

Google à mis au point un nouvel outil d’analyse textuelle qui permet de mesurer la fréquence de un ou plusieurs mots parmi 5,2 millions de livres provenant de Google Books depuis les années 1800. Le corpus linguistique couvert comprend plusieurs langues. Cet outil permet, à partir de la base de données des livres numérisés de Google Books, de repérer l’évolution de l’usage des mots. Plusieurs articles analysent les performances de cet outil.

Culture visuelle

Dans Culture Visuelle, Patrick Peccatte, précise, dans un article du 11 janvier, intitulé L’interprétation des graphiques produits par Ngram Viewer : « Il [Ngram Viewer] permet de visualiser sous forme de graphiques les fréquences d’apparition de suites de mots dans les livres numérisés depuis 2003 sur Google Books. Ce projet a été initié en 2007 par un mathématicien et physicien américain, Erez Lieberman Aiden. Il a été soutenu par Google Labs et développé par des chercheurs de Harvard, en particulier Jean-Baptiste Michel, jeune polytechnicien français. »

L’auteur se montre critique dans son analyse et regrette par exemple que cet outil « empêche toute contextualisation des résultats (quel livre, quelle page, quel paragraphe contiennent telle suite de mots). L’utilisateur ne dispose que de statistiques extrêmement sommaires et synthétiques, mais il en voit énormément. »

Plusieurs graphiques sont proposés et analysés de façon critique par rapport à l’outil, voir par exemple le graphique concernant les mots : télégraphe - téléphone - radio - télévision - Internet - internet.

Culture visuelle, 11/01/2011

Quanti

La revue Quanti, spécialisée dans les sciences sociales, dans un article du 12 janvier, indique : « Google a récemment mis à disposition une partie de ce corpus sous la forme d’un outil, nommé Books Ngram Viewer, qui permet de représenter graphiquement les fréquences d’un mot ou d’une expression au cours du temps dans différentes langues, avec la possibilité de comparer plusieurs mots ou expressions, ce qui laisse la place à toutes sortes d’expérimentations. On peut par exemple comparer l’évolution des fréquences d’apparition de certaines disciplines en sciences humaines et sociales ».

Elle propose ainsi plusieurs graphiques sur la fréquence des mots entre 1800 et 2000, par exemple :

  • Sociologie - économie - philosophie - psychologie
  • Nazisme - communisme - capitalisme - anarchisme
  • Management - grève - précarité

Quanti, 12/01/2010

OWNI.eu

Un billet de Mary C. Joyce a été repris sur OWNI.eu., précédemment publié sur Meta Activism Project. Il comprend plusieurs exemples de graphiques de mots établis avec Books Ngram Viewer. Un exemple :

Guerre - paix - démocratie :

Pour la comparaison de la fréquence de ces trois mots, l’auteur explique : « Le premier graphique montre la fréquence des mots guerre, paix et démocratie depuis 1800. Sans surprise, les plus grand pics d’occurrence pour le mot guerre ont lieu durant la Première et la Seconde Guerre mondiale.

Chaque fois que de nombreux écrits sont consacrés à la guerre, une petite quantité parlent de paix, légèrement plus lors de la Première Guerre mondiale que pendant la Seconde…  »

OWNI.eu , 09/01/2011

À la toison d’or

Un article publié sur le blog A la toison d’or montre les limites de l’outil relatif à l’OCR pour les corpus de livres anciens. L’auteur déclare  : « il est de toute première instance que les OCR fassent des progrès sur les typographies anciennes… »

Cette ſ [s long], de forme inhabituelle pour l’œil actuel, est pris pour une f par les OCR. Google nous permet donc d’obtenir de très belles statistiques sur les mots « eft » ou « prefque »… »

Et conclut : « Outil à prendre pour l’instant avec des pincettes sur les textes anciens, donc… »

En nuançant : « Remarquons tout de même que pour étudier l’usage de l’s long, c’est pas mal du tout (disparition plus tardive que ce que je pensais). »

À la Toison d’or, 20/12/2010 

À vous de tester Google Ngram Viewer
Voici un exemple sur le corpus français, pour les mots TICE et numérique entre 2000 et 2008.