Archive

Articles taggués ‘Études et analyses’
3 commentaires 30/04/2012

Wikipédia, une mine d’or pour les chercheurs en TALN

par Dominique Laurent, éditeur de logiciels de correction, que nous avons invité à exposer pour nos lecteurs l’usage qu’il a fait des articles de Wikipédia dans sa récente recherche et son analyse des fautes de français.

Auteur de l’ouvrage Les Vraies Difficultés du français au XXIe siècle, je me suis appuyé pour ce travail sur l’étude de Wikipédia, à travers une comparaison des versions de chacune des pages, cette comparaison permettant d’extraire au final plus de trois millions de fautes d’orthographe et de grammaire. Au-delà de cet ouvrage (voir préface et table des matières) et de mon travail quotidien de développement de logiciels de correction de la langue française (Cordial, dans ses différentes versions), je voudrais ici tenter de montrer en quoi Wikipédia est une mine d’or pour la recherche en traitement automatique du langage naturel (TALN), pour la langue française comme pour les autres langues.

Les pages de Wikipédia comme corpus

Nous utilisons, et de nombreux chercheurs utilisent, l’ensemble des pages de Wikipédia comme corpus. Pour ce qui nous concerne, sur un corpus global de 22 milliards de caractères, l’encyclopédie (dans sa version de novembre 2011) représente 13,4 % de la totalité de nos corpus. Le corpus Wikipédia a ses spécificités, en particulier la proportion relativement importante de noms propres (trois par phrase en moyenne) et de données chiffrées ou de dates. Il n’est pas dépourvu de fautes mais offre tout de même un bon niveau orthographique, comparable à celui des corpus journalistiques et sensiblement supérieur à celui des corpus Web (hors Wikipédia), sans comparaison avec ceux issus de forums de discussion.
Les corpus (certains préconisent le pluriel latin corpora) sont le pain quotidien des chercheurs en TALN. Ils permettent de tester des hypothèses, de mesurer la fréquence des mots et des phénomènes linguistiques (apostrophes, anaphores, métaphores, etc.). Leur mise à jour et leur étude comparée permettent d’évaluer les vocabulaires spécifiques à un domaine ou à une époque. Le corpus Wikipédia offre, au surplus, un accès libre, ce qui n’est pas le cas de la plupart des autres corpus qui ne peuvent être utilisés, même à des fins de recherche, sans accord des auteurs ou des ayants droit, sauf lorsque le délai de copyright a expiré, les textes ne pouvant alors représenter l’état de la langue actuelle.

L’historique de Wikipédia comme corpus

Nous avons massivement utilisé le dump complet de Wikipédia pour l’extraction des fautes et de leurs corrections. Ce corpus occupait fin 2011 plus de 900 gigaoctets, une fois décompressé, et, même dégagé des pages de discussion, des pages utilitaires ou d’homonymie ainsi que des traductions et catégories, inutiles pour notre travail, l’ensemble reste très volumineux, certaines pages ayant plusieurs milliers de versions. Seule l’extraction des corrections nous a intéressés mais de nombreux traitements sont imaginables à partir de cette base très précieuse. Même sur les corrections, on pourrait imaginer de relever le délai entre la faute et sa correction ou (probablement plus significatif) le nombre de versions entre la faute et sa correction. On pourrait également comparer l’identifiant des auteurs de fautes et des auteurs de corrections qui, lorsqu’ils sont identiques, permettent de penser que ces fautes sont plutôt des fautes de frappe que des fautes de méconnaissance de la langue.
L’historique peut également être utilisé pour détecter des paraphrases (voir par exemple l’article et la présentation de Delphine Bernhard, du laboratoire Limsi, à CBA 2010 : http://stel.ub.edu/cba2010/slides2010/paraphrasing/afternoon/dutrey.pdf). D’autres pistes ont été ouvertes par d’autres chercheurs, entre autres les précurseurs Rani Nelken et Elif Yamangil de l’université de Harvard (http://www.eecs.harvard.edu/~elif/pubs/eggcorn.pdf).

Autres ressources de Wikipédia

Les données encyclopédiques de Wikipédia peuvent également être utilisées pour constituer des bases de données et améliorer l’analyse des textes, en fournissant des informations pragmatiques aidant à leur compréhension. C’est l’objet du projet DBpedia (Universités de Leipzig et Berlin) mais de nombreuses équipes de recherche ont extrait à partir de la Wikipédia anglophone ou à partir de versions dans d’autres langues des données sur les personnes, les lieux, les événements ou même sur les animaux et les plantes. Pour ce qui concerne les noms de lieux et la géolocalisation, Wikipédia est toutefois moins utilisée que la base Geonames.
Le Wiktionnaire est un projet distinct de Wikipédia mais il est également de plus en plus utilisé par les chercheurs, même si la lexicographie demande une rigueur qui est parfois absente de certaines contributions (voir l’article de G. Sérasset, J. Goulian et D. Schwab : « Extraire un réseau lexical des wiktionnaires multilingues », TALN 2011, Montpellier, 27 juin-1er juillet 2011).

Quelques aléas de Wikipédia

L’encyclopédie collaborative n’a pas été conçue pour les chercheurs en traitement du langage. Il est d’ailleurs amusant de constater que l’autre ressource principalement utilisée en TALN, à savoir WordNet, avait été conçue plutôt dans un objectif d’analyse psychologique et cognitive que pour un usage linguistique.
Tout chercheur utilisant Wikipédia est rapidement confronté aux limitations de ce corpus. L’exemple le plus frappant est l’absence de catégorie homme/femme. Cette absence de différenciation par sexe est une limitation importante à l’utilisation de Wikipédia en tant que ressource lexicologique, du moins pour ce qui est des noms de personnes. De même l’absence de catégorisation grammaticale pour les noms propres (pour les noms communs, le Wiktionnaire n’a pas ce défaut) est une autre limite.
Pour avoir essayé d’utiliser les catégories de Wikipédia pour replacer les noms propres dans notre vaste réseau sémantique, je peux également émettre des réserves dans ce domaine. Les catégories comportent en effet trop souvent des mélanges d’ensembles et de parties (hyperonymes et hyponymes), certaines catégories font parfois double emploi avec d’autres catégories, et sont surtout mal renseignées par de nombreux contributeurs. Les subdivisions par pays sont souvent source de doublettes. Ainsi 61 sociétés américaines figurent dans la catégorie « éditeur de logiciel américain » mais un plus grand nombre d’autres figurent dans la catégorie « éditeur de logiciel » sans précision de pays. Peut-être faudrait-il fournir aux contributeurs des outils permettant de mieux repérer les catégories ou peut-être faudrait-il développer des outils de remise à niveau des catégories ?

Wikipédia aide les chercheurs et ceux-ci aident Wikipédia

Je n’aborderai ici que les contributions de notre société à Wikipédia, manquant d’informations sur les contributions éventuelles d’autres chercheurs. Ayant confronté nos données sur les noms propres à celles de Wikipédia, cette confrontation nous a permis naturellement de découvrir des erreurs dans nos données mais également dans celles de Wikipédia, par exemple des personnes ayant une date de décès inférieure ou égale à leur date de naissance (Luc Desnoyers par exemple, correction du 23 avril 2010, ou Johnny Williams indiqué comme né en 1882 au lieu de 1982, etc.). Bien qu’ils ne soient pas les auteurs des pages sur notre société ou nos produits, plusieurs salariés sont par ailleurs contributeurs, mais c’est une autre histoire !

Dominique Laurent

5 commentaires 23/05/2011

Wikipédia au collège, ami ou ennemi ?

Salle multimédia du CDI du lycée Pierre-et-Marie-Curie

Le CDI du lycée Pierre-et-Marie-Curie, Indre.
(Lycée PMC, domaine public)

La revue de l’Association des professionnels de l’information et de la documentation (ADBS), Documentaliste / sciences de l’information, propose, dans sa livraison de mars 2011, un article d’Anne Cordier intitulé « Les collégiens et la recherche d’informations sur Internet : entre imaginaire, contraintes et prescriptions ».

Doctorante en sciences de l’information et de la documentation à l’université de Lille 3, l’auteur s’appuie sur deux ans d’observation au sein de trois collèges différents, plus spécialement auprès d’élèves de sixième. Elle en déduit que les élèves n’ont le sentiment de se livrer à une recherche sur Internet que lorsque celle-ci se fait dans un cadre formel, soit au collège soit pour le collège ; inversement l’utilisation d’Internet a des fins personnelles n’est jamais perçue comme une recherche, alors même que la démarche relève souvent d’une recherche d’information. L’étude montre aussi que les jeunes collégiens comprennent relativement bien la nécessité d’une utilisation d’Internet sous surveillance d’un aîné (grande sœur, enseignant ou parent), mais pas forcément la manière dont celle-ci s’exerce.

Car il semble bien qu’Internet suscite une certaine méfiance de la part du corps enseignant et spécialement des professeurs documentalistes : accès à Internet soumis à autorisation, nécessité d’indiquer l’objet de la recherche, surveillance accrue. Cela peut aller plus loin : à un élève demandant son aide devant un écran de résultats d’une recherche de site, un documentaliste va tout simplement fermer le navigateur et renvoyer l’élève sur l’outil BCDI (logiciel documentaire du CDI). Selon l’auteur de l’étude, cette attitude des enseignants aurait deux buts : développer chez les collégiens une forme de « culture livresque », mais aussi contribuer à légitimer leur propre rôle professionnel.

Or, il ressort aussi de l’étude que Wikipédia est un des sites qui cristallise les différences d’attitudes entre les collégiens et leurs enseignants. Les premiers semblent apprécier l’encyclopédie collaborative, les seconds goûtent moins que leurs élèves s’en servent. Cela se traduit par des stratégies d’évitement ou de contournement de la part des adolescents. C’est ainsi que Chloé (collège B) prend des infos sur Wikipédia… mais affiche le plus vite possible une autre page, car, dit-elle, le professeur « va pas aimer ça du tout » !

Bibliothèque de la Kenneth Comprehensive School

Bibliothèque de la Kenneth Comprehensive School, Angleterre.
(Robertvan1, CC-BY)

Il faut bien sûr se garder de tirer des conclusions hâtives de la lecture d’un article ne faisant que résumer une recherche dont le travail de terrain porte sur trois collèges. Il semble tout de même que ces professeurs documentalistes, ont, dans leur approche avec les élèves, des attitudes pratiquement conservatrices voire réactionnaires dans la mesure où elles se construisent en réaction aux démarches « documentaires » des élèves. Quant à la défiance vis-à-vis de Wikipédia, ses causes sont sans doutes multiples, mais résident sûrement en grande partie dans le supposé manque de fiabilité d’une encyclopédie où chacun peut écrire, et donc rédigée par des amateurs. Sans doute aussi au fait que les enseignants ne souhaitent pas que les élèves bornent une recherche à un ou deux articles de l’encyclopédie collaborative. Il serait sans doute utile de sensibiliser davantage les professeurs documentalistes au cours de leur formation initiale et continue, comme lors de la journée réalisée il y a deux ans à Poitiers. Sans oublier le rôle que peut jouer Vikidia auprès des élèves et de leurs enseignants.

8 commentaires 20/04/2011

Mais qui sont les wikipédiens ? Résultats d’étude

Au tout début de l’année 2011, le laboratoire M@rsouin de TELECOM Bretagne a mené une grande étude sur les utilisateurs (lecteurs et contributeurs) de Wikipédia. Cette enquête a été réalisée dans le cadre du projet ANR CCCP-Prosodie (cccp-prosodie.org) et en partenariat avec Wikimédia France, qui a notamment participé à l’élaboration des questionnaires, afin que cette enquête puisse poser aux lecteurs et contributeurs des questions adaptées à leur expérience d’utilisation de Wikipédia.
Cette enquête est encore en cours d’analyse et de traitement par l’équipe de TELECOM Bretagne, mais Nicolas Jullien, qui a coordonné le projet en partenariat avec Wikimédia France, a souhaité nous livrer quelques premiers résultats, qui pourront déjà permettre de découvrir, bousculer ou conforter quelques idées qu’on pouvait avoir sur les usages de Wikipédia et la population de ces usagers. Les résultats définitifs de cette étude seront publiés dans les mois qui viennent, nous nous en ferons l’écho ici.


Cliquez sur les schémas pour les voir en taille réelle


Qui sont les répondants ?


Nous avons eu plus de 16000 réponses au questionnaire et 13627 réponses utilisables, 30,8% de femmes et 68,3% d’hommes (le reste n’a pas répondu), alors que la répartition des internautes entre hommes et femmes est de 51%-49%, en France1. La répartition des âges est la suivante (illustration 1) :

Répartition des âges des répondants à l’enquête Wikipédia

Cette répartition est à mettre en regard de la répartition des internautes (en France, en 2010) :

Répartition des internautes français par tranche d’âge (source CREDOC)

On voit que les wikipédiens qui nous ont répondu sont plus jeunes que la moyenne des internautes.
Ils sont aussi beaucoup plus nombreux que les internautes à avoir une « profession » où la recherche d’information tient une place importante : lycéens et étudiants (on retrouve l’effet âge), mais aussi les cadres, avec une grosse sous-représentation des ouvriers et des employés.

Répartition des wikipédiens répondants par catégorie socio-professionnelle

Sur cette population de répondants, la grande majorité sont de « simples » lecteurs.

Répartition des répondants suivant leur niveau de contribution à Wikipédia

Où l’on constate que la « règle » des 80-20 (80% d’utilisateurs et 20% de contributeurs) semble à peu près respectée dans Wikipédia aussi…

date de la 1ère utilisation de Wikipédia


Les usages de Wikipédia.


Constatons d’abord que Wikipédia est utilisé, avant tout, comme source d’information pour la culture générale, encore plus que pour le travail (Illustration 7). Si l’on prenait une image, il s’agirait plus d’une encyclopédie que d’un référentiel pointu des connaissances.

Opinion sur l’usage de Wikipédia

Au delà des usages, on peut se demander ce que les utilisateurs perçoivent du fonctionnement du projet, par exemple de ce que les utilisateurs peuvent faire avec les articles (la licence). Comme le montre l’Illustration 8, cela reste une connaissance assez abstraite, et, de toute façon, complexe : seul un tiers des répondants est capable d’en comprendre la signification.

Ce que les utilisateurs connaissent de la licence des articles Wikipedia


Qui sont les contributeurs ?


Il existe deux grands types de contributeurs : ceux qui ont fait un ou deux essais, et qui ne sont pas allés plus loin, et les contributeurs « réguliers », un peu plus de 300 se considérant même comme des « gros » contributeur (question A4).

Le profil de ces contributeurs est un peu différent de la population globale des répondants, comme le montrent les graphiques suivant :
Même si les jeunes restent majoritaires, les contributeurs sont plus âgés, et plutôt en emploi qu’étudiants ou scolaires.

Répartition des contributeurs par âgeRépartition des contributeurs réguliers par âge

Et ces personnes sont, encore plus que pour les lecteurs, des « manipulateurs d’information ».

Répartition des répondants contributeurs par catégorie socio-professionnelleRépartition des contributeurs répondants réguliers par catégorie socio-professionnelle

Notamment, la part des cadres supérieurs est significativement plus importante. Pour contribuer, il faut avoir des connaissances, mais aussi des compétences, des habitudes, de manipulation de données, d’écriture et de mise en forme. Par contre, la répartition des contributeurs selon leur ancienneté d’utilisation de Wikipédia ne semble pas très différente de celle des lecteurs, même s’il y a un léger décalage vers la gauche (les contributeurs sont un peu plus anciens que les lecteurs).

Enfin, l’activité de contribution est encore plus « sexuée » que l’usage, puisque les contributeurs sont à 80% des hommes, et les contributeurs réguliers à plus de 86%.

Répartition des contributeurs selon leur année de 1ère utilisation de WikipédiaRépartition des contributeurs réguliers selon leur année de 1ère utilisation de Wikipédia

Sur les objectifs, la façon dont on utilise Wikipédia, là encore, les contributeurs ne se différencient pas des lecteurs, avec un accent mis surtout sur la culture générale, bien plus que sur le travail.

Opinion des contributeurs sur l’usage de Wikipédia

Opinion des contributeurs réguliers sur l’usage de Wikipédia

Source : http://www.arcep.fr/uploads/tx_gspublication/rapport-credoc-2010-101210.pdf retravaillé sur les internautes par OPSIS/M@rsouin, comme tous les chiffres suivants donnés sur les internautes.

un commentaire 25/01/2011

Lancement d’un questionnaire sur les usages de Wikipédia

Une équipe de chercheurs vient de lancer une enquête sur les usages de Wikipédia.  Voici la présentation de cette enquête :

Comment utilisez-vous Wikipédia ? Dans quel but ?

À l’occasion des dix ans de l’encyclopédie, notre équipe de chercheurs souhaite mieux comprendre vos usages. Ce questionnaire a été relu par des membres de l’association Wikimédia France, qui soutient le projet Wikipédia.

Que ce soit dans le cadre de vos études, de votre travail, de votre passion, de vos loisirs, que vous soyez lecteur ou contributeur, votre avis nous intéresse !

Répondre vous prendra entre 5 et 15 minutes, certaines questions dépendant de vos réponses précédentes.

Les réponses seront traitées statistiquement et anonymement. Vos réponses seront prises en compte jusqu’au 13 février 2011.

Quelques membres de Wikimédia France ont pu rencontrer cette équipe de chercheurs et échanger avec eux en novembre 2010.  Ces dernières semaines, plusieurs membres de l’association ont réagi aux dernières versions du questionnaire et ont permis de l’améliorer.  Nous espérons que les wikipédiens, simples lecteurs ou « gros contributeurs » seront très nombreux à répondre à ce questionnaire, dont les résultats nous intéressent tous !

14 commentaires 03/03/2010

Appréhender la véritable taille de Wikipédia

Wikipédia est un projet véritablement gigantesque, tant d’un point de vue technique que humain. On compare souvent ce projet à d’autres encyclopédies qui seraient, au choix, plus fiables, plus pertinentes, mieux illustrées, etc.  Ce faisant, on oublie que la comparaison est délicate, tant elle traite de sujets différents en définitive.

Un des aspects de cette différence est la taille. Il existe des Wikipédia en 250 langues (avec des contenus différents). 250 langues différentes, deux-cent cinquante langues. Considérant toutes ces langues, Wikipédia est formée [1] de 28 500 000 articles, vingt-huit millions cinq-cent mille articles. On peut y ajouter la médiathèque (Wikimédia Commons), formée de 5,6 millions de fichiers [2]. Tout cela est visité chaque mois par 346 000 000 visiteurs uniques, trois-cent quarante-six millions de visiteurs.

Pris ensemble, ces chiffres sont énormes et n’ont rien de commun avec tout autre projet encyclopédique existant. Comment appréhender une telle différence d’échelle ? Avec un dessin !

Des bâtiments représentants Wikipédia paraissent beaucoup plus imposants que ceux représentant Britannica, Universalis et l'Encyclopédie.

Ce graphique représente la taille de wikipédia ainsi que celle de trois autres encyclopédies généralistes « classiques ». (Cliquez pour agrandir)

La surface du toit des bâtiments est proportionnelle au nombre d’articles. Affiché dans sa taille originale, un pixel représente un article. La hauteur des bâtiments est fonction du pourcentage de conflits dans la catégorie correspondante. Les catégories et les conflits ne sont pas montrées pour les encyclopédies classiques.

Chaque fenêtre rouge correspond à 1000 éditeurs très actifs (avec plus de 100 éditions par mois), les bleus représentent 1000 contributeurs actifs (plus de 5 éditions par mois).
Chaque bonhomme bâton représente un million de visiteurs uniques par mois. Du fait du manque d’information concernant les encyclopédies classiques, il n’y a aucun visiteur dessiné près d’elles.

Certains bonhommes transportent de petits carrés, qui représentent chacun 21 nouveaux articles par mois (un pixel par article dans les proportions originales).

Les données concernant la taille et la fréquentation proviennent de la page de statistiques de la Wikimedia Foundation, celles sur la couverture thématique de l’étude de Kittur et al. dont nous avons déjà parlé.

L’image est diffusée sous licence « Creative Commons – Attribution – Partage à l’identique », vous pouvez l’améliorer en utilisant le fichier SVG source.

[1] statistiques datant de décembre 2009

[2] et est passée à 6 millions de documents le 1er février 2010

par Johann Dréo
Categories: Wikimedia Commons, Wikipédia