Archive

Archives pour la catégorie ‘Wiktionary’
3 commentaires 30/04/2012

Wikipédia, une mine d’or pour les chercheurs en TALN

par Dominique Laurent, éditeur de logiciels de correction, que nous avons invité à exposer pour nos lecteurs l’usage qu’il a fait des articles de Wikipédia dans sa récente recherche et son analyse des fautes de français.

Auteur de l’ouvrage Les Vraies Difficultés du français au XXIe siècle, je me suis appuyé pour ce travail sur l’étude de Wikipédia, à travers une comparaison des versions de chacune des pages, cette comparaison permettant d’extraire au final plus de trois millions de fautes d’orthographe et de grammaire. Au-delà de cet ouvrage (voir préface et table des matières) et de mon travail quotidien de développement de logiciels de correction de la langue française (Cordial, dans ses différentes versions), je voudrais ici tenter de montrer en quoi Wikipédia est une mine d’or pour la recherche en traitement automatique du langage naturel (TALN), pour la langue française comme pour les autres langues.

Les pages de Wikipédia comme corpus

Nous utilisons, et de nombreux chercheurs utilisent, l’ensemble des pages de Wikipédia comme corpus. Pour ce qui nous concerne, sur un corpus global de 22 milliards de caractères, l’encyclopédie (dans sa version de novembre 2011) représente 13,4 % de la totalité de nos corpus. Le corpus Wikipédia a ses spécificités, en particulier la proportion relativement importante de noms propres (trois par phrase en moyenne) et de données chiffrées ou de dates. Il n’est pas dépourvu de fautes mais offre tout de même un bon niveau orthographique, comparable à celui des corpus journalistiques et sensiblement supérieur à celui des corpus Web (hors Wikipédia), sans comparaison avec ceux issus de forums de discussion.
Les corpus (certains préconisent le pluriel latin corpora) sont le pain quotidien des chercheurs en TALN. Ils permettent de tester des hypothèses, de mesurer la fréquence des mots et des phénomènes linguistiques (apostrophes, anaphores, métaphores, etc.). Leur mise à jour et leur étude comparée permettent d’évaluer les vocabulaires spécifiques à un domaine ou à une époque. Le corpus Wikipédia offre, au surplus, un accès libre, ce qui n’est pas le cas de la plupart des autres corpus qui ne peuvent être utilisés, même à des fins de recherche, sans accord des auteurs ou des ayants droit, sauf lorsque le délai de copyright a expiré, les textes ne pouvant alors représenter l’état de la langue actuelle.

L’historique de Wikipédia comme corpus

Nous avons massivement utilisé le dump complet de Wikipédia pour l’extraction des fautes et de leurs corrections. Ce corpus occupait fin 2011 plus de 900 gigaoctets, une fois décompressé, et, même dégagé des pages de discussion, des pages utilitaires ou d’homonymie ainsi que des traductions et catégories, inutiles pour notre travail, l’ensemble reste très volumineux, certaines pages ayant plusieurs milliers de versions. Seule l’extraction des corrections nous a intéressés mais de nombreux traitements sont imaginables à partir de cette base très précieuse. Même sur les corrections, on pourrait imaginer de relever le délai entre la faute et sa correction ou (probablement plus significatif) le nombre de versions entre la faute et sa correction. On pourrait également comparer l’identifiant des auteurs de fautes et des auteurs de corrections qui, lorsqu’ils sont identiques, permettent de penser que ces fautes sont plutôt des fautes de frappe que des fautes de méconnaissance de la langue.
L’historique peut également être utilisé pour détecter des paraphrases (voir par exemple l’article et la présentation de Delphine Bernhard, du laboratoire Limsi, à CBA 2010 : http://stel.ub.edu/cba2010/slides2010/paraphrasing/afternoon/dutrey.pdf). D’autres pistes ont été ouvertes par d’autres chercheurs, entre autres les précurseurs Rani Nelken et Elif Yamangil de l’université de Harvard (http://www.eecs.harvard.edu/~elif/pubs/eggcorn.pdf).

Autres ressources de Wikipédia

Les données encyclopédiques de Wikipédia peuvent également être utilisées pour constituer des bases de données et améliorer l’analyse des textes, en fournissant des informations pragmatiques aidant à leur compréhension. C’est l’objet du projet DBpedia (Universités de Leipzig et Berlin) mais de nombreuses équipes de recherche ont extrait à partir de la Wikipédia anglophone ou à partir de versions dans d’autres langues des données sur les personnes, les lieux, les événements ou même sur les animaux et les plantes. Pour ce qui concerne les noms de lieux et la géolocalisation, Wikipédia est toutefois moins utilisée que la base Geonames.
Le Wiktionnaire est un projet distinct de Wikipédia mais il est également de plus en plus utilisé par les chercheurs, même si la lexicographie demande une rigueur qui est parfois absente de certaines contributions (voir l’article de G. Sérasset, J. Goulian et D. Schwab : « Extraire un réseau lexical des wiktionnaires multilingues », TALN 2011, Montpellier, 27 juin-1er juillet 2011).

Quelques aléas de Wikipédia

L’encyclopédie collaborative n’a pas été conçue pour les chercheurs en traitement du langage. Il est d’ailleurs amusant de constater que l’autre ressource principalement utilisée en TALN, à savoir WordNet, avait été conçue plutôt dans un objectif d’analyse psychologique et cognitive que pour un usage linguistique.
Tout chercheur utilisant Wikipédia est rapidement confronté aux limitations de ce corpus. L’exemple le plus frappant est l’absence de catégorie homme/femme. Cette absence de différenciation par sexe est une limitation importante à l’utilisation de Wikipédia en tant que ressource lexicologique, du moins pour ce qui est des noms de personnes. De même l’absence de catégorisation grammaticale pour les noms propres (pour les noms communs, le Wiktionnaire n’a pas ce défaut) est une autre limite.
Pour avoir essayé d’utiliser les catégories de Wikipédia pour replacer les noms propres dans notre vaste réseau sémantique, je peux également émettre des réserves dans ce domaine. Les catégories comportent en effet trop souvent des mélanges d’ensembles et de parties (hyperonymes et hyponymes), certaines catégories font parfois double emploi avec d’autres catégories, et sont surtout mal renseignées par de nombreux contributeurs. Les subdivisions par pays sont souvent source de doublettes. Ainsi 61 sociétés américaines figurent dans la catégorie « éditeur de logiciel américain » mais un plus grand nombre d’autres figurent dans la catégorie « éditeur de logiciel » sans précision de pays. Peut-être faudrait-il fournir aux contributeurs des outils permettant de mieux repérer les catégories ou peut-être faudrait-il développer des outils de remise à niveau des catégories ?

Wikipédia aide les chercheurs et ceux-ci aident Wikipédia

Je n’aborderai ici que les contributions de notre société à Wikipédia, manquant d’informations sur les contributions éventuelles d’autres chercheurs. Ayant confronté nos données sur les noms propres à celles de Wikipédia, cette confrontation nous a permis naturellement de découvrir des erreurs dans nos données mais également dans celles de Wikipédia, par exemple des personnes ayant une date de décès inférieure ou égale à leur date de naissance (Luc Desnoyers par exemple, correction du 23 avril 2010, ou Johnny Williams indiqué comme né en 1882 au lieu de 1982, etc.). Bien qu’ils ne soient pas les auteurs des pages sur notre société ou nos produits, plusieurs salariés sont par ailleurs contributeurs, mais c’est une autre histoire !

Dominique Laurent

Aucun commentaire 06/01/2012

États généraux du multilinguisme

Du 14 au 18 décembre dernier, l’Outre-Mer s’est rassemblé en Guyane, à Cayenne, autour des problématiques des langues locales. Les États généraux du multilinguisme dans les Outre-Mer, organisés par la Délégation générale à la langue française et aux langues de France (DGLFLF), ont rassemblé environ 250 personnes venant de tous les départements et territoires d’outre-mer. Linguistes, enseignants, élus locaux, représentants de communautés linguistiques, professionnels de la culture, tous avaient en commun de s’intéresser et / ou de pratiquer les dizaines de langues locales qui sont parlées dans la France d’outre-mer.

Spectacle d'ouverture des États Généraux

Wikimédia France a été invitée en tant que soutien d’un vecteur désormais essentiel pour la valorisation et la diffusion des cultures et des langues : les projets Wikimédia, et particulièrement Wikipédia et le Wiktionnaire.

Les langues d’outre-mer sont encore très peu présentes sur des projets majeurs comme Wikipédia, 5e site le plus consulté au monde, ou le Wiktionnaire. Il n’y a par exemple que deux versions de Wikipédia en langues d’outre-mer. Le Wiktionnaire francophone, qui contient des définitions de mots de 987 langues, ne compte pas d’alternative en langue d’outre-mer.

Pourtant, les projets Wikimédia peuvent être un outil fondamental et populaire de transmission, légitimation, diffusion et stabilisation des langues. Participer à un projet collaboratif de transmission des connaissances peut aider à lutter contre un certain « complexe » des langues principalement orales et servant à décrire l’informel. Ce constat, fait au cours des sessions et des discussions avec les différents intervenants, que les langues d’outre-mer n’étaient pas forcément utilisées pour transmettre des connaissances « savantes » et que cela freinait leur appropriation et leur transmission, nous a motivé pour encourager les locuteurs et enseignants de ces langues à s’emparer des projets Wikimédia.

Les projets Wikimédia pourraient donc être utilisés pour transmettre la connaissance, locale et générale, dans les langues d’outre-mer et langues maternelles des locuteurs des territoires d’outre-mer, tout en faisant en même temps un travail de valorisation des cultures, savoirs et traditions d’outre-mer sur les projets Wikimédia en français.

Après avoir présenté en séance plénière les projets Wikimédia et leur développement dans les langues d’outre-mer, nous avons animé un atelier montrant concrètement comment contribuer sur Wikipédia, se créer un compte, et quelles étaient les étapes nécessaires à la création d’une version linguistique de Wikipédia. Il s’agissait avant tout de lever certaines barrières dues à la méconnaissance du fonctionnement de Wikipédia, et de susciter l’envie de créer des versions de Wikipédia en langues locales, en fournissant les informations de base et les contacts utiles. L’intérêt des participants du colloque était massif, nous avons pu répondre à beaucoup de questions et distribuer de nombreuses brochures d’initiation à Wikipédia.

Salle de conférence des États Généraux

Toutefois, un certain nombre de questions restent à régler :

  • Comment faire naître des communautés locales ?
  • Comment dépasser la vision « informelle » des langues locales, qui ne servent pas en général à exprimer des concepts « savants » ?
  • Comment faire contribuer à l’écrit dans des langues qui, même graphiées, sont principalement utilisées à l’oral ?
  • Que faire avec les nombreuses langues dont la graphie n’est pas encore fixée ?
  • Comment restituer des connaissances issues des cultures locales quand les sources disponibles sont essentiellement orales ?

Si nous avons plaidé que les projets Wikimédia peuvent être un excellent outil collectif d’appropriation écrite des langues, il ne faut pas s’illusionner sur les difficultés qui subsistent.

Les contacts pris, tant chez des personnes de métropole que de l’Outre-Mer, nous permettront certainement d’expérimenter bientôt la création de projets Wikimédia en langues d’outre-mer, où nous pourrons certainement régler au jour le jour ces questions.

Les États généraux du multilinguisme s’étaient fixés pour objectif de soumettre une série de recommandations au ministre de la Culture, Frédéric Mitterrand, qui était présent à la clôture pour les écouter. Nous avons eu le plaisir de voir le rapporteur présenter au ministre, dans le volet « numérique » des recommandations, les projets Wikimédia comme vecteur essentiel des langues et de la culture, et plaider pour un usage massif de ces projets dans la valorisation numérique des langues et des cultures d’outre-mer.

Clôture des EGM 2011 par Robby Judes

Après ces quelques jours d’une grande richesse humaine et intellectuelle, nous sommes maintenant prêts à accompagner les locuteurs des langues d’outre-mer dans leurs futures contributions sur les projets Wikimédia et nous espérons qu’ils seront nombreux à nous rejoindre !

Pour aller plus loin :

  • Nous avons préparé, pour ces États généraux, un rapport sur Les langues d’outre-mer dans les projets Wikimédia. Il est disponible sur notre site, en complément de notre rapport sur Le français sur les projets Wikimédia, réalisé en mai 2011 sur demande de la DGLFLF.
  • L’ensemble des vidéos des séances plénières du colloque, ainsi que des soirées d’ouverture et de clôture, sont à visionner sur Dailymotion
  • Si vous souhaitez des informations pour contribuer sur la culture ultra-marine ou les langues d’outre-mer (création d’une Wikipédia, cours de langues, dictionnaire, etc.), n’hésitez pas à nous contacter à info@wikimedia.fr

Les illustrations de ce billet ont été reproduites avec l’aimable autorisation de la DGLFLF.

un commentaire 06/10/2009

Wiktionnaire : un million et demi d’entrées !

Le Wiktionnaire est le projet Wikimedia francophone le plus important : il vient de franchir le cap des 1 500 000 articles ce mois-ci.

Bien moins connu que son grand frère Wikipédia, la version francophone du Wiktionnaire possède cependant deux fois plus d’entrées que Wikipédia et devance même la version anglophone du Wiktionnaire qui contient 1 400 000 entrées.

Créé le 22 mai 2004 dans sa version française, soit plus de trois ans après Wikipédia, le Wiktionnaire est l’un des projets les plus actifs depuis sa création.

Initialement le projet Wiktionnaire devait servir de complément lexical à Wikipédia. À l’instar de son grand frère, le Wiktionnaire a dépassé les attentes initiales pour, aujourd’hui, devenir, en plus d’un dictionnaire multilingue, un thésaurus, dictionnaire de rime, des expressions et locutions, des synonymes, et bien plus encore. Le Wiktionnaire contient des entrées en plus de 700 langues.

Comme tous les autres projets Wikimedia, le Wiktionnaire est un projet collaboratif ouvert à tous et publié sous une licence libre permettant la libre modification et réutilisation de ses contenus.

Le cap des 1,5 millions d’articles est franchi grâce à un mot très proche de l’actualité puisqu’il s’agit du mot écoredevance.

Article sur l'ecoredevance sur Wiktionary

Article sur l'ecoredevance sur Wiktionary