Archive

Archives pour la catégorie ‘Wiktionary’
un commentaire 02/05/2016

L’extraordinaire odyssée du Wiktionnaire

Lyokoï, wiktionnariste et référent du groupe local de Lyon – aussi connu sous le nom de “cabale de la quenelle” – retrace pour notre blog le chemin parcouru jusqu’à la création de la première Wikipermanence au monde autour du Wiktionnaire. Un récit vivant et plein d’humour, à la découverte d’un projet moins bien connu que sa grande sœur Wikipédia.

Logo du Wiktionnaire - Smurrayinchester - CC-BY-SA 3.0

Le Wiktionnaire fait partie des projets Wikimédia, impulsés par la Wikimedia Foundation. Son objectif est de « définir tous les mots de toutes les langues dans toutes les langues ». Il existe en 172 langues, est fondé sur un système de wiki et son contenu, librement réutilisable, est publié sous licence CC-BY-SA. Image : logo du Wiktionnaire – Smurrayinchester – CC-BY-SA 3.0

Genèse d’une idée

« Tiens ? T’es sur le Wiktionnaire toi aussi ? » Tout a commencé ainsi. Depuis, quelque chose d’inédit s’est mis en place en France : la seule et unique Wikipermanence (réunion informelle et régulière autour d’un projet lié à l’univers Wikimedia) du monde uniquement dédiée au projet du Wiktionnaire.

Mais revenons au commencement : Lyon, une ville où il fait bon vivre, et surtout bon manger, accueille un groupe local de Wikimédiens important. Une vingtaine de personnes se réunissent ainsi régulièrement pour discuter, boire un coup, mais surtout ripailler. Fait inhabituel pour ce groupe, il dispose d’une forte représentation de wiktionnaristes – c’est-à-dire, contributeurs au Wiktionnaire – alors qu’ils sont peu nombreux dans le reste du pays. Cette prise de conscience de leur existence mutuelle les a amenés à un coup de génie à la fin de l’année scolaire 2014-2015 : tenir une permanence pour parler de ce projet.

Première étape : le lieu et les personnes

Il existe à Lyon un lieu génial pour les philologues, répondant au doux nom de KoToPo, qui en espéranto signifie : « etc ». C’est un bar, tenu par l’association Mille et une langues, qui, envers et contre tout, s’est donné pour objectif d’apprendre au plus grand nombre de personnes possible une des 45 langues enseignées en son sein. Dictionnaire – Langue ? Le lien est évident. Il n’a pas fallu longtemps pour que Noé, un membre appartienne aux deux entités et lance l’idée que la minorité agissante du Wiktionnaire pouvait bien former les apprentis du KoToPo à utiliser ce dictionnaire en tant qu’outil d’apprentissage d’une langue.

Ainsi fut-il : tous les premiers jeudis du mois, de 17h à 20h (officiellement, mais ça a tendance à déborder…), un groupe de 3-4 personnes se réunissent pour présenter le projet aux curieux et pour discuter entre eux. Les curieux sont peu nombreux, mais certains sont devenu des contributeurs occasionnels, et c’est ce que l’on pouvait espérer de mieux.

Cet espace de discussion de vive voix bouleversa le petit monde du Wiktionnaire (enfin petit… si on regarde les chiffre, c’est plutôt le contraire : presque 3 millions de mots venant de presque 4000 langues y sont décrits). En effet, depuis que ces wiktionnaristes disposent d’un temps dédié au débat autour du Wiktionnaire, ils ont formalisé de nombreuses avancées.

Deuxième étape : porter la bonne parole et impliquer la communauté

Cette permanence est par ailleurs directement issue d’une série de conférences que j’ai pu donner, depuis septembre 2014, en sillonnant la France pour présenter le Wiktionnaire à des publics très variés : lexicographes, linguistes, locuteurs de langues régionales, enseignants, libristes, etc. Les compte-rendus de ces interventions, établis de manière quasi-systématique, donnent souvent lieu à des retours de la part de la communauté en vue d’améliorer la visibilité du projet.

Cette même communauté fait preuve d’une grande curiosité quant à son propre fonctionnement ainsi que de l’avancement de son projet. Certains questionnements ont pu se mettre en place grâce au rassemblement quasi mensuels des Lyonnais. En effet, il n’est pas rare qu’un minimum de wiktionnaristes soient présents et engagent une discussion sur leur sujet préféré (après les bugnes, cela va sans dire !) : le Wiktionnaire.

Troisième étape : des projets pilotes pour inspirer la réflexion

C’est ainsi que s’est d’abord construit le projet WikiFromages (en écho au WikiCheese sur Wikipédia) qui amena notre communauté de Wiktionnaristes lyonnais à s’interroger sur de multiples facettes cachées du projet :

  • réflexion sur les annexes et les thésaurus ; proposition de les intégrer par défaut dans la recherche de base ;
  • mise en place d’une réflexion et d’un début de protocole sur l’intégration du gaulois, qui pourra servir à terme à d’autres langues mortes partiellement écrites ;
  • établissement du premier bilan annuel du Wiktionnaire ;
  • proposition et mise en place de l’actualité mensuelle du projet ;
  • retravail des pages d’aides et de convention ;
  • changement de mise en forme des signes de prononciation pour rendre compte de la diversité…

Au-delà des questionnements propres au fonctionnement du Wiktionnaire et à ses potentialités en tant qu’outil, l’analyse du projet a changé et une vraie réflexion s’est mise en place. Que peut-on faire avec le Wiktionnaire ? Quelles sont ses limites ? Comment l’améliorer ? Qui en a besoin sans le savoir ? Comment faire connaître le projet ?

Quatrième étape : partager avec d’autres le chemin parcouru

On peut considérer, grâce au chemin parcouru, que le Wiktionnaire français fait parti des petits projets les plus actifs de la Wikimedia Foundation, et qu’il a beaucoup à apprendre aux autres. Lorsque nous avons pris conscience de cela, nous sommes allés voir comment cela se déroulait ailleurs. Les anglophones vivant dans des lieux très éclatés ont actuellement énormément de mal à se rassembler, les autres petits wikis sont malheureusement souvent trop peu peuplés pour disposer d’une base de contributeurs minimale. Dans cette optique, nous proposons de partager notre cheminement lors de la Wikimania 2016, qui aura lieu en juin en Italie, où notre proposition de conférence a été acceptée (en plus d’une câlinothérapie entre petits projets).

Si l’encyclopédie Wikipédia est de mieux en mieux comprise par les professionnels du savoir, les autres projets sont encore complètement dans son ombre et leur milieu est souvent à des kilomètres d’une réflexion poussée (environ un centaine d’étude pour le Wiktionnaire contre plus de 5000 pour Wikipédia, toutes langues confondues pour les deux projets). A titre d’exemple, les éditions Larousse et Robert ont découvert l’ampleur du projet Wiktionnaire lors de ma conférence aux Journées Des Dictionnaires en février 2015…

Mais l’avenir est de toute façon radieux : parce que les projets sont libres et que les idées sont folles, parce que les besoins de sauvegarde linguistique sont phénoménaux et les données gigantesques (comptez plusieurs milliers d’entrées par langues, pour plus de 7500 langues), parce que tout le reste n’est finalement pas assez pour ceux qui veulent partager leur savoir et parce qu’il faudra toujours des petits projets pour qu’ils deviennent grands…

« Quoi ? Encore un wiktionnariste ? » est désormais une réflexion commune dans la cabale de la quenelle à Lyon.

Lyokoï

par Anne-Laure Prévost
Categories: Projets Wikimedia, Wiktionary, Histoires wikimédiennes, Lyon
3 commentaires 30/04/2012

Wikipédia, une mine d’or pour les chercheurs en TALN

par Dominique Laurent, éditeur de logiciels de correction, que nous avons invité à exposer pour nos lecteurs l’usage qu’il a fait des articles de Wikipédia dans sa récente recherche et son analyse des fautes de français.

Auteur de l’ouvrage Les Vraies Difficultés du français au XXIe siècle, je me suis appuyé pour ce travail sur l’étude de Wikipédia, à travers une comparaison des versions de chacune des pages, cette comparaison permettant d’extraire au final plus de trois millions de fautes d’orthographe et de grammaire. Au-delà de cet ouvrage (voir préface et table des matières) et de mon travail quotidien de développement de logiciels de correction de la langue française (Cordial, dans ses différentes versions), je voudrais ici tenter de montrer en quoi Wikipédia est une mine d’or pour la recherche en traitement automatique du langage naturel (TALN), pour la langue française comme pour les autres langues.

Les pages de Wikipédia comme corpus

Nous utilisons, et de nombreux chercheurs utilisent, l’ensemble des pages de Wikipédia comme corpus. Pour ce qui nous concerne, sur un corpus global de 22 milliards de caractères, l’encyclopédie (dans sa version de novembre 2011) représente 13,4 % de la totalité de nos corpus. Le corpus Wikipédia a ses spécificités, en particulier la proportion relativement importante de noms propres (trois par phrase en moyenne) et de données chiffrées ou de dates. Il n’est pas dépourvu de fautes mais offre tout de même un bon niveau orthographique, comparable à celui des corpus journalistiques et sensiblement supérieur à celui des corpus Web (hors Wikipédia), sans comparaison avec ceux issus de forums de discussion.
Les corpus (certains préconisent le pluriel latin corpora) sont le pain quotidien des chercheurs en TALN. Ils permettent de tester des hypothèses, de mesurer la fréquence des mots et des phénomènes linguistiques (apostrophes, anaphores, métaphores, etc.). Leur mise à jour et leur étude comparée permettent d’évaluer les vocabulaires spécifiques à un domaine ou à une époque. Le corpus Wikipédia offre, au surplus, un accès libre, ce qui n’est pas le cas de la plupart des autres corpus qui ne peuvent être utilisés, même à des fins de recherche, sans accord des auteurs ou des ayants droit, sauf lorsque le délai de copyright a expiré, les textes ne pouvant alors représenter l’état de la langue actuelle.

L’historique de Wikipédia comme corpus

Nous avons massivement utilisé le dump complet de Wikipédia pour l’extraction des fautes et de leurs corrections. Ce corpus occupait fin 2011 plus de 900 gigaoctets, une fois décompressé, et, même dégagé des pages de discussion, des pages utilitaires ou d’homonymie ainsi que des traductions et catégories, inutiles pour notre travail, l’ensemble reste très volumineux, certaines pages ayant plusieurs milliers de versions. Seule l’extraction des corrections nous a intéressés mais de nombreux traitements sont imaginables à partir de cette base très précieuse. Même sur les corrections, on pourrait imaginer de relever le délai entre la faute et sa correction ou (probablement plus significatif) le nombre de versions entre la faute et sa correction. On pourrait également comparer l’identifiant des auteurs de fautes et des auteurs de corrections qui, lorsqu’ils sont identiques, permettent de penser que ces fautes sont plutôt des fautes de frappe que des fautes de méconnaissance de la langue.
L’historique peut également être utilisé pour détecter des paraphrases (voir par exemple l’article et la présentation de Delphine Bernhard, du laboratoire Limsi, à CBA 2010 : http://stel.ub.edu/cba2010/slides2010/paraphrasing/afternoon/dutrey.pdf). D’autres pistes ont été ouvertes par d’autres chercheurs, entre autres les précurseurs Rani Nelken et Elif Yamangil de l’université de Harvard (http://www.eecs.harvard.edu/~elif/pubs/eggcorn.pdf).

Autres ressources de Wikipédia

Les données encyclopédiques de Wikipédia peuvent également être utilisées pour constituer des bases de données et améliorer l’analyse des textes, en fournissant des informations pragmatiques aidant à leur compréhension. C’est l’objet du projet DBpedia (Universités de Leipzig et Berlin) mais de nombreuses équipes de recherche ont extrait à partir de la Wikipédia anglophone ou à partir de versions dans d’autres langues des données sur les personnes, les lieux, les événements ou même sur les animaux et les plantes. Pour ce qui concerne les noms de lieux et la géolocalisation, Wikipédia est toutefois moins utilisée que la base Geonames.
Le Wiktionnaire est un projet distinct de Wikipédia mais il est également de plus en plus utilisé par les chercheurs, même si la lexicographie demande une rigueur qui est parfois absente de certaines contributions (voir l’article de G. Sérasset, J. Goulian et D. Schwab : « Extraire un réseau lexical des wiktionnaires multilingues », TALN 2011, Montpellier, 27 juin-1er juillet 2011).

Quelques aléas de Wikipédia

L’encyclopédie collaborative n’a pas été conçue pour les chercheurs en traitement du langage. Il est d’ailleurs amusant de constater que l’autre ressource principalement utilisée en TALN, à savoir WordNet, avait été conçue plutôt dans un objectif d’analyse psychologique et cognitive que pour un usage linguistique.
Tout chercheur utilisant Wikipédia est rapidement confronté aux limitations de ce corpus. L’exemple le plus frappant est l’absence de catégorie homme/femme. Cette absence de différenciation par sexe est une limitation importante à l’utilisation de Wikipédia en tant que ressource lexicologique, du moins pour ce qui est des noms de personnes. De même l’absence de catégorisation grammaticale pour les noms propres (pour les noms communs, le Wiktionnaire n’a pas ce défaut) est une autre limite.
Pour avoir essayé d’utiliser les catégories de Wikipédia pour replacer les noms propres dans notre vaste réseau sémantique, je peux également émettre des réserves dans ce domaine. Les catégories comportent en effet trop souvent des mélanges d’ensembles et de parties (hyperonymes et hyponymes), certaines catégories font parfois double emploi avec d’autres catégories, et sont surtout mal renseignées par de nombreux contributeurs. Les subdivisions par pays sont souvent source de doublettes. Ainsi 61 sociétés américaines figurent dans la catégorie « éditeur de logiciel américain » mais un plus grand nombre d’autres figurent dans la catégorie « éditeur de logiciel » sans précision de pays. Peut-être faudrait-il fournir aux contributeurs des outils permettant de mieux repérer les catégories ou peut-être faudrait-il développer des outils de remise à niveau des catégories ?

Wikipédia aide les chercheurs et ceux-ci aident Wikipédia

Je n’aborderai ici que les contributions de notre société à Wikipédia, manquant d’informations sur les contributions éventuelles d’autres chercheurs. Ayant confronté nos données sur les noms propres à celles de Wikipédia, cette confrontation nous a permis naturellement de découvrir des erreurs dans nos données mais également dans celles de Wikipédia, par exemple des personnes ayant une date de décès inférieure ou égale à leur date de naissance (Luc Desnoyers par exemple, correction du 23 avril 2010, ou Johnny Williams indiqué comme né en 1882 au lieu de 1982, etc.). Bien qu’ils ne soient pas les auteurs des pages sur notre société ou nos produits, plusieurs salariés sont par ailleurs contributeurs, mais c’est une autre histoire !

Dominique Laurent

Aucun commentaire 06/01/2012

États généraux du multilinguisme

Du 14 au 18 décembre dernier, l’Outre-Mer s’est rassemblé en Guyane, à Cayenne, autour des problématiques des langues locales. Les États généraux du multilinguisme dans les Outre-Mer, organisés par la Délégation générale à la langue française et aux langues de France (DGLFLF), ont rassemblé environ 250 personnes venant de tous les départements et territoires d’outre-mer. Linguistes, enseignants, élus locaux, représentants de communautés linguistiques, professionnels de la culture, tous avaient en commun de s’intéresser et / ou de pratiquer les dizaines de langues locales qui sont parlées dans la France d’outre-mer.

Spectacle d'ouverture des États Généraux

Wikimédia France a été invitée en tant que soutien d’un vecteur désormais essentiel pour la valorisation et la diffusion des cultures et des langues : les projets Wikimédia, et particulièrement Wikipédia et le Wiktionnaire.

Les langues d’outre-mer sont encore très peu présentes sur des projets majeurs comme Wikipédia, 5e site le plus consulté au monde, ou le Wiktionnaire. Il n’y a par exemple que deux versions de Wikipédia en langues d’outre-mer. Le Wiktionnaire francophone, qui contient des définitions de mots de 987 langues, ne compte pas d’alternative en langue d’outre-mer.

Pourtant, les projets Wikimédia peuvent être un outil fondamental et populaire de transmission, légitimation, diffusion et stabilisation des langues. Participer à un projet collaboratif de transmission des connaissances peut aider à lutter contre un certain « complexe » des langues principalement orales et servant à décrire l’informel. Ce constat, fait au cours des sessions et des discussions avec les différents intervenants, que les langues d’outre-mer n’étaient pas forcément utilisées pour transmettre des connaissances « savantes » et que cela freinait leur appropriation et leur transmission, nous a motivé pour encourager les locuteurs et enseignants de ces langues à s’emparer des projets Wikimédia.

Les projets Wikimédia pourraient donc être utilisés pour transmettre la connaissance, locale et générale, dans les langues d’outre-mer et langues maternelles des locuteurs des territoires d’outre-mer, tout en faisant en même temps un travail de valorisation des cultures, savoirs et traditions d’outre-mer sur les projets Wikimédia en français.

Après avoir présenté en séance plénière les projets Wikimédia et leur développement dans les langues d’outre-mer, nous avons animé un atelier montrant concrètement comment contribuer sur Wikipédia, se créer un compte, et quelles étaient les étapes nécessaires à la création d’une version linguistique de Wikipédia. Il s’agissait avant tout de lever certaines barrières dues à la méconnaissance du fonctionnement de Wikipédia, et de susciter l’envie de créer des versions de Wikipédia en langues locales, en fournissant les informations de base et les contacts utiles. L’intérêt des participants du colloque était massif, nous avons pu répondre à beaucoup de questions et distribuer de nombreuses brochures d’initiation à Wikipédia.

Salle de conférence des États Généraux

Toutefois, un certain nombre de questions restent à régler :

  • Comment faire naître des communautés locales ?
  • Comment dépasser la vision « informelle » des langues locales, qui ne servent pas en général à exprimer des concepts « savants » ?
  • Comment faire contribuer à l’écrit dans des langues qui, même graphiées, sont principalement utilisées à l’oral ?
  • Que faire avec les nombreuses langues dont la graphie n’est pas encore fixée ?
  • Comment restituer des connaissances issues des cultures locales quand les sources disponibles sont essentiellement orales ?

Si nous avons plaidé que les projets Wikimédia peuvent être un excellent outil collectif d’appropriation écrite des langues, il ne faut pas s’illusionner sur les difficultés qui subsistent.

Les contacts pris, tant chez des personnes de métropole que de l’Outre-Mer, nous permettront certainement d’expérimenter bientôt la création de projets Wikimédia en langues d’outre-mer, où nous pourrons certainement régler au jour le jour ces questions.

Les États généraux du multilinguisme s’étaient fixés pour objectif de soumettre une série de recommandations au ministre de la Culture, Frédéric Mitterrand, qui était présent à la clôture pour les écouter. Nous avons eu le plaisir de voir le rapporteur présenter au ministre, dans le volet « numérique » des recommandations, les projets Wikimédia comme vecteur essentiel des langues et de la culture, et plaider pour un usage massif de ces projets dans la valorisation numérique des langues et des cultures d’outre-mer.

Clôture des EGM 2011 par Robby Judes

Après ces quelques jours d’une grande richesse humaine et intellectuelle, nous sommes maintenant prêts à accompagner les locuteurs des langues d’outre-mer dans leurs futures contributions sur les projets Wikimédia et nous espérons qu’ils seront nombreux à nous rejoindre !

Pour aller plus loin :

  • Nous avons préparé, pour ces États généraux, un rapport sur Les langues d’outre-mer dans les projets Wikimédia. Il est disponible sur notre site, en complément de notre rapport sur Le français sur les projets Wikimédia, réalisé en mai 2011 sur demande de la DGLFLF.
  • L’ensemble des vidéos des séances plénières du colloque, ainsi que des soirées d’ouverture et de clôture, sont à visionner sur Dailymotion
  • Si vous souhaitez des informations pour contribuer sur la culture ultra-marine ou les langues d’outre-mer (création d’une Wikipédia, cours de langues, dictionnaire, etc.), n’hésitez pas à nous contacter à info@wikimedia.fr

Les illustrations de ce billet ont été reproduites avec l’aimable autorisation de la DGLFLF.

un commentaire 06/10/2009

Wiktionnaire : un million et demi d’entrées !

Le Wiktionnaire est le projet Wikimedia francophone le plus important : il vient de franchir le cap des 1 500 000 articles ce mois-ci.

Bien moins connu que son grand frère Wikipédia, la version francophone du Wiktionnaire possède cependant deux fois plus d’entrées que Wikipédia et devance même la version anglophone du Wiktionnaire qui contient 1 400 000 entrées.

Créé le 22 mai 2004 dans sa version française, soit plus de trois ans après Wikipédia, le Wiktionnaire est l’un des projets les plus actifs depuis sa création.

Initialement le projet Wiktionnaire devait servir de complément lexical à Wikipédia. À l’instar de son grand frère, le Wiktionnaire a dépassé les attentes initiales pour, aujourd’hui, devenir, en plus d’un dictionnaire multilingue, un thésaurus, dictionnaire de rime, des expressions et locutions, des synonymes, et bien plus encore. Le Wiktionnaire contient des entrées en plus de 700 langues.

Comme tous les autres projets Wikimedia, le Wiktionnaire est un projet collaboratif ouvert à tous et publié sous une licence libre permettant la libre modification et réutilisation de ses contenus.

Le cap des 1,5 millions d’articles est franchi grâce à un mot très proche de l’actualité puisqu’il s’agit du mot écoredevance.

Article sur l'ecoredevance sur Wiktionary

Article sur l'ecoredevance sur Wiktionary