Archive

Articles taggués ‘Réutilisation de Wikipédia’
Aucun commentaire 26/11/2012

Retour sur le partenariat Sémanticpédia avec le ministère de la Culture et l’Inria

Lundi 19 novembre dernier, Wikimédia France a eu la joie de signer un partenariat exceptionnel avec le ministère de la culture et Inria.

Ce partenariat met en place la plate-forme Sémanticpédia, dédiée à la sémantisation des contenus des projets Wikimédia.

Signature de la convention Sémanticpédia

Signature du partenariat Sémanticpédia par Michel Cosnard (Inria), Aurélie Filippetti (Ministre de la Culture) et Rémi Mathis (Wikimédia France) - par Thesupermat - CC-BY-SA

Le projet, initié il y a un an, a commencé par une extraction sémantique de la version francophone de Wikipédia. À cette occasion le projet est devenu correspondant (chapitre) français du projet Dbpedia.org, qui depuis 2007 travaille à l’extraction sémantique de Wikipédia. La nouveauté ici est de travailler directement sur la Wikipédia en français et non plus à partir de la Wikipédia en anglais, ce qui permet de traiter tous les articles de Wikipédia en français et non seulement ceux qui disposent d’un interwiki avec Wikipedia en anglais. C’est-à-dire que nous avons « gagné » entre 20 et 30% d’articles supplémentaires à extraire, fortement reliés à la culture française et francophone.

La suite du projet devrait voir naître une extraction sémantique du Wiktionnaire et pourquoi pas d’autres projets Wikimédia.

La ministre de la culture, Aurélie Fillipetti, a souligné l’importance d’une présence francophone sur le web de données, qui prend de plus en plus d’importance dans les architectures de gros sites internet et pour interconnecter les contenus et les données dans des projets de réutilisation de contenu. Rappelant l’importance, tant numérique que dans les usages, de Wikipédia sur internet, elle a expliqué pourquoi le ministère de la Culture désirait soutenir un projet concret de mise en relation des données entraînant indirectement une promotion de la langue et de la culture francophones sur internet.

Mais, allant plus loin, elle a également invité les institutions culturelles à directement contribuer sur Wikipédia, afin d’enrichir ces contenus qui, ensuite extraits par DBpedia, seront réutilisés très largement. Prônant un cercle vertueux là où les institutions pourraient apporter leur pierre experte à un édifice ensuite rediffusé à tous, cette invitation est une vraie reconnaissance de la place et de la qualité de Wikipédia et de ses contributeurs, ainsi qu’un appel à davantage participer au partage de la connaissance pour les institutions culturelles :

« Le partenariat entre le ministère de la culture, Wikimédia et Inria offre aux établissements culturels la possibilité d’enrichir de manière considérable les ressources culturelles mises à la disposition des internautes. Dans leurs domaines d’expertise, les établissements culturels ont tout intérêt à rejoindre leurs publics, là où ils viennent chercher l’information de première nécessité. Le caractère libre et réutilisable des informations présentes sur l’encyclopédie Wikipédia, disponibles sous plusieurs licences ouvertes, est à cet égard un gage de diffusion aussi large que possible des données qu’elle rassemble.

Mais ce partenariat ne saurait être à sens unique. Le savoir accessible sur Wikipédia est en perpétuelle construction et peut bénéficier pleinement de l’expertise du ministère. C’est pourquoi nos établissements sont invités à leur tour à consolider, à enrichir ou à rectifier s’il y a lieu les données figurant sur Wikipédia, afin non seulement d’augmenter la qualité de ses articles en langue française, mais aussi son efficacité sur le Web sémantique. » (discours d’Aurélie Filippetti, ministre de la Culture, le 19 novembre 2012)

Comment_utiliser_DBpédia_en_français_-_Semanticpedia_2012

Table-ronde « comment utiliser DBpedia en français ? » - par Thesupermat - CC-BY-SA

Dans ce partenariat, le ministère de la Culture tient une place importante de soutien et de financeur de projetInria (Institut national de recherche en informatique et en automatique), centre de recherche renommé, apporte le développement technique et son expertise sur le web sémantique. Wikimédia France fait le lien avec les communautés wikimédiennes de contributeurs et donne sa connaissance des projets et de leur fonctionnement. Pour l’instant hébergée par Inria, la plate-forme Sémanticpédia sera à terme hébergée par Wikimédia France avec le soutien du ministère de la Culture.

D’ores et déjà, certains sites webs d’institutions culturelles commencent à réutiliser les données de Wikipédia via DBPedia pour enrichir et organiser leurs contenus, comme le site expérimental HDA-lab du ministère de la Culture et très bientôt la Cité de la Musique.

Wikimédia France est fière de participer à ce projet inédit de partenariat original entre un ministère public, un institut de recherche et une association de soutien aux projets Wikimédia, dédié au partage de la connaissance et à l’ouverture des données.

La signature du partenariat a été suivie d’une journée de présentation du projet et de ses potentialités, accompagnée de démonstrations de premières réutilisations ainsi que d’une table-ronde sur les projets de collaboration entre institutions culturelles et Wikimédia France. Plus de 200 personnes ont assisté à cette journée de signature, d’échanges et d’étude.

  • Diapositives des présentations lors de la journée de signature
5 commentaires 08/10/2012

Une clé USB avec tout Wikipédia et des logiciels libres !

C’est une idée qui trottait dans la tête des deux associations depuis quelques temps… Associer la Framakey, clé USB lancée par Framasoft depuis 2005, avec les contenus hors-ligne de Wikipédia consultables via le logiciel Kiwix. Une belle association de contenus et de valeurs qui prend forme aujourd’hui, avec le lancement de la première clé Bêta Framakey Wikipédia.

clé Framakey Wikipédia

Clé Framakey Wikipédia
(Kelson, CC-BY-SA)

Le principe est simple : offrir sur une simple clé USB une collection raisonnée et choisie de logiciels libres, accompagnés de l’intégralité du contenu de Wikipédia en français. Rendre tout cela accessible d’un simple clic, utilisable partout, dans les écoles, dans les lieux faiblement connectés, dans des situations d’itinérance, bref partout où les utilisateurs ont besoin d’une solution simple et solide pour accéder à des contenus et utiliser leur ordinateur avec des logiciels fiables et libres.

Une véritable « boîte à outils » numériques qui trouve sa cohérence dans la libre diffusion des connaissances et des outils, au plus grand bénéfice de tous.

 

Comment ça marche ?

La clé Framakey Wikipédia se branche simplement sur son ordinateur et, une fois ouverte, donne accès à une quarantaine de logiciels libres ainsi qu’à leur description. Il n’est pas nécessaire d’installer les logiciels sur l’ordinateur hôte, leur simple exécution sur la clé les rend utilisables. De même pour Wikipédia, l’intégralité du contenu est accessible en cliquant sur l’icône, sans qu’une connexion internet soit nécessaire : il suffit de naviguer dans les articles, les catégories et les portails, exactement comme sur Wikipédia

Le projet vise à la fois à faire découvrir le mouvement de la culture libre mais aussi à permettre un accès facilité et mobile à l’encyclopédie Wikipédia dans les zones faiblement connectées.

L’intégralité des contenus (textes, logiciels, encyclopédie, etc.) sont disponibles sous licence libre, autorisant donc leur copie, leur partage et leur modification sans autre condition que de citer les auteurs et de partager les modifications elles aussi sous licence libre.

 

Où peut-on trouver cette clé ?

La clé en version Bêta, d’une capacité de 32 Go, est disponible sur la boutique Framasoft d’EnVenteLibre au tarif de 25€ (50 clés disponibles environ).

Elle est également librement téléchargeable sur le site Framakey : clé Framakey Wikipédia

Pour cette version Bêta, les retours d’utilisateurs sont fortement encouragés, afin de nous permettre d’améliorer encore ses contenus et ses fonctionnalités. Un forum a été mis en place pour accueillir vos retours et échanger autour de cette clé :

La future version de la clé, disponible début décembre, sera commercialisée autour de 35€, mais restera toujours librement téléchargeable.

La clé Framakey Wikipédia sera également disponible et présentée lors des Rencontres Wikimédia 2012 organisées les 14 et 15 décembre 2012 autour des thématiques éducatives.

 

L’objectif de ce projet, associant Framasoft, Kiwix et Wikimédia France, est d’apporter une nouvelle façon de consulter Wikipédia et d’accéder aux logiciels et à la culture libre pour ceux qui n’y ont pas ou peu accès.

Nous comptons sur vous pour faire de la Framakey Wikipédia un outil largement partagé et utilisé : n’hésitez pas à partager cette annonce et à tester cette clé !

3 commentaires 30/04/2012

Wikipédia, une mine d’or pour les chercheurs en TALN

par Dominique Laurent, éditeur de logiciels de correction, que nous avons invité à exposer pour nos lecteurs l’usage qu’il a fait des articles de Wikipédia dans sa récente recherche et son analyse des fautes de français.

Auteur de l’ouvrage Les Vraies Difficultés du français au XXIe siècle, je me suis appuyé pour ce travail sur l’étude de Wikipédia, à travers une comparaison des versions de chacune des pages, cette comparaison permettant d’extraire au final plus de trois millions de fautes d’orthographe et de grammaire. Au-delà de cet ouvrage (voir préface et table des matières) et de mon travail quotidien de développement de logiciels de correction de la langue française (Cordial, dans ses différentes versions), je voudrais ici tenter de montrer en quoi Wikipédia est une mine d’or pour la recherche en traitement automatique du langage naturel (TALN), pour la langue française comme pour les autres langues.

Les pages de Wikipédia comme corpus

Nous utilisons, et de nombreux chercheurs utilisent, l’ensemble des pages de Wikipédia comme corpus. Pour ce qui nous concerne, sur un corpus global de 22 milliards de caractères, l’encyclopédie (dans sa version de novembre 2011) représente 13,4 % de la totalité de nos corpus. Le corpus Wikipédia a ses spécificités, en particulier la proportion relativement importante de noms propres (trois par phrase en moyenne) et de données chiffrées ou de dates. Il n’est pas dépourvu de fautes mais offre tout de même un bon niveau orthographique, comparable à celui des corpus journalistiques et sensiblement supérieur à celui des corpus Web (hors Wikipédia), sans comparaison avec ceux issus de forums de discussion.
Les corpus (certains préconisent le pluriel latin corpora) sont le pain quotidien des chercheurs en TALN. Ils permettent de tester des hypothèses, de mesurer la fréquence des mots et des phénomènes linguistiques (apostrophes, anaphores, métaphores, etc.). Leur mise à jour et leur étude comparée permettent d’évaluer les vocabulaires spécifiques à un domaine ou à une époque. Le corpus Wikipédia offre, au surplus, un accès libre, ce qui n’est pas le cas de la plupart des autres corpus qui ne peuvent être utilisés, même à des fins de recherche, sans accord des auteurs ou des ayants droit, sauf lorsque le délai de copyright a expiré, les textes ne pouvant alors représenter l’état de la langue actuelle.

L’historique de Wikipédia comme corpus

Nous avons massivement utilisé le dump complet de Wikipédia pour l’extraction des fautes et de leurs corrections. Ce corpus occupait fin 2011 plus de 900 gigaoctets, une fois décompressé, et, même dégagé des pages de discussion, des pages utilitaires ou d’homonymie ainsi que des traductions et catégories, inutiles pour notre travail, l’ensemble reste très volumineux, certaines pages ayant plusieurs milliers de versions. Seule l’extraction des corrections nous a intéressés mais de nombreux traitements sont imaginables à partir de cette base très précieuse. Même sur les corrections, on pourrait imaginer de relever le délai entre la faute et sa correction ou (probablement plus significatif) le nombre de versions entre la faute et sa correction. On pourrait également comparer l’identifiant des auteurs de fautes et des auteurs de corrections qui, lorsqu’ils sont identiques, permettent de penser que ces fautes sont plutôt des fautes de frappe que des fautes de méconnaissance de la langue.
L’historique peut également être utilisé pour détecter des paraphrases (voir par exemple l’article et la présentation de Delphine Bernhard, du laboratoire Limsi, à CBA 2010 : http://stel.ub.edu/cba2010/slides2010/paraphrasing/afternoon/dutrey.pdf). D’autres pistes ont été ouvertes par d’autres chercheurs, entre autres les précurseurs Rani Nelken et Elif Yamangil de l’université de Harvard (http://www.eecs.harvard.edu/~elif/pubs/eggcorn.pdf).

Autres ressources de Wikipédia

Les données encyclopédiques de Wikipédia peuvent également être utilisées pour constituer des bases de données et améliorer l’analyse des textes, en fournissant des informations pragmatiques aidant à leur compréhension. C’est l’objet du projet DBpedia (Universités de Leipzig et Berlin) mais de nombreuses équipes de recherche ont extrait à partir de la Wikipédia anglophone ou à partir de versions dans d’autres langues des données sur les personnes, les lieux, les événements ou même sur les animaux et les plantes. Pour ce qui concerne les noms de lieux et la géolocalisation, Wikipédia est toutefois moins utilisée que la base Geonames.
Le Wiktionnaire est un projet distinct de Wikipédia mais il est également de plus en plus utilisé par les chercheurs, même si la lexicographie demande une rigueur qui est parfois absente de certaines contributions (voir l’article de G. Sérasset, J. Goulian et D. Schwab : « Extraire un réseau lexical des wiktionnaires multilingues », TALN 2011, Montpellier, 27 juin-1er juillet 2011).

Quelques aléas de Wikipédia

L’encyclopédie collaborative n’a pas été conçue pour les chercheurs en traitement du langage. Il est d’ailleurs amusant de constater que l’autre ressource principalement utilisée en TALN, à savoir WordNet, avait été conçue plutôt dans un objectif d’analyse psychologique et cognitive que pour un usage linguistique.
Tout chercheur utilisant Wikipédia est rapidement confronté aux limitations de ce corpus. L’exemple le plus frappant est l’absence de catégorie homme/femme. Cette absence de différenciation par sexe est une limitation importante à l’utilisation de Wikipédia en tant que ressource lexicologique, du moins pour ce qui est des noms de personnes. De même l’absence de catégorisation grammaticale pour les noms propres (pour les noms communs, le Wiktionnaire n’a pas ce défaut) est une autre limite.
Pour avoir essayé d’utiliser les catégories de Wikipédia pour replacer les noms propres dans notre vaste réseau sémantique, je peux également émettre des réserves dans ce domaine. Les catégories comportent en effet trop souvent des mélanges d’ensembles et de parties (hyperonymes et hyponymes), certaines catégories font parfois double emploi avec d’autres catégories, et sont surtout mal renseignées par de nombreux contributeurs. Les subdivisions par pays sont souvent source de doublettes. Ainsi 61 sociétés américaines figurent dans la catégorie « éditeur de logiciel américain » mais un plus grand nombre d’autres figurent dans la catégorie « éditeur de logiciel » sans précision de pays. Peut-être faudrait-il fournir aux contributeurs des outils permettant de mieux repérer les catégories ou peut-être faudrait-il développer des outils de remise à niveau des catégories ?

Wikipédia aide les chercheurs et ceux-ci aident Wikipédia

Je n’aborderai ici que les contributions de notre société à Wikipédia, manquant d’informations sur les contributions éventuelles d’autres chercheurs. Ayant confronté nos données sur les noms propres à celles de Wikipédia, cette confrontation nous a permis naturellement de découvrir des erreurs dans nos données mais également dans celles de Wikipédia, par exemple des personnes ayant une date de décès inférieure ou égale à leur date de naissance (Luc Desnoyers par exemple, correction du 23 avril 2010, ou Johnny Williams indiqué comme né en 1882 au lieu de 1982, etc.). Bien qu’ils ne soient pas les auteurs des pages sur notre société ou nos produits, plusieurs salariés sont par ailleurs contributeurs, mais c’est une autre histoire !

Dominique Laurent

4 commentaires 23/08/2011

Ateliers au Centre Pompidou pour créer des articles Wikipédia sur l’art moderne

Le Centre Pompidou et Wikimédia France ont conjointement organisé des ateliers afin d’améliorer la qualité d’un certain nombre d’articles de Wikipédia sur des œuvres contemporaines. L’enjeu est double : pour Wikimédia, jouir de l’accompagnement d’experts et obtenir pour ses contributeurs un accès privilégié aux œuvres afin d’améliorer les articles sur un thème où la marge de progression est importante. Pour le Centre Pompidou, pouvoir réutiliser des textes de qualité, notamment dans le cadre d’une application de visite sur smartphone.

Atelier Pompidou à la BPI

Les participants à l’atelier à la BPI
(Lionel Allorge, CC-BY-SA)

L’atelier a eu lieu les mardis 7 et 14 juin et a réuni une vingtaine de personnes, dont quatre wikipédiens expérimentés – (:Julien:), Xaviateur, Lionel Allorge et Remi Mathis. Les participants ont eu la chance de visiter la salle 7 du musée national d’art moderne (4e étage). La salle rassemblait six œuvres de Fernand Léger, deux statues de Brancuşi et une d’Henri Laurens. Un conservateur a expliqué aux visiteurs la signification des ces œuvres cubistes/abstraites, les remettant dans leur contexte historique, expliquant la volonté de l’artiste, etc. Les visiteurs ont ensuite posé des questions. Nous sommes ensuite passés à la bibliothèque Kandisky, la bibliothèque de recherche du MNAM, où nous avons discuté avec les conservatrices. Les projets Wikimédia et l’association Wikimédia France ont été présentés aux visiteurs. Discussions sur le droit d’auteur. Le groupe a ensuite préparé la rédaction des articles Wikipédia (articles autour de Léger, de Brancusi et des œuvres exposées) en se renseignant à l’aide du riche fonds de la bibliothèque Kandisky.

La seconde partie, toujours au centre Pompidou le 14 juin, était directement centrée sur la rédaction des notices. Après un nouveau passage auprès des œuvres originales, la BPI (bibliothèque publique d’information) a accueilli les participants et mis à disposition des ordinateurs et ses riches fonds en histoire de l’art. Des binômes ont été formés afin que des personnes ayant déjà contribué à Wikipédia travaillent avec des débutants complets − les membres de Wikimédia France étant toujours présents en support.

Au terme d’un après-midi de travail, plusieurs articles bien renseignés ont été créés. Au-delà, des personnes qui ne connaissaient pas toujours très bien les projets ont pu comprendre comment fonctionne Wikipédia, le travail en collaboration, l’importance des sources, etc. − y compris la difficulté à travailler sur des œuvres protégées par le droit d’auteur et qu’il est donc impossible de montrer sur Wikipédia − avec l’espoir qu’ils poursuivent leurs efforts pour une meilleure visibilité de l’art contemporain sur Internet en général et sur les projets Wikimedia en particulier.

Aujourd’hui nous travaillons à renouveler ce type de rencontre et d’atelier d’écriture sur Wikipédia avec le Centre Pompidou.


Ce billet a été rédigé collaborativement par Julien Fayolle, Rémi Mathis et Adrienne Alix

13 commentaires 02/07/2011

L’AFP interdit d’utiliser Wikipédia comme source : entre évidence et ironie

L’Agence France-Presse (AFP) a mis en ligne un document intitulé « Règles d’utilisation des réseaux sociaux pour recueillir de l’information » (mise en ligne annoncée par communiqué de presse).

Entre autres choses y figure ce passage :

Rappelons enfin qu’il est interdit d’utiliser Wikipédia comme source de documentation, encore moins d’en reproduire des passages. Le mode de rédaction participative de cette encyclopédie en ligne ne répond pas à nos critères de fiabilité.

Macaques japonaisse baignant dans les sources chaudes de Jigokudani, Préfecture de Nagano, Japon.

Une source est à utiliser avec intelligence.
(Yosemite, CC-BY-SA)

Une démarche logique, étant donné que Wikipédia est une encyclopédie, autrement dit un outil de synthèse des connaissances existantes sur un sujet. Comme toute encyclopédie, Wikipédia n’est pas en elle-même à l’origine des informations : elle constitue une source secondaire, ou plus souvent une source tertiaire. Ce qu’elle contient n’est pas pour autant à rejeter ! Ce contenu peut être une piste de départ pour croiser des sources et ainsi vérifier une information. D’autant que « Citez vos sources » est un des principes cardinaux imposés aux rédacteurs de l’encyclopédie.

Cependant, cette injonction de ne pas citer Wikipédia est quelque peu entachée par certains exemples récents de plagiats par l’AFP, rendant la démarche légèrement ironique. Ainsi a-t-on vu récemment des dépêches reprendre presque mot pour mot un article de Wikipédia sans citer leur source : le décès de Wouter Weylandt a notamment été annoncé accompagné d’une liste des cyclistes morts en course, reprise par bien des médias, tel que Yahoo, et dont la source était un article de Wikipédia, non crédité dans la dépêche ! En outre, on notera que la liste en question comporte un bandeau d’avertissement aux lecteurs et le comportait déjà le jour où la dépêche fut envoyée. Celui-ci les informe du fait que cet article ne cite lui-même pas suffisamment ses sources. Malgré cet avertissement, donné par Wikipédia, le contenu fut ré-employé tel quel par les journalistes…

Rappelons donc qu’il est tout à fait possible d’utiliser du texte de Wikipédia (et des images de Wikimedia Commons) à condition de respecter la licence (CC-BY-SA) et de citer les auteurs. Par ailleurs, bien que Wikipédia soit en perpétuelle actualisation, il est possible pour un journaliste ou un chercheur de citer une version précise et stable de l’article voulu, à l’aide d’un permalien, qu’on peut obtenir dans la colonne de gauche de l’encyclopédie en ligne, section boîte à outil, puis adresse de cette version. Enfin, un journaliste cherchant à remonter aux sources d’une information saura à partir d’un article de Wikipédia ou de ses versions dans différentes langues, trouver les sources qui ont été utilisées. Il est donc facile d’avoir une utilisation périphérique de Wikipédia : certains médias, tel que Rue89, utilisent l’encyclopédie pour compléter et développer certains contenus qu’ils publient, en plaçant dans le corps de texte des liens renvoyant à un article Wikipédia. Wikipédia est alors un outil pratique, permettant de fournir une illustration à une information de première main.

Wikipédia est par conséquent un outil de complément intéressant pour les professionnels de l’information, et nous ne pouvons que les encourager à l’utiliser, lorsqu’ils le font à bon escient. Ce rappel déontologique fait par l’AFP était certes légitime, car, pour être publiée, une information doit être validée par plusieurs sources croisées, comme sur Wikipédia. Ce qui, espérons-le, n’empêchera pas l’AFP de reconnaître les services que lui rend l’encyclopédie en ligne.

Et peut-être, un jour, cette vision d’un des membres de Wikimédia France se réalisera-t-elle :

Je ne serais pas surpris de lire un jour sur le fil AFP :
« Telle personnalité vivant dans un pays coupé du monde est morte cette nuit, rapporte Wikipédia, citant un site peu connu dans un dialecte local que l’agencier de l’AFP ne comprend pas. »


Mise à jour (6 juillet) : Après discussions avec l’AFP, lire ce billet « Mise au point conjointe Wikimédia France / AFP ».


Ce billet a été rédigé collaborativement par Trizek, Aude, Jean-Frédéric, Ofol, Rémi M. et Wikinade.