Archive

Archives pour la catégorie ‘Wikipédia’
2 commentaires 30/04/2012

Wikipédia, une mine d’or pour les chercheurs en TALN

par Dominique Laurent, éditeur de logiciels de correction, que nous avons invité à exposer pour nos lecteurs l’usage qu’il a fait des articles de Wikipédia dans sa récente recherche et son analyse des fautes de français.

Auteur de l’ouvrage Les Vraies Difficultés du français au XXIe siècle, je me suis appuyé pour ce travail sur l’étude de Wikipédia, à travers une comparaison des versions de chacune des pages, cette comparaison permettant d’extraire au final plus de trois millions de fautes d’orthographe et de grammaire. Au-delà de cet ouvrage (voir préface et table des matières) et de mon travail quotidien de développement de logiciels de correction de la langue française (Cordial, dans ses différentes versions), je voudrais ici tenter de montrer en quoi Wikipédia est une mine d’or pour la recherche en traitement automatique du langage naturel (TALN), pour la langue française comme pour les autres langues.

Les pages de Wikipédia comme corpus

Nous utilisons, et de nombreux chercheurs utilisent, l’ensemble des pages de Wikipédia comme corpus. Pour ce qui nous concerne, sur un corpus global de 22 milliards de caractères, l’encyclopédie (dans sa version de novembre 2011) représente 13,4 % de la totalité de nos corpus. Le corpus Wikipédia a ses spécificités, en particulier la proportion relativement importante de noms propres (trois par phrase en moyenne) et de données chiffrées ou de dates. Il n’est pas dépourvu de fautes mais offre tout de même un bon niveau orthographique, comparable à celui des corpus journalistiques et sensiblement supérieur à celui des corpus Web (hors Wikipédia), sans comparaison avec ceux issus de forums de discussion.
Les corpus (certains préconisent le pluriel latin corpora) sont le pain quotidien des chercheurs en TALN. Ils permettent de tester des hypothèses, de mesurer la fréquence des mots et des phénomènes linguistiques (apostrophes, anaphores, métaphores, etc.). Leur mise à jour et leur étude comparée permettent d’évaluer les vocabulaires spécifiques à un domaine ou à une époque. Le corpus Wikipédia offre, au surplus, un accès libre, ce qui n’est pas le cas de la plupart des autres corpus qui ne peuvent être utilisés, même à des fins de recherche, sans accord des auteurs ou des ayants droit, sauf lorsque le délai de copyright a expiré, les textes ne pouvant alors représenter l’état de la langue actuelle.

L’historique de Wikipédia comme corpus

Nous avons massivement utilisé le dump complet de Wikipédia pour l’extraction des fautes et de leurs corrections. Ce corpus occupait fin 2011 plus de 900 gigaoctets, une fois décompressé, et, même dégagé des pages de discussion, des pages utilitaires ou d’homonymie ainsi que des traductions et catégories, inutiles pour notre travail, l’ensemble reste très volumineux, certaines pages ayant plusieurs milliers de versions. Seule l’extraction des corrections nous a intéressés mais de nombreux traitements sont imaginables à partir de cette base très précieuse. Même sur les corrections, on pourrait imaginer de relever le délai entre la faute et sa correction ou (probablement plus significatif) le nombre de versions entre la faute et sa correction. On pourrait également comparer l’identifiant des auteurs de fautes et des auteurs de corrections qui, lorsqu’ils sont identiques, permettent de penser que ces fautes sont plutôt des fautes de frappe que des fautes de méconnaissance de la langue.
L’historique peut également être utilisé pour détecter des paraphrases (voir par exemple l’article et la présentation de Delphine Bernhard, du laboratoire Limsi, à CBA 2010 : http://stel.ub.edu/cba2010/slides2010/paraphrasing/afternoon/dutrey.pdf). D’autres pistes ont été ouvertes par d’autres chercheurs, entre autres les précurseurs Rani Nelken et Elif Yamangil de l’université de Harvard (http://www.eecs.harvard.edu/~elif/pubs/eggcorn.pdf).

Autres ressources de Wikipédia

Les données encyclopédiques de Wikipédia peuvent également être utilisées pour constituer des bases de données et améliorer l’analyse des textes, en fournissant des informations pragmatiques aidant à leur compréhension. C’est l’objet du projet DBpedia (Universités de Leipzig et Berlin) mais de nombreuses équipes de recherche ont extrait à partir de la Wikipédia anglophone ou à partir de versions dans d’autres langues des données sur les personnes, les lieux, les événements ou même sur les animaux et les plantes. Pour ce qui concerne les noms de lieux et la géolocalisation, Wikipédia est toutefois moins utilisée que la base Geonames.
Le Wiktionnaire est un projet distinct de Wikipédia mais il est également de plus en plus utilisé par les chercheurs, même si la lexicographie demande une rigueur qui est parfois absente de certaines contributions (voir l’article de G. Sérasset, J. Goulian et D. Schwab : « Extraire un réseau lexical des wiktionnaires multilingues », TALN 2011, Montpellier, 27 juin-1er juillet 2011).

Quelques aléas de Wikipédia

L’encyclopédie collaborative n’a pas été conçue pour les chercheurs en traitement du langage. Il est d’ailleurs amusant de constater que l’autre ressource principalement utilisée en TALN, à savoir WordNet, avait été conçue plutôt dans un objectif d’analyse psychologique et cognitive que pour un usage linguistique.
Tout chercheur utilisant Wikipédia est rapidement confronté aux limitations de ce corpus. L’exemple le plus frappant est l’absence de catégorie homme/femme. Cette absence de différenciation par sexe est une limitation importante à l’utilisation de Wikipédia en tant que ressource lexicologique, du moins pour ce qui est des noms de personnes. De même l’absence de catégorisation grammaticale pour les noms propres (pour les noms communs, le Wiktionnaire n’a pas ce défaut) est une autre limite.
Pour avoir essayé d’utiliser les catégories de Wikipédia pour replacer les noms propres dans notre vaste réseau sémantique, je peux également émettre des réserves dans ce domaine. Les catégories comportent en effet trop souvent des mélanges d’ensembles et de parties (hyperonymes et hyponymes), certaines catégories font parfois double emploi avec d’autres catégories, et sont surtout mal renseignées par de nombreux contributeurs. Les subdivisions par pays sont souvent source de doublettes. Ainsi 61 sociétés américaines figurent dans la catégorie « éditeur de logiciel américain » mais un plus grand nombre d’autres figurent dans la catégorie « éditeur de logiciel » sans précision de pays. Peut-être faudrait-il fournir aux contributeurs des outils permettant de mieux repérer les catégories ou peut-être faudrait-il développer des outils de remise à niveau des catégories ?

Wikipédia aide les chercheurs et ceux-ci aident Wikipédia

Je n’aborderai ici que les contributions de notre société à Wikipédia, manquant d’informations sur les contributions éventuelles d’autres chercheurs. Ayant confronté nos données sur les noms propres à celles de Wikipédia, cette confrontation nous a permis naturellement de découvrir des erreurs dans nos données mais également dans celles de Wikipédia, par exemple des personnes ayant une date de décès inférieure ou égale à leur date de naissance (Luc Desnoyers par exemple, correction du 23 avril 2010, ou Johnny Williams indiqué comme né en 1882 au lieu de 1982, etc.). Bien qu’ils ne soient pas les auteurs des pages sur notre société ou nos produits, plusieurs salariés sont par ailleurs contributeurs, mais c’est une autre histoire !

Dominique Laurent

2 commentaires 27/01/2012

« Automne français », enrichir Wikipedia en français et en ukrainien

« Automne français », c’est le nom donné à un concours de traductions organisé à la fin 2011 par Wikimédia Ukraine, et soutenu par Wikimédia France.

Remise des prix à Kiev

Remise des prix à Kiev (21 décembre 2011) - photo Amakuha - CC-BY-SA

L’idée était de proposer aux contributeurs de Wikipédia de créer ou de traduire des articles sur la France en ukrainien, et sur l’Ukraine en français. Cela afin d’enrichir mutuellement les deux versions linguistiques, avec des articles de bonne qualité, et de favoriser les échanges entre deux pays et entre deux communautés de contributeurs.

Le concours a été organisé entre octobre et décembre 2011, avec un «petit jury » accordant des prix par semaine, et un « grand jury » décernant un prix final aux contributeurs ayant rédigé le plus d’articles de grande qualité, le choix ne se faisant pas au nombre ni au « poids » des articles publiés, mais en prenant en compte la qualité des sources, la complétude des sujets traités, etc.

Ce concours a été un grand succès, qui motive Wikimédia Ukraine à recommencer régulièrement ce type d’expérience.

Quelques chiffres pour illustrer cela :

La Wikipédia en ukrainien est une Wikipédia relativement « jeune », créée début 2004, mais à la croissance très rapide depuis quelques temps, puisqu’elle est passée  de 138 000 articles début 2009 à plus de 360 000 articles en janvier 2012. Le concours a rassemblé 750 participants, principalement ukrainiens, mais aussi français. La Wikipédia en ukrainien a été enrichie de plus de 550 articles concernant la France, et la Wikipédia en français de 142 articles concernant l’Ukraine.

La participation était très simple, il suffisait de s’identifier comme participant, puis d’apposer sur la page de discussion des articles un bandeau signalant que l’article était rédigé dans le cadre du concours.

Le concours a été bien médiatisé en Ukraine et a attiré de nombreux nouveaux contributeurs. D’ailleurs, sur les six gagnants ukrainiens, un seul était déjà contributeur régulier sur Wikipédia, les autres sont de nouveaux contributeurs. Ils ont tous remarqué que contribuer à Wikipédia était beaucoup plus simple que ce qu’ils auraient pu penser auparavant.

Dans les particularités notables du concours, on peut relever que la moitié des gagnants sont des femmes, alors que Wikipédia est traditionnellement éditée par une grande majorité d’hommes (80 à 90% selon les statistiques). Les participants venaient majoritairement de villes moyennes, une des gagnantes étant même une institutrice d’un très petit village, ce qui mérite d’être souligné car la campagne ukrainienne est encore très peu connectée à internet.

Quelques articles créés ou améliorés dans le cadre du concours : Maidan Nezalejnosti (fr), Parti des Verts d’Ukraine (fr), Mykola Skrypnyk (fr), Château Margaux (uk), Гійом Постель [Guillaume Postel] (uk), Крістіан Лакруа [Christian Lacroix] (uk). Les autres articles sont à retrouver ici en ukrainien et en français.

Remise des prix à Paris

Remise des prix à Paris (25 janvier 2012), le gagnant entouré de Mykola Kozlenko (WM Ukraine) et Rémi Mathis (WM France) - Photo Pyb - CC-BY-SA

La qualité des articles s’est notablement améliorée pendant le concours, et les contributeurs habituels ont vu d’un bon œil cette initiative visant à une amélioration mutuelle entre deux cultures peu représentées l’une chez l’autre. Si le concours a été bien plus médiatisé sur la version ukrainienne que sur la version française, il a quand même permis de récompenser un contributeur français pour l’excellence de son travail.

Hier, 25 janvier, nous avons eu le plaisir d’organiser dans les locaux de Wikimédia France la remise des prix à ce gagnant français, en présence de deux wikipédiens ukrainiens dont un membre de Wikimédia Ukraine, quelques wikimédiens parisiens et l’heureux gagnant, qui est reparti avec une liseuse électronique et des livres et CD représentant la culture ukrainienne. À lui seul il a réalisé près des trois-quarts des contributions du concours sur la Wikipédia en français. Non familier de la culture ukrainienne au départ, il s’est pris au jeu et a participé en variant ses contributions, concernant la géographie, la culture, les biographies de personnalités ukrainiennes, cherchant vraiment à enrichir de façon équilibrée la Wikipédia en français sur l’Ukraine.

Cette soirée de remise des prix a donné également l’occasion de voir à quel point au-delà des différences de langue ou de culture, les valeurs qui nous portent sont bien les mêmes : le contact passe tout de suite, nous nous rendons compte très vite que nous faisons face aux mêmes problématiques, aux mêmes questionnements, aux mêmes comportements. Nous ne connaissions pas grand chose de la Wikipédia en ukrainien et des contributeurs ukrainiens, et ce concours a permis de tisser des liens qui seront certainement fructueux pour l’avenir !

————————

Une grande partie des informations nécessaires à ce compte-rendu du concours ont été apportées par Mykola Kozlenko, de Wikimédia Ukraine.

 

36 commentaires 17/01/2012

En quoi SOPA nuira à la liberté du web et de Wikipédia ?

C’est l’événement du jour : en ce 18 janvier 2012, un certain nombre de sites web, et notamment la Wikipédia en anglais, « ferment leurs portes » pour 24h en protestation contre le projet de loi SOPA (Stop Online-Piracy Act) qui est discuté aux États-Unis. Wikimédia France soutient cette action forte de protestation qui, nous l’espérons, fera reculer le législateur américain et découragera les législateurs européens et français de se lancer vers le même type d’attaque contre le web ouvert et libre que nous défendons.

image de black out 18 janvier 2012

Modèle de bandeau apposé pour le black-out de la Wikipedia en anglais le 18 janvier 2012

La décision de « black-out » de la Wikipedia en anglais est intervenue après un débat approfondi dans la communauté des contributeurs, puis le vote de ceux-ci, appelés par un bandeau placé en haut des pages de la Wikipedia en anglais pour les utilisateurs connectés. Rappelons que si la Wikimedia Foundation soutient ce black-out et s’est clairement opposée à la loi SOPA, elle laisse les contributeurs libres de choisir le mode d’action. Ainsi les contributeurs anglophones ont opté pour une Wikipedia en anglais inaccessible partout dans le monde (et non pas seulement aux États-Unis). Les contributeurs germanophones, italophones et hispanophones s’orientent eux vers un bandeau explicatif, de même que les contributeurs de Wikimedia Commons, alors que les francophones, a priori, ne feront aucune action particulière (la discussion est toujours en cours). Les différentes associations locales, comme Wikimédia France, ont un rôle d’explication et de sensibilisation, à l’intérieur de la communauté Wikimédienne comme à l’extérieur, mais n’ont en aucun cas le pouvoir de décider de ces actions.

La décision de rendre inaccessible Wikipédia est une décision lourde de responsabilité, prise en raison de dangers réels pour la liberté du web, et est inédite à une si grande échelle (même si elle fait suite au black-out de la version en italien, en octobre dernier, pour des raisons similaires de menace grave sur la pérennité de sites comme Wikipedia). Geoffrey Brigham, conseiller juridique de la Wikimedia Foundation, a expliqué pourquoi le mouvement Wikimédia devait s’engager contre SOPA. Voici la traduction de ses propos diffusés sur le blog de la Wikimedia Foundation le 13 décembre dernier :

Depuis plusieurs jours, les contributeurs de Wikipédia discutent de l’opportunité de mettre en place une protestation contre la proposition de la loi dite SOPA (Stop Online Piracy Act[1]). Il m’a été demandé de faire quelques commentaires sur ce projet de loi et d’expliquer en quoi cette législation pourrait affecter l’Internet libre et ouvert, de même que Wikipédia. Le but de ce billet est de fournir quelques informations et interprétations qui, je l’espère, seront utiles aux Wikipédiens dans leurs discussions actuelles.

La SOPA s’est acquis le douteux honneur de favoriser la censure sur Internet au nom de la lutte contre la piraterie en ligne. La Wikimedia Foundation s’est opposée à cette loi, mais nous nous devons d’être clair sur le fait que Wikimedia est tout aussi fortement engagée contre toute violation de copyright. La communauté Wikimédia, qui a développé une expertise inégalée dans le domaine de la propriété intellectuelle, passe d’innombrables heures à s’assurer que nos sites sont exempts de contenus illicites. Dans une communauté qui diffuse l’information sous licence libre, il n’y a pas de place pour les abus de droit d’auteur.

Nous ne pouvons cependant pas combattre un mal en en infligeant un autre. La SOPA part de la supposition erronée que la censure est un outil acceptable pour protéger les intérêts privés des ayants droit sur un média spécifique. Ainsi, afin de retirer de la vue certains contenus illégaux, la réponse de la SOPA serait d’empêcher à des sites étrangers entiers l’accès aux États-Unis. Ceci alors même que d’autres programmes, comme le Digital Millennium Copyright Act, ont trouvé un bien meilleur équilibre sans brandir une telle menace. Pour cette raison, nous nous félicitons de l’excellent travail d’un certain nombre d’organisations qui partagent nos vues et mènent la charge contre cette législation, notamment Electronic Frontier Foundation, Public Knowledge, Creative Commons, Center for Democracy and Technology, NetCoalition, Internet Society, AmericanCensorship.org, et d’autres.

Mardi[2], après réception des premiers commentaires sur la version originale du projet de loi, le House Judiciary Committee a publié une nouvelle version de la SOPA, dont la révision (mark-up) est programmée pour jeudi prochain[3]. Un vote de ce texte pourrait avoir lieu le jour même. À la fin de cet article, je vous propose un résumé des passages les plus significatifs de cette nouvelle version de la SOPA ainsi qu’un résumé du processus législatif en cours (que vous pouvez également suivre ici).

En toute honnêteté, cette nouvelle version est meilleure (et le mérite en revient au personnel judiciaire). Mais le texte souffre toujours des mêmes travers structurels, comme son insistance à vouloir bloquer des sites internationaux entiers en alléguant des infractions spécifiques aux États-Unis. Des critiques importantes se sont élevées[4]. Le représentant Darrell Issa, élu républicain de Californie, par exemple, estime que le projet de loi « conserve les vices fondamentaux de son prédécesseur en interdisant aux Américains la possibilité d’accéder à certains sites web, en imposant une réglementation coûteuse pour les entreprises du Web et en donnant à Eric Holder, procureur général au ministère de la Justice, de nouveaux et vastes pouvoirs pour policer Internet ».

Les membres de notre communauté s’interrogent actuellement afin de décider si une action de protestation est ou non appropriée. Je veux être très clair : la Wikimedia Foundation considère que la décision d’organiser ou non une forme de protestation sur Wikipédia, comme la clôture du site ou un affichage de bannière en haut de page, est une décision qui revient à la communauté. La Wikimedia Foundation soutiendra les contributeurs quoi qu’ils décident de faire. Le but de ce billet est de leur fournir des informations pour les aider dans leurs discussions.

On m’a demandé un avis juridique. Et, comme je vous le disais, à mon sens, la nouvelle version de la SOPA reste une sérieuse menace pour la liberté d’expression sur Internet.

  • La nouvelle version continue de saper le DMCA et la jurisprudence fédérale qui ont promu l’Internet aussi bien que la coopération entre les détenteurs de droits d’auteur et les fournisseurs de services. Ce faisant, la SOPA crée un régime dans lequel la première étape en cas de litige fédéral consiste à bloquer le site entier : on est bien loin de la mise en demeure par le protocole DMCA, beaucoup moins coûteuse, de faire retirer sélectivement des contenus illicites précis. Le crime, c’est le lien, pas la violation de copyright. Le coût est un litige, et non une simple mise en demeure.
  • Les frais engendrés par de tels litiges contraindraient les sites à faible budget ou à but non lucratif, tels que ceux de notre mouvement en faveur de la connaissance libre, à renoncer purement et simplement à contester les injonctions à retirer les liens incriminés (articles 102 (c) (3); 103 (c) (2)). Les sites internationaux attaqués pourraient n’avoir pas les ressources pour risquer une procédure judiciaire extra-territoriale aux États-Unis, même en cas de fausses accusations.
  • La nouvelle version de la SOPA est l’expression d’un régime où les détenteurs de droits pourraient tenter de mettre fin à un service de publicité et de paiement comme PayPal en alléguant qu’il est un « site Internet dédié au vol de biens américains » (art. 103 (c) (2)). Un titulaire de droits doit demander une ordonnance judiciaire (contrairement à ce que prévoyait la version précédente) (article 103 (b) (5)). La plupart des ayants droit sont bien intentionnés, mais beaucoup ne le sont pas[5]. Nous ne pouvons pas être certains que les actions contentieuses pour bloquer certains petits sites à l’étranger seront toujours intentées en toute bonne foi, en particulier envers ceux dont la capacité à se défendre est plus faible.
  • Bien que rendant ce choix discrétionnaire (Secs.102 (c) (2) (AE); 103 (c) (2) (AB)), le nouveau projet de loi ferait quand même toujours courir de graves risques de sécurité à nos communications et à notre infrastructure nationale. Le projet de loi n’impose plus le blocage DNS, mais il le permet encore en option. Comme Sherwin Siy, directeur juridique adjoint de Public Knowledge, l’a expliqué : « L’amendement continue à encourager le blocage et le filtrage DNS, ce qui devrait être du ressort des experts en sécurité Internet… » [ou : ce qui doit être inquiétant pour les experts en sécurité Internet… ; anglais :which should be concerning for Internet security experts…]
  • L’Electronic Frontier Foundation fait remarquer que la nouvelle législation proposée prend encore pour cible des outils qui pourraient être utilisés pour « contourner » les listes noires, alors même que ces outils sont essentiels aux militants des droits de l’homme et aux dissidents politiques du monde entier.

Plus spécifiquement, en ce qui concerne Wikimédia, la nouvelle version constitue une amélioration, mais, au-delà des raisons énumérées ci-dessus, elle reste inacceptable :

  • Wikipédia tombe sans doute sous la définition de « moteur de recherche Internet »[6], et c’est pourquoi un procureur fédéral pourrait obtenir une ordonnance du tribunal exigeant que la Wikimedia Foundation retire des liens vers certains « sites étrangers enfreignant la loi [sites étrangers illicites] » ou qu’au moins elle soit sanctionnée par la Cour[7]. La définition de « sites étrangers enfreignant la loi [sites étrangers illicites] » est large[8] et pourrait bien inclure des sites légitimes hébergeant essentiellement des contenus légaux, juste pour quelques contenus enfreignant la loi introduits sur leurs pages. Encore une fois, de nombreux sites internationaux peuvent décider de ne pas se défendre en raison d’un coût trop lourd, permettant au gouvernement de pratiquer un blocage sans même qu’il soit contesté.

Le résultat est que, sous ordonnance de la cour, Wikimedia aurait à traiter des millions et des millions de liens de sources, localiser ceux provenant de soi-disant « sites étrangers enfreignant la loi [sites étrangers illicites] » et les empêcher d’être ajoutés à nos articles ou à nos autres projets. Cela a un coût, à la fois en argent (celui des donateurs) et en personnel, d’entreprendre une telle énorme tâche, et cela doit être répété à chaque fois qu’un procureur délivre une ordonnance du tribunal de tout juge fédéral des États-Unis sur tout nouveau « site étranger enfreignant la loi ». Bloquer des liens va à l’encontre de notre culture de la connaissance ouverte, surtout quand des solutions ciblées pour combattre ces contenus illicites sont disponibles.

  • Le nouveau projet de loi présente une amélioration significative. Dans la nouvelle version, les sociétés basées aux États-Unis – dont la Fondation Wikimedia – ne sont pas soumises à un régime contentieux dans lequel les titulaires de droits pourraient prétendre que leur site est un « site Internet dédié au vol de biens américains » Une telle accusation contre la Wikimedia Foundation aurait facilement pu entraîner une demande de nous priver de nos partenaires de paiement durant nos collectes de fonds. La nouvelle version exempte désormais des sites américains comme le nôtre (art. 103 (a) (1) (A) (ii)).

Bref, malgré quelques améliorations dans la nouvelle version, la SOPA reste loin d’être acceptable. Ses définitions sont encore trop floues, et son approche structurelle est erronée à la base. Elle nuit à Internet, en adoptant une approche globale sans nuances consistant à bloquer des sites internationaux entiers, et c’est encore plus inquiétant pour des sites appartenant au mouvement de la connaissance libre qui sont probablement moins bien armés pour se défendre eux-mêmes à distance. L’approche mesurée et ciblée du DMCA a été jetée par dessus bord. Wikimedia devrait faire face à des charges importantes et développer ses ressources pour se conformer à de probables multiples ordonnances, et cette loi priverait nos lecteurs d’informations, de sources, de contenus internationaux.

Geoff Brigham

General Counsel Wikimedia Foundation

——————————

Notes

[1]  Loi visant à mettre fin au piratage en ligne (N.d.T.)

[2] Le document est en fait daté du lundi 12 décembre 2011 (N.d.T.)

[3] Cette nouvelle version est datée du vendredi 16 décembre 2011 (N.d.T.)

[4] Voir [1], [2] et [3]

[5] Voir [4] (liste d’articles sur les abus dans lesquels se sont engagés certains titulaires de droits dans le contexte du DMCA).

[6] Un « moteur de recherche Internet » est défini comme « un service mis à disposition via Internet dont la fonction principale est de collecter et rapporter, en réponse à une requête utilisateur, des informations indexées ou des liens à des sites web disponibles ailleurs sur Internet » (art. 101 (15) (A)). Cette définition n’inclut pas les services qui conservent « des données tierces sujettes à servir de processus aux États-Unis pour recueillir, indexer ou rapporter des informations disponibles ailleurs sur Internet » (art. 101 (15) (B)). Bien que ne se reconnaissant pas comme telle, Wikimedia ne semble pas concernée par cette dérogation.

[7] Art. 102 (c) (3) (A) (i). Pour assurer la conformité avec les ordonnances rendues en vertu du paragraphe 102, le procureur général peut intenter une action en injonction contre un moteur de recherche Internet qui a délibérément et sciemment failli à se conformer aux exigences de l’article 102 (c) (2) (B) pour contraindre cette entité à satisfaire aux dites exigences.

[8] De manière générale, un « site étranger enfreignant la loi » est un site dirigé vers États-Unis et utilisé par des usagers demeurant aux États-Unis, exploité de telle manière que, s’il était un site national, il tomberait sous le coup de la responsabilité criminelle pour violation de copyright, ou violation du droit d’auteur d’autres ministères fédéraux ou encore violations des secrets commerciaux (voir art. 102 (a) (1-2).

[9] Voir [1] et [2]

 Traduction par Wikinade et Seb35

par Adrienne Alix
Categories: Actualité Wikimédia France, Wikipédia
Aucun commentaire 06/01/2012

États généraux du multilinguisme

Du 14 au 18 décembre dernier, l’Outre-Mer s’est rassemblé en Guyane, à Cayenne, autour des problématiques des langues locales. Les États généraux du multilinguisme dans les Outre-Mer, organisés par la Délégation générale à la langue française et aux langues de France (DGLFLF), ont rassemblé environ 250 personnes venant de tous les départements et territoires d’outre-mer. Linguistes, enseignants, élus locaux, représentants de communautés linguistiques, professionnels de la culture, tous avaient en commun de s’intéresser et / ou de pratiquer les dizaines de langues locales qui sont parlées dans la France d’outre-mer.

Spectacle d'ouverture des États Généraux

Wikimédia France a été invitée en tant que soutien d’un vecteur désormais essentiel pour la valorisation et la diffusion des cultures et des langues : les projets Wikimédia, et particulièrement Wikipédia et le Wiktionnaire.

Les langues d’outre-mer sont encore très peu présentes sur des projets majeurs comme Wikipédia, 5e site le plus consulté au monde, ou le Wiktionnaire. Il n’y a par exemple que deux versions de Wikipédia en langues d’outre-mer. Le Wiktionnaire francophone, qui contient des définitions de mots de 987 langues, ne compte pas d’alternative en langue d’outre-mer.

Pourtant, les projets Wikimédia peuvent être un outil fondamental et populaire de transmission, légitimation, diffusion et stabilisation des langues. Participer à un projet collaboratif de transmission des connaissances peut aider à lutter contre un certain « complexe » des langues principalement orales et servant à décrire l’informel. Ce constat, fait au cours des sessions et des discussions avec les différents intervenants, que les langues d’outre-mer n’étaient pas forcément utilisées pour transmettre des connaissances « savantes » et que cela freinait leur appropriation et leur transmission, nous a motivé pour encourager les locuteurs et enseignants de ces langues à s’emparer des projets Wikimédia.

Les projets Wikimédia pourraient donc être utilisés pour transmettre la connaissance, locale et générale, dans les langues d’outre-mer et langues maternelles des locuteurs des territoires d’outre-mer, tout en faisant en même temps un travail de valorisation des cultures, savoirs et traditions d’outre-mer sur les projets Wikimédia en français.

Après avoir présenté en séance plénière les projets Wikimédia et leur développement dans les langues d’outre-mer, nous avons animé un atelier montrant concrètement comment contribuer sur Wikipédia, se créer un compte, et quelles étaient les étapes nécessaires à la création d’une version linguistique de Wikipédia. Il s’agissait avant tout de lever certaines barrières dues à la méconnaissance du fonctionnement de Wikipédia, et de susciter l’envie de créer des versions de Wikipédia en langues locales, en fournissant les informations de base et les contacts utiles. L’intérêt des participants du colloque était massif, nous avons pu répondre à beaucoup de questions et distribuer de nombreuses brochures d’initiation à Wikipédia.

Salle de conférence des États Généraux

Toutefois, un certain nombre de questions restent à régler :

  • Comment faire naître des communautés locales ?
  • Comment dépasser la vision « informelle » des langues locales, qui ne servent pas en général à exprimer des concepts « savants » ?
  • Comment faire contribuer à l’écrit dans des langues qui, même graphiées, sont principalement utilisées à l’oral ?
  • Que faire avec les nombreuses langues dont la graphie n’est pas encore fixée ?
  • Comment restituer des connaissances issues des cultures locales quand les sources disponibles sont essentiellement orales ?

Si nous avons plaidé que les projets Wikimédia peuvent être un excellent outil collectif d’appropriation écrite des langues, il ne faut pas s’illusionner sur les difficultés qui subsistent.

Les contacts pris, tant chez des personnes de métropole que de l’Outre-Mer, nous permettront certainement d’expérimenter bientôt la création de projets Wikimédia en langues d’outre-mer, où nous pourrons certainement régler au jour le jour ces questions.

Les États généraux du multilinguisme s’étaient fixés pour objectif de soumettre une série de recommandations au ministre de la Culture, Frédéric Mitterrand, qui était présent à la clôture pour les écouter. Nous avons eu le plaisir de voir le rapporteur présenter au ministre, dans le volet « numérique » des recommandations, les projets Wikimédia comme vecteur essentiel des langues et de la culture, et plaider pour un usage massif de ces projets dans la valorisation numérique des langues et des cultures d’outre-mer.

Clôture des EGM 2011 par Robby Judes

Après ces quelques jours d’une grande richesse humaine et intellectuelle, nous sommes maintenant prêts à accompagner les locuteurs des langues d’outre-mer dans leurs futures contributions sur les projets Wikimédia et nous espérons qu’ils seront nombreux à nous rejoindre !

Pour aller plus loin :

  • Nous avons préparé, pour ces États généraux, un rapport sur Les langues d’outre-mer dans les projets Wikimédia. Il est disponible sur notre site, en complément de notre rapport sur Le français sur les projets Wikimédia, réalisé en mai 2011 sur demande de la DGLFLF.
  • L’ensemble des vidéos des séances plénières du colloque, ainsi que des soirées d’ouverture et de clôture, sont à visionner sur Dailymotion
  • Si vous souhaitez des informations pour contribuer sur la culture ultra-marine ou les langues d’outre-mer (création d’une Wikipédia, cours de langues, dictionnaire, etc.), n’hésitez pas à nous contacter à info@wikimedia.fr

Les illustrations de ce billet ont été reproduites avec l’aimable autorisation de la DGLFLF.

2 commentaires 30/11/2011

Il y a urgence

Traduction d’un essai d’emijrp publié le 24 octobre 2011.

Emilio (User:emijrp) contribue à Wikipédia depuis août 2005, il y est notamment dresseur de robot, et participe à la catégorisation du savoir. Ce texte est adapté de son essai There is a deadline (« Il y a urgence »), dont le titre fait écho à un précédent essai intitulé There is no deadline Il n’y a pas d’urgence »).

Cet essai ne représente que les opinions de son auteur.

La cathédrale de la Trinité à Saint-Pétersbourg pendant l’incendie de 2006

La cathédrale de la Trinité à Saint-Pétersbourg pendant l'incendie de 2006.
(Oleg Syromiatnikov, CC-BY-SA)

Chaque jour, des pans entiers de la connaissance sont perdus à jamais, dont aucune trace ne subsiste. Lorsqu’une catastrophe naturelle s’abat quelque part ou qu’une guerre éclate, beaucoup de bibliothèques, archives, musées, monuments, bâtiments de valeur, incunables et objets uniques sont détruits.

De nombreux exemples en attestent, antérieurs à l’existence de Wikipédia. La bibliothèque disparue d’Alexandrie, les encyclopédies chinoises perdues, les églises, monastères, couvents et blibliothèques ravagées lors de la guerre civile espagnole1, l’incendie des chambres fortes de la 20th Century Fox qui détruisit tous les négatifs des films tournés avant 19352, les centaines de bibliothèques et d’archives bombardées et brûlées durant la Seconde Guerre mondiale3,4, les plus de 6000 monastères tibétains dévastés au cours de la Révolution culturelle chinoise, dans lesquels se trouvaient des sculptures, tapisseries et manuscrits uniques5, la bibliothèque nationale et universitaire de Bosnie-Herzégovine bombardée et réduite en cendres avec ses milliers de textes irremplaçables6, pour n’en citer que quelques-uns.

Depuis la création de Wikipédia, la destruction du savoir s’est poursuivie au moins autant qu’avant. La Bibliothèque nationale d’Irak ainsi que d’autres lieux dépositaires de la culture ont été pillés et brûlés lors de l’invasion de l’Irak de 20037, le Tsunami de 2004 dans l’océan Indien a endommagé, voire totalement détruit, les bibliothèques et les archives de plusieurs pays, la majeure partie du patrimoine d’Haïti a été touchée ou anéantie par le tremblement de terre de 20108, de la même manière qu’au Chili suite au séisme de 2010. Récemment, le Musée égyptien du Caire a été pillé au cours de la révolution égyptienne de 20119.

Autodafé de livres à Berlin le 10 mai 1933

Autodafé de livres à Berlin le 10 mai 1933.
(Domaine public)

Mais les guerres et les catastrophes naturelles ne sont pas les seules à menacer le savoir, ainsi que l’ont prouvé l’incendie de la Bibliothèque de la duchesse Anna Amalia en 200410 ou l’effondrement de l’immeuble qui hébergeait les archives de la ville de Cologne en 200911.

Ces événements font à chaque fois disparaître d’importants témoignages de la connaissance humaine, et parfois des patrimoines culturels entiers. Aujourd’hui, de nombreuses langues dans le monde sont en danger.

Par ailleurs, des centaines de sites sont fermés chaque jour sur Internet, la durée de vie moyenne d’une page web n’étant que de soixante-dix-sept jours12. Ces sites sont utilisés dans bien des cas en tant que références sur Wikipédia, mais bien que des projets tels qu’Internet Archive ou WebCite et des groupes de bénévoles comme ceux d’Archive Team13 fassent des copies de sauvegarde de certains d’entre eux, beaucoup d’autres sont définitivement perdus.

Crapaud doré (Incilius periglenes).

Crapaud doré (Incilius periglenes), espèce désormais éteinte.
(Charles H. Smith / U.S. Fish and Wildlife Service, domaine public)

Wikipédia et ses projets frères peuvent et doivent contribuer à sauver toutes ces formes du savoir, par la création d’articles encyclopédiques, le téléversement d’images sur Wikimedia Commons, la préservation des langues au sein du Wiktionnaire ou encore la transcription de livres dans Wikisource. Des événements tels que Wiki Loves Monuments peuvent permettre d’immortaliser des monuments à travers le monde avant qu’ils ne soient dégradés ou détruits, mais l’édition 2011 ne couvrait que des pays européens14. Il faut d’urgence un Wiki Loves Monuments mondial.

Il y a urgence. C’est une bataille contre le temps.

Notes

  1. [^] El martirio de los libros: una aproximación a la destrucción bibliográfica durante la Guerra Civil (archivé sur WebCite).
  2. [^] $45,000 Fire Drives Families From Homes in Little Ferry », Bergen Evening Record, 9 juillet 1937, p. 1 ; cité par Richard Koszarski in Fort Lee: The Film Town, Indiana University Press, 2005, p. 339–341.
  3. [^] It Has Been Done Before! Reconstituting War-Ravaged Libraries (archivé sur WebCite).
  4. [^] Aftermath of the Warsaw Uprising, Planned destruction of Warsaw et Polish culture during World War II.
  5. [^] Tibetan monks: A controlled life (archivé sur WebCite).
  6. [^] Erasing the Past: The Destruction of Libraries and Archives in Bosnia-Herzegovina (archivé sur WebCite).
  7. [^] Photographies de la Bibliothèque nationale d’Irak (août 2003).
  8. [^] Haiti Cultural Recovery Project (copie archivée sur Wayback Machine).
  9. [^] Breaking: Images of Egyptian Museum Damage -UPDATE 34- King Tut Objects Damaged? (archivé sur WebCite).
  10. [^] Hilfe für Anna Amalia (archivé sur WebCite).
  11. [^] Archive Collapse Disaster for Historians – Spiegel Online International (archivé sur WebCite).
  12. [^] Internet Archive - Foire aux questions (archivé sur WebCite).
  13. [^] Site Archive Team (archivé sur WebCite).
  14. [^] Wiki Loves Monuments 2011 - Site web européen (archivé sur WebCite).