Archive

Archives pour 08/2009
Aucun commentaire 29/08/2009

Les modifications malveillantes, source des critiques de Wikipédia, comment s’en protéger ?

Il y a quelques jours je vous parlais des “Flagged Revisions“, un outil permettant de limiter les risques de modifications malveillantes sur Wikipédia. Si cette solution est intéressante, il en existe d’autres déjà fonctionnelle.

Quelles alternatives y a-t’il ?

Ce système de validation semble séduisant, même s’il a des défauts. Il pourrait, très clairement, éviter un certain nombre de maladresses ou de modifications malveillantes, ou même tout simplement de reprendre (et répandre) trop vite certaines informations erronées fournies par les médias traditionnels (souvenons-nous de la mort de Pascal Sevran, annoncée par Europe 1, reprise sur Wikipédia, puis démentie).
Il est aussi activé comme outil de chasse au vandalisme.

Alors pourquoi ne pas le mettre en place ?

Parce qu’il y a d’autres outils qui pallient au moins une part des soucis évoqués. Outre la surveillance constante des modifications récentes faite par de très nombreux contributeurs, via une page spéciale, la Wikipédia francophone dispose par exemple de deux outils puissants :

  • l’outil LiveRC : grâce à cet outil, les contributeurs qui surveillent les modifications récentes disposent d’un certain nombre d’informations sur les contributeurs (nouveau ? ancien ? administrateur ?), et sur les contributions (nombre d’octets ajoutés ou enlevés, création d’article…).
    Ils peuvent voir si ce contributeur a déjà été averti pour des modifications problématiques. Cela permet de faire un tri rapide dans les contributions à surveiller, de défaire rapidement celles qui sont problématiques et d’avertir les contributeurs « à problèmes » que leur modification a été défaite. Cet outil a été développé par plusieurs contributeurs et est disponible sur une petite dizaine de versions linguistiques de Wikipédia.
  • le robot Salebot. Développé par un contributeur francophone, Gribeco, ce robot axe sa surveillance sur une recherche des modifications problématiques.
    Il va, par exemple, détecter automatiquement des ajouts ou retraits massifs de textes. Muni d’une sorte de « dictionnaire » de mots orduriers, injurieux ou problématiques, il détecte les modifications contenant ce vocabulaire. Il peut alors défaire automatiquement ces modifications.
    Pendant un certain temps, il listait également sur une page spéciale toutes les modifications contenant un champ lexical se rapportant à la mort d’un personnage, afin de signaler les potentielles annonces saugrenues de décès (cette expérience a été stoppée à cause de l’énorme quantité de « faux positifs » par rapport aux très rares cas problématiques).

Ces deux outils permettent donc 1) de repérer rapidement des contenus à problèmes et 2) de limiter au maximum la durée de visibilité de ces contenus inappropriés.
Bien entendu ils ne sont pas infaillibles et la vérification individuelle, par la communauté des contributeurs, du contenu des pages, reste un des points fondamentaux de l’amélioration de la qualité de Wikipédia.

Mais la question reste posée, et le sera sans doute encore pour un certain temps. La décision doit se faire (ou ne pas se faire) en toute connaissance de cause, en évaluant les avantages et les inconvénients, en réfléchissant à toutes les implications d’une mise en place ou non de ce système.
C’est aux participants, et à eux seuls, de prendre ou pas cette décision.

7 commentaires 26/08/2009

Les « flagged revisions », qu’est-ce que c’est ?

C’est la nouvelle du jour, révélée par le New York Times : la Wikipédia anglophone s’apprête à adopter un système de versions validées (traduction de « flagged revisions ») pour certains articles sensibles.

Cette approche est en fait distincte de celle déjà en place sur la Wikipédia en allemand. Comme le New York Times, ainsi que de nombreux Wikipédiens, ont confondu les deux mécanismes, nous allons aborder ce sujet dans deux billets : dans celui-ci, nous parlerons du système déjà en place sur la Wikipédia en allemand ; dans le second, nous reparlerons de la version envisagée sur la Wikipédia en anglais.

« Bouche de dénonciation » (Venise)

« Bouche de dénonciation », Venise
(Domaine public, par Berthold Werner)

La Wikipedia en allemand a mis en place un système de versions validées depuis maintenant plus d’un an (mai 2008). Elle n’est pas la seule à le faire, d’autres projets l’utilisent également (Wikipedia en russe, Wikinews en français, etc.).

L’extension FlaggedRevs du logiciel MediaWiki a été développée pour permettre un contrôle a posteriori sur les modifications des contributeurs, limitant la mise en ligne directe aux contributeurs enregistrés et « de confiance ». En pratique, un contributeur non enregistré (appelé couramment « IP » sur Wikipédia, parce qu’il n’est identifiable que par son adresse IP) ou un contributeur récemment inscrit ou n’ayant pas un nombre significatif de contributions, doit attendre que ses ajouts aient été validés par un autre contributeur de confiance pour qu’ils se trouvent intégrés à la version visible de l’article.

Le processus est le suivant : le contributeur A ajoute du contenu dans un article, il sauvegarde. Le contenu visible de l’article n’a pas changé. Dans l’historique de l’article, on trouve cependant cette contribution. Il faut qu’un contributeur B (de confiance) valide cet ajout en cliquant sur un lien dans l’historique, et l’ajout du contributeur A apparaît alors sur la version consultable de l’article.

Ce système autorise toujours la libre contribution sur le site, mais il retarde sa mise en ligne. Le but est très clairement d’empêcher que des vandalismes se trouvent mis en ligne.

Sur la Wikipedia en allemand, ce système de versions validées est mis en place sur l’intégralité du contenu encyclopédique. Environ 7 500 contributeurs ont la possibilité de « valider » des contributions.

Le système « à l’allemande » pose aux communautés des contributeurs un certain nombre de questions. Il est fréquemment vu comme à la fois source de bienfaits et d’inconvénients.

Les points positifs d’abord :

  • Il permet d’éviter qu’un vandalisme pipi-caca se retrouve en ligne immédiatement (on n’imagine pas le nombre de personnes qui se croient très intelligentes en allant mettre des mots orduriers au beau milieu des articles…)
  • Il peut permettre un temps de vérification pour une information tendancieuse ou non-sourcée, typiquement une annonce fausse de décès ou un contenu à caractère diffamatoire.
  • Il ralentit peut-être la tentation du vandalisme, dans le sens où le « contributeur » aux intentions malveillantes n’a plus la satisfaction de voir son ajout directement en ligne.

Les points négatifs, ou simplement problématiques maintenant :

  • un certain nombre de contributeurs estime que ce système bride l’aspect ouvert des wikis et peut freiner l’arrivée de contributeurs ne comprenant pas ce système.
    Imaginons quelqu’un qui corrige un article, ou lui ajoute un contenu substantiel, il peut lui sembler étrange de ne pas voir sa modification s’afficher. D’expérience, les nouveaux contributeurs ont du mal à savoir véritablement comment fonctionne Wikipédia, et beaucoup ne reviennent pas s’ils n’ont pas compris la raison pour laquelle il y a une différence entre l’idée qu’ils se font de Wikipédia, et la réalité du contributeur.
  • Le système des versions validées ne peut fonctionner efficacement que si les contributeurs de confiance passent un temps certain à valider ces contributions.
    Il y a un temps de latence qui, pour ne pas brider la dynamique d’amélioration des contenus, doit être le plus court possible.
    Les statistiques disponibles pour la version germanophone de Wikipédia montrent qu’environ 1/3 des modifications sont revues dans l’heure, au bout de 8 heures la moitié est revue, et les 2/3 le sont au bout d’une journée.
    D’où quelques conclusions rapides : le tiers restant est revu beaucoup plus tard (y compris s’il s’agit de la correction d’une erreur présente dans un article. C’est donc une version « moins bonne » qui reste en ligne) ; pour être efficace il faut que les révisions soient faites le plus vite possible : il y a proportionnellement beaucoup plus de révisions faites dans la ou les premières heures qu’ensuite.

    Pour le dire simplement : si on ne valide pas l’ajout tout de suite, il y a des chances importantes pour qu’il ne soit validé que bien plus tard.

  • Quid de la responsabilité légale du « valideur » ? Est-il responsable s’il valide par erreur un contenu problématique ? Étant donnée la masse de contributions à valider, il est évident qu’il doit y avoir des erreurs ou des validations faites trop vite. Qu’en est-il alors de la responsabilité individuelle de la personne qui a validé ce contenu ? C’est une question importante dans le cas d’un ajout potentiellement diffamatoire ou mensonger sur une personne.

La question de l’intégration d’un nouveau type de contrôle des contributions sur la Wikipédia anglophone va inévitablement réanimer le débat dans la communauté francophone et peut-être également dans les médias. Pour l’instant, les contributeurs francophones se sont davantage exprimés contre l’intégration du système de « versions validées » à l’allemande que pour sa mise en place.
Mais la question reste posée, et le sera sans doute encore pour un certain temps. La décision doit se faire (ou ne pas se faire) en toute connaissance de cause, en évaluant les avantages et les inconvénients, en réfléchissant à toutes les implications d’une mise en place ou non de ce système.
C’est aux participants, et à eux seuls, de prendre ou pas cette décision.

Aucun commentaire 24/08/2009

Le village associatif des RMLL

C’est quoi un village associatif ?

Prenez les RMLL (Rencontres mondiales du logiciel libre, qui se sont déroulées à Nantes en juillet 2009), trouvez un emplacement assez grand pour y placer des prises de courant, des tables avec des chaises, des commutateurs réseaux par dizaines et invitez les associations liées au monde du logiciel libre. Voilà, vous avez votre village des associations.

Geek or not geek ? that is the question.

Parfois appelés à tort « geeks » (Wiktionnaire : Personne prise par une passion, au point que ça empiète sur sa vie sociale), les participants sont en fait souvent des personnes de tous âges impliquées dans un projet collectif et utile aux autres, défendant les valeurs du libre et utilisant l’informatique comme outil sans pour autant être informaticiens.

Cette année, on retrouvait :
afpy, AFUL, Alis44, April, Archlinux-fr, ArmadeuS project, ASRI Éducation, AUFML Mandriva-fr, CEMÉA Pays-de-la-Loire, Chtinux, Crealab, Debian France, EducOOo, FDN, Fedora-fr, FFII-fr, Framasoft, France-Wireless, fr-dvorak-bépo, FreeBSD, FSF-Europe, FAN : Fully Automated Nagios, GCU Squad, Projet Gutenberg, Haiku, InterGUL de l’Ouest : (Actux, Finix, Gulliver, Infothema, LinuxQuimper, Rhizomes, N@utile), In Libro Veritas, Les Écossolies, Libre Accès, Linux-Azur, Linux MAO, La Poule ou l’Œuf, MaCommune.org, Montpel’libre, Mozilla-Europe, Musique Libre ! Dogmazic, Ofset, OpenBSD / OpenSSH, OpeneXia, OpenOffice.org, RHIEN, SCIDERALLE, Shtooka, SliTaz, Sparnatux, TuxFamily, Ubuntu-fr et Wikimédia France (nous).

Pourquoi un village associatif ?

Le but de la présence de ces associations est d’informer le public venant aux RMLL de leur travail, de leurs actions, de se faire connaître.
C’est aussi un instant où les associations peuvent se rencontrer entre elles. On y retrouve souvent les mêmes personnes qui, tous les ans, vont aux RMLL ou à d’autres salons où un village associatif existe.

Le public cherche souvent à rencontrer les personnes derrière des projets connus et dont ils utilisent les produits. D’autres viennent comme simples visiteurs sans but précis, mais sont souvent interpellés par le nom d’un stand pour en avoir entendu parlé ou pour avoir utilisé leur production.

Véritable vitrine du monde du libre, les RMLL et son village associatif montrent l’ampleur et la volonté de se faire connaître du public.

par Crochet.david
Categories: Projets Wikimedia
,
Aucun commentaire 19/08/2009

OpenStreetMap : Une carte géographique libre

Demandez à des passants de citer une encyclopédie libre à laquelle chacun peut contribuer, beaucoup vous répondrons « Wikipédia ».
Maintenant demandez de citer une carte géographique, libre, et à laquelle chacun peut contribuer, certains vous répondrons OpenStreetMap, OSM pour d’autres.

Logo dOpenStreetMap, CC-by-sa-3.0

Logo d’OpenStreetMap
(OpenStreetMap Foundation, CC-by-sa-3.0)

Comment ça ? Des cartes géographiques libres ? Un concurrent de cartes telles que celles de Michelin, l’IGN ou Google Maps ? Oui, c’est possible !

Le but du projet OpenStreetMap est donc de cartographier le monde entier, en y ajoutant toutes les indications possibles que peut recevoir une carte (voie de circulation automobile, pédestre, ferrée ou fluviale, point et bâtiment remarquable, zone industrielle, etc.)

Mais comment construire une carte ? Tout simplement en utilisant un GPS, et en effectuant des relevés de points, qui seront ensuite envoyés sur le serveur, et à partir de ces ensembles de points, retracer les voies et leur ajouter des informations (voie unique, type de revêtement, vitesse limite, catégorie, ou tout simplement leur nom).

Deuxième source d’information : les fichiers du cadastre français. Pour cela il suffit d’afficher en arrière-plan l’image du plan du cadastre, et ensuite sur le calque de OSM, de mettre en place les traces. Le logiciel JOSM (Java OSM) le fait très bien par exemple.

Bref, dans quelque temps, la France aura une carte bien renseignée, tel que l’on peut le voir dans la zone Belgique, Pays-Bas, Allemagne ou aux États-Unis.
Et dans l’avenir : des GPS, tournant avec un système d’exploitation libre et utilisant une carte géographique libre.

Alors, vous aussi, arpentez les chemins et les routes avec un GPS pour y ajouter votre contribution.

Aucun commentaire 13/08/2009

Comment le futur de Google, Caffeine, référence t-il les articles de Wikipédia ?

Ce fut la nouvelle du jour, Google sort un nouveau moteur de recherche répondant au doux nom de Caffeine. Google a annoncé sur son blog que Caffeine n’allait rien révolutionner, que c’était une simple évolution du moteur actuel et qu’il donnerait des résultats de recherche plus pertinents que la version actuelle.

Depuis de nombreuses années, de nombreux Wikipédiens pensent que Google déclasse les articles de Wikipédia pour certains résultats de recherche. Pour l’instant aucune étude sérieuse sur le sujet n’a été menée pour étayer ces affirmations

Avec la sortie de Caffeine, et de ses résultats plus « pertinents », l’idée a refait surface que Google en profiterait pour modifier le référencement des articles de Wikipédia. C’est ce que j’ai voulu savoir en tirant quelques statistiques rapides.

Tout d’abord je suis bien conscient que les quelques requêtes que j’ai faites ne peuvent pas être représentatives de l’ensemble des requêtes possibles, mais les résultats obtenus sont, à mon sens, suffisamment tranchés pour avoir une bonne idée de l’évolution qu’est Caffeine.

Au final c’est donc une soixantaine de requête qui ont été comparées. Le choix des requêtes s’est fait selon plusieurs critères. Une première série de requêtes a été générée en fonction des articles de Wikipédia les plus lus au mois de juillet. Google adaptant ses résultats à l’actualité, il me semblait intéressant de voir l’impact que l’actualité peut avoir sur les résultats de Caffeine.
Deuxième série, des requêtes « bateaux ». Des noms de pays, de villes ou de personnages connus et sans réelle actualité pour le moment, le but cette fois-ci étant l’opposé de celui de la première série : voir les évolutions du référencement sur des requêtes relativement stables. Dernière série, les acronymes. Le but étant de voir comment Caffeine gère les requêtes pouvant avoir plusieurs significations. J’ai également couplé les deux premiers critères aux acronymes et ai soumis des acronymes ayant une actualité (clubs de foot notamment) et d’autres « bateaux ».

Comparatif statistique des résultats des requêtes de recherche de Google et Caffeine

Comparatif statistique des résultats des requêtes de recherche de Google et Caffeine

Comme on peut le voir sur le graphique, les résultats ont peu bougé, et plutôt vers un meilleur référencement des articles Wikipédia, mais rien de transcendant. Vu les évolutions, cela pourrait être mis sur le compte de l’évolution naturelle du référencement des sites. En revanche, il est plus intéressant de constater non pas l’évolution du référencement mais la pertinence des résultats.

Comparatif des résultats Google et Caffeine pour la requête JO

Comparatif des résultats Google et Caffeine pour la requête JO

Pour la requête JO, on voit clairement l’évolution. Tout d’abord Wikipédia ressort bien plus tôt dans les résultats de la recherche, mais au-delà d’un référencement meilleur, c’est surtout l’amélioration de la pertinence qui est remarquable. Alors que sur Google la requête JO nous donne pour résultat les articles “Jo-Wilfried Tsonga” et “Jeux olympiques d’été de 1936” Caffeine nous donne des résultats bien plus pertinents avec “Jeux olympiques” et “Journal officiel de la République française“.

De même que pour les acronymes, par exemple pour TFC et OM, Caffeine propose, en plus des pages dédiées aux acronymes, la signification la plus courante (Toulouse Football Club et Olympique de Marseille).

Au final Caffeine ne modifie que légèrement le référencement des sites et quand elle le modifie, c’est souvent pour des résultats plus pertinents.

Cette « étude », qui n’en est pas une, n’est pertinente que par apport à la Wikipédia francophone, pour des recherches en français et localisées sur la France. Mais c’est un bon départ pour se faire une idée des évolutions de Caffeine.

Si vous tombez sur des requêtes aux résultats intéressants, dans un sens comme dans l’autre, n’hésitez pas à m’en faire part.

par Christophe Henner
Categories: Wikipédia
,