Accueil > Wikimedia Commons, Wikipédia > Appréhender la véritable taille de Wikipédia

Appréhender la véritable taille de Wikipédia

Wikipédia est un projet véritablement gigantesque, tant d’un point de vue technique que humain. On compare souvent ce projet à d’autres encyclopédies qui seraient, au choix, plus fiables, plus pertinentes, mieux illustrées, etc.  Ce faisant, on oublie que la comparaison est délicate, tant elle traite de sujets différents en définitive.

Un des aspects de cette différence est la taille. Il existe des Wikipédia en 250 langues (avec des contenus différents). 250 langues différentes, deux-cent cinquante langues. Considérant toutes ces langues, Wikipédia est formée [1] de 28 500 000 articles, vingt-huit millions cinq-cent mille articles. On peut y ajouter la médiathèque (Wikimédia Commons), formée de 5,6 millions de fichiers [2]. Tout cela est visité chaque mois par 346 000 000 visiteurs uniques, trois-cent quarante-six millions de visiteurs.

Pris ensemble, ces chiffres sont énormes et n’ont rien de commun avec tout autre projet encyclopédique existant. Comment appréhender une telle différence d’échelle ? Avec un dessin !

Des bâtiments représentants Wikipédia paraissent beaucoup plus imposants que ceux représentant Britannica, Universalis et l'Encyclopédie.

Ce graphique représente la taille de wikipédia ainsi que celle de trois autres encyclopédies généralistes « classiques ». (Cliquez pour agrandir)

La surface du toit des bâtiments est proportionnelle au nombre d’articles. Affiché dans sa taille originale, un pixel représente un article. La hauteur des bâtiments est fonction du pourcentage de conflits dans la catégorie correspondante. Les catégories et les conflits ne sont pas montrées pour les encyclopédies classiques.

Chaque fenêtre rouge correspond à 1000 éditeurs très actifs (avec plus de 100 éditions par mois), les bleus représentent 1000 contributeurs actifs (plus de 5 éditions par mois).
Chaque bonhomme bâton représente un million de visiteurs uniques par mois. Du fait du manque d’information concernant les encyclopédies classiques, il n’y a aucun visiteur dessiné près d’elles.

Certains bonhommes transportent de petits carrés, qui représentent chacun 21 nouveaux articles par mois (un pixel par article dans les proportions originales).

Les données concernant la taille et la fréquentation proviennent de la page de statistiques de la Wikimedia Foundation, celles sur la couverture thématique de l’étude de Kittur et al. dont nous avons déjà parlé.

L’image est diffusée sous licence « Creative Commons – Attribution – Partage à l’identique », vous pouvez l’améliorer en utilisant le fichier SVG source.

[1] statistiques datant de décembre 2009

[2] et est passée à 6 millions de documents le 1er février 2010

par Johann Dréo
Categories: Wikimedia Commons, Wikipédia
  1. 03/03/2010 à 16:21 | #1

    Que signifie exactement “pourcentage de conflit dans la catégorie correspondante” ?

  2. 03/03/2010 à 17:20 | #2

    Hi. Where have you seen that “Wikipédia est formée de 28 500 000 articles”?

    Here it says 23,000,000 counting all Wikimedia projects (http://s23.org/wikistats/)

    And here it says 15,000,000 counting only Wikipedias (http://meta.wikimedia.org/wiki/List_of_Wikipedias#Grand_Total)

    Regards!

  3. 03/03/2010 à 17:53 | #3

    @Léna : Les conflits sont estimés à partir du nombre d’annulation de modifications. Chaque étage représente 1% des conflits dans la catégorie représentée par l’immeuble. Ainsi, les articles liés à la géographie contribuent à 2% de l’ensemble des conflits.

    @emijrp : As indicated in the article, stats comes from the official WMF page here : http://stats.wikimedia.org/reportcard/ (that currently indicate 29,700,000 articles).

  4. 03/03/2010 à 18:22 | #4

    Ah, that counts image files in Commons (+6M) too, but really those are not *articles*.

  5. 03/03/2010 à 19:00 | #5

    @emijrp : I have drawn the media “building” of Universalis along the articles one, the difference remains interesting for both categories of “pages”.

  6. 04/03/2010 à 12:02 | #6

    pour que ce soit moins trompeur, j’aurais plutôt mis le nombre d’articles proportionnel au volume du bâtiment et non à sa surface au sol : un article = un voxel ; et la proportion de conflits pourrait être représentée par une échelle de couleurs

  7. 04/03/2010 à 14:01 | #7

    c’est beau, je m’en re-servirais :)

  8. kimdime
    04/03/2010 à 16:44 | #8

    Note : faut tout de même indiquer que “250 langues” c’est un écran de fumée, beaucoup de petites wikipedias sont en fait vides

  9. Le concombre masqué
    05/03/2010 à 11:43 | #9

    C’est terriblement contre-productif ce genre de dessins. Quand on voit ce genre de graphiques, ça renvoie immédiatement l’esprit du lecteur sur les articles indigents de Wikipédia, en prime traduits en langues exotiques, et ça rappelle à quel point, si on s’y promène au hasard et non en ciblant bien où on va, Wikipédia c’est de la merde (si je puis me permettre une telle agressivité). La taille de Wikipédia, en un sens, c’est quelque chose dont elle pourrait avoir plutôt honte.

    Par ailleurs la méthodologie est suprenante, puisque si j’ai bien compris tu extrapoles une étude thématique de la seule Wikipédia en anglais à l’ensemble des Wikipédias.

    Quelle est la source pour les nombres d’articles des encyclopédies papier ? N’ont-elles pas de traductions, elles ?

  10. 05/03/2010 à 15:57 | #10

    @Concombre, courageux anonyme : commentaire édifiant, qui appellerait une longue réponse. Je vais tâcher de faire court, en ne répondant qu’aux remarques pertinentes.

    En fait, vous partez d’un postulat bancal : l’idée selon laquelle l’intérêt de Wikipédia résiderait dans sa capacité à produire dans votre langue des articles encyclopédiques équivalents à ceux des encyclopédies « classiques ».

    Ce postulat est bancal à plusieurs points de vues : d’abord, il n’est pas démontré (et il est même sans doute faux) que l’expansion en nombre d’article se fasse au détriment de la qualité de ceux-ci.

    Ensuite, les encyclopédies les plus classiques n’existent tout simplement pas (même à l’état de résumé) dans autant de langues, à moins de ne considérer, comme vous semblez le faire, qu’il y a des langues qui ne valent pas le coup qu’on s’y intéresse. Donc, rien que pour ça, Wikipédia est importante. À ce titre vous noterez que le dessin comprend Universalis, qui est en quelque sorte le pendant français de Britannica.

    De la même façon, l’idée selon laquelle il y aurait des sujets importants et des sujets anecdotiques, ou son pendant qui voudrait que tous les sujets pourraient (et devraient) êtres traités dans des articles au format standard, dénote un finalisme élitiste dont le succès de Wikipédia démontre l’inanité.

    Un autre point important est que, contrairement à ce que j’entends souvent à propos d’« internet » (même pas seulement de Wikipédia), dans le monde numérique, l’apparente désorganisation due à la masse d’information n’entraîne pas nécessairement la mort par noyade.

    La taille de Wikipédia et son succès démontre que les encyclopédies classiques ne sont tout simplement pas comparables. Une encyclopédie classique ne donnera vraisemblablement jamais une liste en français des tripoints de frontières. Diriez-vous que c’est une information inutile ? Merdique ? Vous auriez tord. À partir du moment où l’amélioration incrémentale est possible (ce qui, là, pourrait être discuté), peut importe que vous ne trouviez pas le sujet « important », l’information servira à d’autres.

    Pour dire les choses plus simplement : on se fout qu’il y ait beaucoup d’articles, ça ne gâche rien et ça n’a tout simplement jamais été fait auparavant !

    Selon mon point de vue, une des grandes contribution de Wikipédia au savoir humain aura été d’aider à casser le genre de vision du traitement du savoir que vous semblez persister à maintenir, et ça, c’est bien :-)

  11. Yves
    05/03/2010 à 18:21 | #11

    @Concombre. Si WP est de la merde, alors, beaucoup d’autres choses méritent ce qualificatif, et peut-être même internet dans sa globalité. La résistance des (pseudo)-intellos français à internet et à WP est rigolote à suivre. Ils ont, encore une fois, une guerre de retard. On se passera d’eux.

  12. Le concombre masqué
    06/03/2010 à 20:56 | #12

    Je vois qu’on a pas mal surinterprété mes propos.

    “courageux anonyme” -> je relève quand même. L’anonymat est banal dans les commentaires de blogs, et je suis supris que vous ne le reprochiez sélectivement qu’à quelqu’un qui envoie un commentaire critique. Mais qu’importe.

    “l’idée selon laquelle il y aurait des sujets importants et des sujets anecdotiques” -> je n’ai pas développé cette idée, j’ai développé l’idée qu’il existe des articles excellents (qui sont souvent d’ailleurs sur des sujets anecdotiques) et des articles dégueulasses (qui sont souvent d’ailleurs sur des sujets dits “importants”, enfin pas dits par moi).

    ‘son pendant qui voudrait que tous les sujets pourraient (et devraient) êtres traités dans des articles au format standard” -> j’ai rien compris, je ne sais pas si c’est mon idée ou non. C’est quoi le “format standard” ? La particularité de Wikipédia, c’est justement d’avoir un “format standard” la même typo, les mêmes wikiliens, le même gras dans le résumé introductif pour parler de physique quantique ou des mythiques Pokémons, mais vous semblez au contraire fustiger le principe du “format standard” alors je ne sais trop si je suis d’accord avec vous ou non.

    “ne considérer, comme vous semblez le faire, qu’il y a des langues qui ne valent pas le coup qu’on s’y intéresse” -> oui là vous ne trahissez pas ma pensée. L’infinie multiplication des projets de la Wikimedia Foundation m’en semble une des grandes faiblesses, et c’est un des prétextes que je me donne pour refuser d’y faire des dons : ça ne m’intéresse pas d’envoyer de l’argent pour stocker des articles en volapük sur les communes françaises.

    “peu importe que vous ne trouviez pas le sujet « important »” -> encore une fois un article sur un sujet pas “important” ne me gêne pas s’il est un minimum correct. Le problème ce sont les milliers d’articles instructurés ou remplis d’informations fausses, ou d’informations vraies non vérifiables ce qui revient au même.

    “on se fout qu’il y ait beaucoup d’articles” -> si on s’en foutait effectivement, ça ne me gênerait pas, mais l’entrée que je commente en annonce fièrement le nombre, en toutes lettres pour que ça fasse plus impressionnant. Alors sauf à supposer que vous avez changé d’avis entre le 3 et le 5 mars, j’ai bien l’impression que non, vous ne vous en foutez pas.

    “Une encyclopédie classique ne donnera vraisemblablement jamais une liste en français des tripoints de frontières. Diriez-vous que c’est une information inutile ? Merdique ? Vous auriez tord” -> encore une fois je ne pointais pas les articles à peu près structurés comme les poulpismes mais les autres, les millions d’autres. Si vous voulez des articles que je considère comme “merdiques” voir par exemple (en français) “Théologie” ou “Réinventer la roue carrée” par exemple : des collages sans queue ni tête, dont on ne sait juger la valeur sans connaître déjà à fond le sujet.

    Mon propos n’était pas de pointer les défauts de Wikipédia, vous les connaissez comme moi. Il était de critiquer _cette entrée de blog_ en soulignant que pour pas mal de monde (moi au moins :-)), mettre en relief l’importance numérique du nombre d’articles, c’est rappeler l’existence d’articles exécrables. Peut-être n’est-ce pas de la mauvaise communication vis-à-vis de tous les publics, moi quand on me fait remonter en mémoire qu’il y a une Wikipédia en Volapük ça m’attriste plutôt. Des trucs comme l’article en polonais sur Crouy-sur-Ourcq (rien que des bots dans l’historique, pas un humain) ou l’article en français sur Dieu (là trop d’humains, ça serait peut-être un peu meilleur s’il n’y avait eu que des bots) me semblent des contre-publicités. Alors vous pouvez les mettre en avant, c’est votre droit.

    Dernier point, je n’avais pas abordé le thème de l’élitisme/antiélitisme et vous avez cru le déceler dans mon intervention. En revanche je suis assez horrifié par votre dernier paragraphe qui semble confirmer ce qui me semblait un poncif des excités anti-Wikipédia, celui selon lequel les “Wikipédiens” seraient anti-élitistes. Il est vrai que vous avez eu la prudence d’ajouter un “selon mon point de vue” (vous n’engagez que vous) mais ça me fait un peu peur votre idée selon laquelle Wikipédia a réussi à inventer une façon plus performante de présenter le savoir que celle affinée par des siècles de pratique. Pour moi (“selon mon point de vue” de mon côté aussi), un point auquel on reconnaît les bons articles de Wikipédia, c’est justement qu’ils ressemblent comme deux gouttes d’eau à ce qui peut se produire sur du papier, sous la plume de rédacteurs individuels compétents. Au hasard les splendides productions en français du Projet:Grèce, “Georges Ier de Grèce” au pif, si elles sont superbes, c’est justement parce que ces gens-là n’ont pas cherché (me semble-t-il) à “casser” quoi que ce soit.

  13. 1
    09/03/2010 à 16:40 | #13

    Petit HS : le fichier source SVG a permit ici de nous amuser à faire un petit test comparatif de quelques navigateurs :
    Firefox : réagit nickel mais n’affiche pas les bonhommes Oo, dézoom maximum trop faible,
    Opéra : affiche tout mais a un petit problème d’affichage lors du défilement,
    Chrome : plante directement et systématiquement,
    Safari : impossible de tester car impossible de dézoomer ni de faire défiler.

  14. Jérémie
    13/04/2010 à 09:54 | #14

    en tout cas ça fait plaisir de voir des gens intelligents discuter posément de sujets intéressants. Ca change des forums débiles où les gens se crachent desssus. Bravo à vous 2.

  1. 09/03/2010 à 01:33 | #1
  2. 13/03/2010 à 21:04 | #2