Accueil > Wikipédia > Couverture thématique de Wikipédia

Couverture thématique de Wikipédia

À ses débuts, il fut souvent reproché à Wikipédia d’être rédigée par et pour des amateurs d’informatique. De ce fait, une représentation excessive des sujets techniques était généralement dénoncée comme un biais inadmissible.

D’intéressantes études statistiques, menées par des chercheurs de l’université Carnegie Mellon et du centre de recherche Xerox de Palo Alto permettent aujourd’hui de se faire une idée objective de la couverture thématique de la Wikipédia anglophone en janvier 2008.

Leur méthode s’appuie sur les catégories, ajoutées par les contributeurs : en cherchant le plus court chemin depuis un article jusqu’à l’une des catégories de plus haut niveau, il est possible de comptabiliser combien d’articles y sont rattachés.

La répartition montre une nette prédominance des articles culturels. Les pourcentages suivants sont ceux de janvier 2008, entre parenthèses est donné leur évolution depuis juillet 2006. Il faut également noter que pendant ces deux années, le nombre de pages et de catégories a plus que doublé :

Couverture thématique de la Wikipédia anglophone en janvier 2008.

Couverture thématique de la Wikipédia anglophone en janvier 2008.

  • Culture et arts : 30% (+210%)
  • Biographies et personnes : 15% (+97%)
  • Géographie et lieux : 14% (+52%)
  • Société et sciences sociales : 12% (+83%)
  • Histoire et évènements : 11% (+143%)
  • Sciences naturelles et physiques : 9% (+213%)
  • Technologie et sciences appliquées : 4% (-6%)
  • Religions et systèmes de croyances : 2% (+38%)
  • Santé : 2% (+42%)
  • Mathématiques et logique : 1% (+146%)
  • Philosophie et pensée : 1% (+160%)

Wikipédia est donc l’encyclopédie de la culture et des arts avant tout. Les auteurs mettent en garde contre une interprétation trop rapide de la baisse de la proportion des articles en sciences appliquées.

La même étude s’est également intéressée aux sujets provoquant le plus de conflits, proportionnellement à leur représentation dans l’encyclopédie. Les proportions sont alors toutes différentes :

Répartition thématique des conflits sur la Wikipédia anglophone en janvier 2008.

Répartition thématique des conflits sur la Wikipédia anglophone en janvier 2008.

  • Culture et arts : 2%
  • Biographies et personnes : 14%
  • Géographie et lieux : 2%
  • Société et sciences sociales : 7%
  • Histoire et évènements : 6%
  • Sciences naturelles et physiques: 7%
  • Technologie et sciences appliquées : 1%
  • Religions et systèmes de croyances : 28%
  • Santé : 0%
  • Mathématiques et logique : 1%
  • Philosophie et pensée : 28%

L’étude de l’équipe d’A. Kittur montre également qu’il est illusoire de chercher à considérer Wikipédia comme un ensemble d’articles homogène, les caractéristiques thématiques variant grandement.

Wikipédia est donc avant tout l’encyclopédie de la culture !

Sources

par Johann Dréo
Categories: Wikipédia
  1. 26/05/2009 à 13:40 | #1

    Étude très intéressante. Le graphique sur les conflits reflète bien ce qu’on voit sur le terrain.

    Je m’en vais l’insérer dans ma présentation de Wikipédia.

  2. olympi
    27/05/2009 à 13:02 | #2

    Sauf que ça n’évalue pas la profondeur (taille et qualité) des articles.

  3. DS
    28/05/2009 à 08:54 | #3

    Comme Olympi : compter le nombre d’octets dans une catégorie plutôt que le nombre d’articles serait sans doute plus représentatif. Dans les sciences naturelles par exemple, existent de très nombreux articles pour chaque espèce/famille/genre/etc, sans qu’ils soient forcément plus que de simples fiches.

    Par contre, l’étude sur les sujets de conflits est très intéressante.

  4. 28/05/2009 à 09:15 | #4

    Tout dépend de ce qu’on entend par représentatif. L’étude considère que c’est le nombre de sujet qui importe, et pas leur couverture.

    Il serait certes intéressant d’avoir une pondération par la taille, mais je ne dirais pas que ce serait plus représentatif, ce serait un autre point de vue.

    Par exemple, cela favoriserait les articles sur les communes, qui sont autogénérés… peut-on dire qu’ils sont plus intéressants que des petits articles biographiques ?

    Non, ce qui serait vraiment représentatif, c’est d’avoir ce genre d’étude statistique avec plusieurs métriques différentes, qu’on puisse comparer et en tirer plus de conclusions.

    C’est donc un pas dans la bonne direction.

  5. Acer11
    28/05/2009 à 09:49 | #5

    Merci à Johann Dréo, c’est intéressant d’avoir ce genre d’information.

    Au niveau interprétatif, un secteur thématique peu représenté dans Wikipédia et simultanément très présent dans les conflits signale ainsi ce secteur comme objet intéressant d’une part et d’autre part que les conflits découragent la collaboration à la rédaction.

    Ce qui n’est pas très étonnant dans une encyclopédie basée sur le bénévolat, le temps que l’on peut libérer et le plaisir à collaborer.

    Sur un tel secteur, une gestion soignée des conflits serait donc spécialement importante.

    Une telle interprétation pourrait être confirmée/infirmée par des stat. de consultation ?

  6. Bruno2wi
    29/05/2009 à 05:53 | #6

    Vraiment intéressant. Et sur Wikipédia.fr ça donne quoi à votre avis ?

  7. Apokrif
    01/06/2009 à 05:15 | #7

    Dans la catégorie “géographie”, quelle est la proportion d’ébauches sur des villages créées par des robots ?

  8. 03/03/2010 à 17:31 | #8

    This subject is very interesting and can be compared with other encyclopedias, like Britannica 1911 (http://en.wikipedia.org/wiki/Britannica_1911#Background)

    Regards

  1. 26/08/2009 à 00:19 | #1
  2. 31/10/2009 à 14:42 | #2
  3. 03/03/2010 à 15:57 | #3