Overblog Suivre ce blog
Editer l'article Administration Créer mon blog

De l'usage des Tags (1) - Etude de l'usage de 131 veilleurs

19 Décembre 2008 , Rédigé par Tecoman Publié dans #Etudes

Ceux qui me lisent régulièrement ont probablement compris que je suis un fan des tags, à titre personnel (d'où la présence de nuages de tags sur ce site), mais aussi dans le contexte de l'entreprise.

Des petits éditeurs qui expérimentent, les gros qui attendent prudemment
Si rares sont encore les applications "traditionnelles" qui utilisent les tags, on voit actuellement apparaître sur le marché des solutions qui offrent une navigation essentiellement basée dessus.

Il s'agit pour l'essentiel de solutions web (saas ou non), et paradoxalement, les plus grands éditeurs sont souvent plus ou moins en retrait dans ce domaine :
- Microsoft (qui l'utilise dans certains de ses blogs, mais pas encore dans Sharepoint),
- Google (qui essaye manifestement d'entrer dans le monde de l'entreprise avec de nouveaux concepts, mais sans trop perturber l'utilisateur dans ses habitudes de navigation arborescente, d'autant qu'ils ont déjà échoué dans une première tentative d'utilisation des tags dans Google Docs)

Voilà qui laisse de la place aux petits éditeurs innovants pour expérimenter, les "gros" attendant vraisemblablement que les petits défrichent le terrain, sachant que l'entreprise sera de toute manière généralement peu encline à se précipiter sur une innovation trop récente.

Les tags, un concept simple, en apparence

Si la recherche et la navigation par tag se révèle rapide, simple et performante pour l'utilisateur, elle repose néanmoins sur un certain nombre de pré-requis et de concepts qui ne semblent pas si évidents que cela lorsque l'on étudie le fonctionnement des solutions proposées ici et là. Et même des chercheurs comme ceux de Bell Labs, qui me démontraient leur produit aux Innovation Days 2008 d'alcatel-Lucent il y a quelques jours, n'avaient pas osé aller aussi loin dans leur conception que Knowledge Plaza, bien qu'ils aient parfois pensé à des détails mieux conçus que certaines options de Delicious.com.

Exemple issu de Delicious :

Voici le nuage de tags de Tecoman. Celui de gauche est trié par ordre alphabétique. Celui de droite est trié par ordre décroissant d'utilisation des tags. Rien ne vous choque ?

              

Je suis sur que vous avez trouvé : le nuage de droite montre différentes plages de tags, identifiées par la taille et/ou la couleur des caractères ou... rien du tout ! Le problème est que chaque section est triée par ordre alphabétique... Ce qui impose à l'utilisateur de faire potentiellement N recherches différentes pour tomber sur le tag ad hoc ! Les chercheurs de Bell Labs ont identifié et résolu ce problème en mettant les tags les plus utilisés en haut, puis en prenant parti de trier tous les autres par ordre alpha, indifféremment de leur niveau d'utilisation.

Quoi qu'il en soit, on peut s'interroger sur l'intérêt de la représentation de droite, car le lecteur ne cherche pas nécessairement les sujets les plus mentionnés (qu'ils identifiera facilement à gauche, sauf évidemment sur le nuage mesure 2 mètres de haut).

On peut aussi se demander si les dégradés de tailles et/ou de couleurs sont importants, et dans quelle mesure. Knowledge Plaza a ici pris le parti de n'utiliser qu'une seule taille de police, chaque tag pouvant être important.

Or donc. Préconisant ici et ailleurs l'usage des tags, il m'a semblé intéressant d'étudier le sujet plus en profondeur. Accessoirement, cela m'oblige aussi à cristalliser des principes et des constats qui trouveront probablement leur utilité.

Une étude pratique sur 131 veilleurs

J'ai voulu, pour étayer ma réflexion, analyser l'usage des tags par des veilleurs actifs. J'ai donc regardé ce que font quelques un de mes amis, et j'ai aussi exploré les usages du réseau d'un consultant-blogueur français très connu. Au final, ce sont 131 veilleurs qui ont été analysés. Si un échantillon de 400 personnes donne un niveau de confiance de 95% pour une étude statistique à l'échelle nationale, j'imagine qu'avec 131 veilleurs, le niveau de confiance doit être raisonnable, vu la population globale relativement faible que cela représente. Si j'ai le courage, j'analyserai un échantillon plus important ultérieurement.

L'hypothèse de départ que je voulais vérifier était que le nombre de tags augmente d'abord plus vite que le nombre de documents tagués (car il y a souvent plusieurs tags par document), avant que la tendance ne s'inverse pour se stabiliser à un ratio estimatif tags/doc de 25% (beaucoup de documents finissants par utiliser les mêmes tags).

Tout d'abord, l'échantillon considéré comporte 141 503 documents utilisant 75 162 tags (soit un ratio tags/doc d'environ 53%). La moyenne du nombre de tags utilisés par veilleur est de 574, mais ce chiffre diffère fortement d'un individu à l'autre en fonction de son activité de veille (nombre de documents tagués, qui fluctue dans l'échantillon de 4 à 8500).

L'analyse des 131 veilleurs me donne différents résultats :


Ce schéma montre que la première partie de mon hypothèse est correcte : la droite de régression linaire (en noir) passe sous la courbe du nombre de tags (en rose) à gauche du graphique, ce qui valide le fait que les personnes qui commenencent à taguer utilisent plus de tags qu'ils ne possèdent de documents. Ensuite, la tendance s'inverse, et le rapport tags / document souligne que le nombre de tags croit moins vite que le nombre de documents, grâce à une réutilisation. A noter l'anomalie de fin de courbe, mais nous y reviendrons.

Mon hypothèse de 25% de tags par rapport au nombre de documents se révèle fausse, puisque que nous obtenons ici graphiquement la même information que par le calcul, soit un ratio de 53%.

Si cette Loi se vérifie sur un échantillon plus important, voilà qui nous donne une information utile pour dimensionner l'affichage des nuages de tags à afficher dans une application. Reste que dans le cadre d'une utilisation en entreprise, il est possible que, le périmètre étant plus focalisé, ce ratio baisse sensiblement. Mais néanmoins. 10 000 documents tagués nous donneraient-ils alors potentiellement entre 2500 et 5000 tags ? Creusons un peu...

Pour neutraliser les chiffres, j'ai analysé le ratio Tags / document de chaque veilleur. Cette analyse doit être prise cependant avec les réserves suivantes :
- les 131 veilleurs utilisent la même solution de social bookmarking (delicious.com), donc ils partagent la même bibliothèque de tags, qu'ils ont loisir d'utiliser ou pas
- cet échantillon s'intéresse très majoritairement à des sujets en partie communs (la high tech, le web 2.0,...), ce qui implique qu'ils utilisent aussi des tags communs pour taguer des documents qui traitent souvent du même domaine (mais pas seulement). Nous nous rapprochons ici du contexte de l'entreprise.

Ces précautions étant prise. Voici ce que j'obtiens.

Ce premier graphique nous montre le ratio Tags/doc de chaque veilleur de l'échantillon.
Ce deuxième graphique tente de regrouper les veilleurs par tranches de ratio Tags/doc (que nous appellerons RTD par la suite pour plus de simplicité d'écriture). Notez que le rebond en fin de graphique est purement artificiel puisque de tranches de 20% en 20%, nous passons en fin de graphique à des tranches de 100% en 100% !

Pour obtenir une vision plus synthétique, voici ce que cela donne avec des tranches de 50 en 50 :
Le même graphique sous forme de camembert :


Ces graphs nous apprennent :
- Que l'utilisation "moyenne" des tags est très inégale d'un veilleur à l'autre.
- Qu'un gros tier d'entre eux a un RTD entre 0 et 50%
- Qu'un petit tier a un RTD entre 50 et 100%
- que 85% de l'échantillon a un RTD se situant entre 0 et 150%

Et on ne peut pas tirer de Loi concernant un RTD en fonction du nombre de documents tagués. En voici pour preuve les 28 premiers veilleurs de la liste, triés par RTD (le premier étant d'ailleurs le fameux Consultant-Blogueur) :

Vous constaterez au passage que certains utilisent un nombre conséquent de tags, l'extrême de mon échantillon étant celui-ci :



Conséquences pratiques des résultats de cette analyse

C'est ce que nous verrons dans la suite de cet article...

Par Fabrice Poiraud-Lambert


Lire aussi :

- Delicious : l'indispensable compagnon du Veilleur !
- Nuages de Tags : pour simplifier la navigation et la gestion documentaire
- [Test] Personall : une solution (française) de Wiki-Portail web personnalisable
- [Test] Knowledge Plaza : La solution de veille collaborative 2.0 pour l'Entreprise
-
Folksonomy : les tags en délire
-
Folksonomies: power to the people 

Partager cet article

Repost 0

Commenter cet article