Je profite de cette note pour tenter d’y voir clair, et vous aussi j’espère, sur la notion de catégorisation de l’information et des documents au sein d’un système de GED, d’ECM.
Les systèmes de GED ‘historiques’ nous avaient habitués à utiliser un classement simple mais pour autant pertinent, arborescent, rigide, grâce à la notion de catégories. Selon les systèmes on trouvait, on trouve encore d’ailleurs, les appellations ‘types de documents’, ‘classes de documents’, ‘catégories’ ou autres ‘familles de documents’.
Depuis l’arrivée massive de l’internet, des systèmes de tagging évolués, des moteurs de recherches, la notion de classement de l’information évolue et les balises (communément appellées ‘tags’) font leur apparition dans les différents outils logiciels de GED ou d’ECM. Quel est l’apport de ce mécanisme de tagging ? En quoi vient-il appuyer le classement par catégories, ou le desservir ? Comment interpréter les deux types d’approches, sont-elles complémentaires ou non ? Toutes sortes de questions se posent, et me sont posées, aussi il me semble intéressant de se pencher un tant soit peu sur la question. Voici donc ma vision bien personnelle du sujet, et je vous invite à présenter la vôtre en commentant cette note.
Les catégories
Classer un document dans une catégorie, c’est lui attribuer un sujet principal. Ainsi on classera des « contrats clients », des « factures fournisseurs » ou encore des « courriers de réclamations » dans le référentiel GED. Pour être capable de retrouver ces documents facilement, on va attribuer à chacune des catégories ainsi définies des propriétés, ou métadonnées qui permettront de saisir des valeurs propres à chacun des documents ainsi classés. On obtiendra ainsi une « réclamation client » pour le produit « abonnement téléphonique » concernant le client « Dupond » prénommé « Pierre » et en date du « 12 Janvier 2008 ». Il suffira ensuite de rechercher tout document concernant « Pierre Dupond » pour retrouver la réclamation en question. Même résultat si l’on s’intéresse aux « réclamations clients » pour le service « abonnement téléphonique ».
Ce type de classement et de qualification des documents est simple, efficace et pertinent. Le classement est clairement lié à la nature initiale du document, la qualification est propre à l’instance même de ce document, instance au sens « document unitaire ».
Les tags
Les tags apportent à mon sens une dimension supplémentaire à la notion de classement. Il ne s’agit plus là de classer l’information par nature (qu’il s’agisse de document ou de contenu, d’information structurée ou non) mais plutôt d’indiquer de quoi parle chacun des documents (ou morceaux d’information concernés) indépendamment de leur nature. Niveau de granularité plus fin ? Sans doute, mais le tagging apporte surtout une dimension non supportée par la notion de catégorie, c’est celle de la compréhension de l’information portée par ces documents. Si je reprends l’exemple précédent de la réclamation, utiliser des tags me permettrait de mentionner le fait que le document en question concerne le modèle de téléphone « Nokia », le type « E65 » et la « durée de vie » de la « batterie », toutes sortes d’informations qu’il me serait difficile de gérer sous forme de catégories et de propriétés associées. En ce sens, le tagging étend la portée du classement par catégories en apportant une dimension transverse qui n’existe pas avec la notion de catégories, ou qui serait trop complexe et peu souple à mettre en oeuvre. Imaginez en effet l’impact que cela aurait sur la définition du plan de classification que de gérer des dizaines, voire des centaines de propriétés et/ou de catégories au sein d’un référentiel documentaire.
Mais encore ? L’un, l’autre ou les deux ?
Vous l’aurez compris, catégories et tagging sont pour moi complémentaires. Un minimum de classement s’impose lorsqu’on bâti un référentiel documentaire. Les types de documents existent généralement dans l’Entreprise et les porter au sein du référentiel ne fait que participer à l’effort de mise en oeuvre et de dématérialisation du fond documentaire manipulé. Ce classement est généralement établi une fois pour toutes, même s’il a la capacité d’évoluer dans le temps (vers un plus grand nombre de catégories généralement, on réduit rarement) mais il reste statique.
La gestion des tags en sus de ce classement par catégories va apporter au modèle de classement une souplesse que ces dernières ne savent pas offrir. Dynamisme, mise à jour, modifications des balises initialement posées, autant d’arguments en faveur des tags. J’irais même jusqu’à dire que le classement par catégories peut selon les cas disparaître au profit des tags, si ceux-si sont suffisamment pertinents pour apporter les réponses voulues lors des opérations de recherche.
J’e synthétiserai cette prose en disant que les catégories s’intéressent à la nature initiale du document, elles désignent le sujet principal porté par ce document. Les tags apportent eux une granularité plus fine, en désignant les différents sujets contenus au sein de ce même document, pouvant d’ailleurs être en complète opposition avec l’intitulé de la catégorie (une « réclamation » peut mentionner un « contrat » et une « facture »).
A ce jour, et à ma connaissance, nous en sommes aux balbutiements en matière de tagging avec les systèmes de gestion de contenus, peu d’outils proposent ce type de mécanisme de façon native. Certains se voient greffer des modules spécialisés, sous-ensemble de moteurs de recherches ou non, mais une chose est sûre, j’y vois là un axe majeur de progrès en matière de classement/recherche d’information dans un référentiel documentaire.
D’autres avis ?
Bonjour
Je lis vos billets avec beaucoup d’intérêt et même si nous ne travaillons pas à priori sur les mêmes outils, nous avons une vision similaire des processus de gestion d’information. Je voulais justement savoir si vous connaissiez des outils comme « Mase » qui permet de choisir ses notions de tagging de manière native. Nous sortons dans quelques jours la version 2 de cette plateforme. Si cela vous interesse, je pourrais vous communiquer les éléments sur lesquels j’ai travaillé avec mes collègues de Wygwam, sur la base des observations des utilisateurs dela V1.
Merci de cet apport consistant Jean-Marc.
De très bonnes idées présentées en effet, qui appellent d’ailleurs une remarque si je confronte nos deux opinions : un classement par catégories permet de « parcourir » un référentiel, un classement par tag permet de « rechercher » une information au sein d’un document. En cela le principe du tag est proche de celui de la métadonnée, soit un niveau de granularité inférieur à celui de la catégorie. Si ce n’est que la métadonnée est attachée à la catégorie alors que le tag est attaché au document.
Je suis tombé sur ce blog en essayant Favebot avec une requête « classement de l’information ». Je vais m’abonner et prendre le temps de le découvrir tant les sujets traités m’intéresse.
Concernant votre billet : je vous propose l’approche suivante.
La catégorie, c’est un peu le répertoire d’un gestionnaire de fichiers, elle est à priori unique pour un document donné, c’est une méthode de classement assez commune. Elle présente l’inconvénient de savoir ce que l’on cherche avec suffisamment de précision pour connaître son classement. On peut la représentée comme un classement vertical des documents.
Le tag permettra alors un classement horizontal des documents, en reliant entre eux des documents appartenant à des catégories différentes.
Un tag projet_1 permettra ainsi de retrouver les factures, commandes, etc. du projet_1, en admettant que ces éléments soient classés dans des catégories Factures, commandes, ect.
La richesse du tag est plus grande encore, en admettant qu’un même document puisse avoir plusieurs tag, il appartiendra à autant de classement différents. Il est même possible d’imaginer d’avoir plusieurs vues d’un système de classement, en établissant des tags par contexte, etc. La richesse permise par les tags est grande alors que le système est très simple. En complément d’un moteur de recherche, la sélection d’un ou plusieurs tags agira comme un filtre pour remonter les informations.
J’utilise également la notion de statut, principalement pour récréer la notion de workflow : ex qualifiée, en cours , traitée…
Je suis plus réservé en ce qui concerne les métadonnées. On peut se les représenter comme un formulaire qui serait attaché à un document pour apporter des informations complémentaires. Le souci avec les métadonnées mis à part quelques domaines spécialisées (données exif des photographies par exemple) est que leur implémentation est souvent liée à l’outil chargé de les exploiter, ce qui en matière de pérennité du système de classement peut poser des problèmes.
Disons que Les deux font la paire. Les tags apportent plus de souplesse car généralement il est possible de les modifier après coup, à la différence des catégories qui sont plus figées – tout au moins dans un système de GED, c’est moins vrai avec un CMS.
Les tags offrent plus de souplesse mais n’oublions pas que bien souvent, la recherche de documents (je parle pour la GED) consiste à consulter un dossier client à partir d’index (métadonnées) et non en parcourant une arborescence.
Si l’on observe bien le marché et les outils actuels, et pour compléter cette note, je dirais que les catégories sont plutôt propres aux systèmes de GED et les tags aux CMS, mais la différence s’atténue avec le temps et l’arrivée des nouvelles technos web joue en ce sens.
J’étais curieux d’avoir des avis sur le sujet, merci de cette réaction.
Intéressant cet article.
Je n’analysais pas la différence entre catégories et tags comme vous (classification du document d’un côté et classification du contenu de l’autre). Pour moi il s’agit plus de deux façons diférentes de penser le rangement l’une hiérachique (catégories) et l’autre plus associative (tags).
Nicolas