Indexation de ressources

Séminaire SDTICE 2007

Interventions du 27 mars

Les outils de production

Stéphane CROZAT (Université de technologie de Compiègne)
Romuald LORTHIOR (Université Rennes 1)
Manuel MAJADA (Université de technologie de Compiègne)

La question de la réutilisation : Pourquoi indexer ? Des métadonnées aux contenus calculables.

Stéphane Crozat, de l’UTC (Université de technologie de Compiègne) a choisi de montrer "en quoi la question de la production de contenus est liée à l’indexation" et "en quoi une approche de type chaîne éditoriale permet de reposer la problématique ". Au départ, "il y a des outils de créations de contenus pour créer des modules, des grains qui ont une forme, une logique d’interaction, une logique de navigation propre et des formats différents, comme des PDF, de l’HTML statique, du, XML, du Word, etc.", commence Stéphane Crozat.  "Lorsqu’on accumule beaucoup de contenus, on entre dans une logique de capitalisation et on les organise en dépôts pour mutualiser. Intervient alors l’indexation en adjoignant des fichiers de métadonnées pour connaître l’auteur, la portée pédagogique, etc., repris dans autant de champs du Dublin Core ou du LOM. Pourquoi indexer ? Pour trouver les contenus produits d’abord et pour les réutiliser ensuite, cette dernière démarche est nouvelle et très importante".

Vient ensuite "l'interrogation des dépôts", pour retrouver, à la sortie, ce que l'on a centralisé. On trouve dans les portails une diversité de contenus autant que dans le versant production. On pourra trouver des modules complets, mais ce cas est rare, et on trouvera surtout des "grains" de tailles diverses. Il s’agit ensuite de récupérer ces grains hétérogènes et de les agglomérer pour en faire des contenus homgènes : des cours.  La standardisation permet de réussir à naviguer entre ces différents éléments d’un point de vue technique. Cependant, on ne gagne toujours pas en cohérence et en homogénéisation". Selon Stéphane Crozat, "l'indexation n’est pas une condition suffisante à la réutilisation. Elle amène seulement à faciliter la recherche et à savoir réutiliser à l’identique, sans moyens propres pour s’adapter au contexte. La standardisation des formats d’agrégation (comme SCORM, Sharable Content Object Reference Metadata) ou de scénarisation (comme EML, Education Modelling Language) est une des conditions de l’interopérabilité mais pas de l’adaptation".

"Bruno Bachimont, enseignant-chercheur, a développé, dans ses travaux dans le domaine de l’ingénierie pédagogique, une double approche : une approche technique et scientifique et une approche philosophique et sémiotique. En 1995, Bruno Bachimont pose le concept de chaîne éditoriale et l’instancie avec le prototype PolyTeXML (voir www.gutenberg.eu.org/publications/cahiers/54-cahiers28-29.html), sur le principe de la séparation du fonds et de la forme. Le format de création qui correspond au fond est en format XML et préfigure le format de publication qui pourra prendre des formes diverses, des formes lisibles comme le support papier, les vignettes ou la page écran. Il finit de théoriser son approche en 2004. Une application de cette théorie est de séparer formats de création et d'exploitation. On ne crée plus les contenus en PDF, HTML ou Flash mais selon le principe du numérique qui est d’offrir un support calculable. Les principes sont mis en pratique au travers de descriptions particulières en XML, avec un format de création calculable (le fonds documentaire), séparé des formats de publication calculés (les formes lisibles)". Cela correspond, en pratique, à l'approche mise en œuvre dans les chaînes éditoriales. Sur ce modèle, l’UTC a initié SCENARI en 1999 (http://scenari-platform.org). Depuis, les chaînes éditoriales gagnent du terrain même s’il reste beaucoup de travail, car elles sont très loin d'avoir profité de l’investissement consacré par ailleurs aux logiciels de bureautique ou de type Dreamweaver".

Pour Stéphane Crozat, "si on veut faire de la réutilisation, il faut passer par une phase de réadaptation et si on veut automatiser les choses pour que ça ait du sens à un niveau industriel, il y a des outils qui savent faire cela, les chaînes éditoriales, qui permettent de créer des contenus calculables ". Selon lui, "le calcul est la condition sine qua non de l'adaptation automatisée ou semi-automatisée et une chaîne éditoriale permet de créer des contenus calculables et de les rendre disponibles". La "proposition finale" élaborée par Stéphane Crozat est que "la question de l’indexation doit être couplée obligatoirement à la question de la création de contenus". On effectue des requêtes sur des contenus calculables. Il n’est pas utile d’indexer des contenus qui ne sont pas réutilisables. De plus, d’un point de vue pratique, agréger des contenus hétérogènes ne fonctionne pas. L’enjeu porte essentiellement sur la possibilité de réutiliser. Il faut donc produire et indexer des contenus adaptables et privilégier l’adaptation au contexte d’usage. Il n'y a aucun gain à indexer des contenus qu’on ne sait pas agréger . Tout est dans la masse critique, selon les experts, mais pas seulement pour Stéphane Crozat, car il y a une autre condition : que les contenus utilisés donnent un valeur ajoutée dans la mesure où on va pouvoir les réutiliser. Le risque, sinon, est de créer des dépôts de "boîtes noires". L'autre enjeu, pédagogique, est de "promouvoir une réutilisation incluant l'adaptation aux contextes d'usage, plutôt qu'une adaptation des pratiques aux contenus disponibles". Il faut aussi "répondre à des contraintes d'accessibilité : mobilité des étudiants, handicaps, accès bas débit en zones blanches et dans les pays du Sud, etc. La solution est de prévoir et créer du contenu adaptable aux conditions d’accessibilité".

Questions

"Est-ce que les enseignants vont adhérer ?", demande Emmanuel Durand, de l'UNT UVED. "Peut-on vraiment séparer le fonds de la forme ? Ce n'est pas la même logique si j’écris pour diffuser un polycopié ou pour faire une présentation en amphi, ne s'agit-il pas de concevoir le contenu de façon de différente ?"

"La séparation n’existe pas en tant que telle, c'est juste un moyen méthodologique, répond Stéphane Crozat. Idéalement, on réécrit tout selon le support. L’idée est là de gagner en efficience mais dans l’absolu c’est toujours mieux de réécrire le cours. Sur la question de l’adhésion des enseignants, ils n’adhéreront jamais à la réutilisation à l’identique de contenu, c’est donc la même remarque dans les deux sens. Notons qu'avec une chaîne éditoriale, entre deux publications on peut appliquer une nouvelle scénarisation en organisant les contenus dans un autre sens, voire en épurant s’il s’agit par exemple d’un diaporama".

"Quelle est la pérennité des formats calculables d’aujourd’hui ?", interroge Gérard Soula, de l'université Aix-Marseille-2. "Il n'y a pas de normes et standards sur ces formats et c’est une bonne nouvelle car ces formats reflètent les façons de travailler de chacun, répond Stéphane Crozat. On est capable de les transformer dans les standards du voisin. Ce qui est important n’est pas de parler le même langage mais de s’assurer de la traduction". Pour Romuald Lorthioir, de l'université Rennes-1, "il y a un standard sous-jacent de fait, le XML, car c’est aujourd’hui le vecteur qui va permettre de calculer un contenu. Les UNT se sont d'ailleurs mises d'accord sur un schéma d’échange" pour rendre les contenus interopérables.

Pour Gérard Vidal, de l'INRP (Institut national de recherche pédagogique), "la remarque sur les standards est un peu inquiétante : Oasis a créé DocBook, qui joue le rôle de standard dans le monde de l’édition scientifique. La démarche suivie pour la normalisation avec les métadonnées ne peut-elle pas s’appliquer ?" "DocBook est trop scientifique et formulé dans un langage métier, c’est un standard d’échange et non un standard d’édition. Soit on définit des standard globaux comme DocBook et on adapte à chacun, soit on produit au niveau local et on assure l’échange, répond Stéphane Crozat. Ce sont forcément des choses compliquées à mettre en œuvre, on n’arrivera jamais à ce chapeau qui règle tout". Selon lui, "les choses bougeront sur le long terme", c’est pourquoi il croit "plus à l’approche qui va du bas vers le haut". Pour Romuald Lorthioir, "utiliser DocBook, voudrait dire qu’on choisit un format technique d’édition. L’intérêt d’avoir un schéma pivot de chaîne éditoriale est de contraindre à respecter la démarche pédagogique choisie".

Présentation de ChainEdit

Romuald Lorthioir, de l'université Rennes-1 , présente le CIRM (Centre d'ingénieries et de ressources multimédia), un service de son établissement qui "propose le travail de la simple prise photo ou vidéo à la conception complète d’un cours " L'équipe avait "besoin d’industrialiser la démarche et d'arrêter l’artisanat". Elle s'est alors tournée vers la conception d'une chaîne éditoriale, "mais avant d’y arriver, beaucoup de gens pensaient qu’ils allaient hériter de la démarche complète pour la création de contenus. Or, ce n’est pas une baguette magique, prévient Romuald Lorthioir. Pour bien utiliser une chaîne éditoriale, il faut définir la démarche que l’on souhaite, les activités pour l’apprenant, les objectifs, les éléments clés d’interactivité, toute la scénarisation documentaire, les niveaux d’information pour définir ce qui est secondaire ou pas, etc. La chaîne éditoriale sert à structurer le contenu, à fabriquer ou intégrer des médias, à respecter des formats pédagogiques selon un certain nombre de contraintes. Elle offre des services pour modifier le contenu, le régénérer aux couleurs d’un site pour l'adapter au contexte, harmoniser les productions sur les couleurs, les industrialiser, etc."

ChainEdit existe depuis 2004. Le prototype est développé en Perl et plus de 100 modules de cours existent, soit un équivalent 3000 heures en présentiel. Il existe huit chartes différentes adaptées à partir de ChainEdit, ce qui permet de "mettre des enseignants devant pour produire du contenu, après formation ». Le dispositif "ne nécessite pas d’installation en poste client, il est accessible sur le web. Le contenu est stocké sur le serveur, ce qui permet de sauvegarder et de simplifier les mises à jour. L'université a décidé de réécrire le logiciel en Java et est partie sur une optique de séparation du fonds de la forme, de transformation XSLT [3], de Portlet [4] (lié à un ENT), de systèmes d’authentification SSO [5] CAS [6], LDAP, manuelle, de webDAV [7] possible, de prise en compte de LaTeX  [8], de génération plutôt en HTML et d'Opensource GPL [9]. Les choix techniques transcrivent la volonté d’intégrer les processus de production des ressources pédagogiques aux services des établissements et d’organiser la structuration du collectif en continuité avec le Campus numérique de Bretagne de 1999. Ils sont le reflet d’une reconnaissance de la dimension TICE et son assimilation dans les équipes de travail

Pour la saisie des contenus, ChainEdit est "capable de faire des passerelles entre les balisages de Rennes-1, du campus numérique de Bretagne, d'UVED, du campus numérique de l'ENVAM » (Environnement et aménagement, www.envam.org), reprend Romuald Lorthioir. Il note que "la chaîne éditoriale ne vérifie pas les droits liés à un média". Pour lui, il est "indispensable qu’on parle d’indexation car il faut faciliter la diffusion et la recherche de ressources, retrouver des ressources pour les transformer " Il y a "plusieurs attitudes" pour attirer les enseignants vers ce dispositif. Il faut "s’adapter à ce qu’ils veulent faire". Chaque contact du CIRM avec les enseignants est l'occasion de les former et de les sensibiliser sur les services proposés. "Les enseignants ne vont pas vous sauter dans les bras, mais l’UNT peut décider d’avoir pour politique de ne financer que les ressources qui respectent les règles qui participent de la mutualisation et non pas du bénéfice individuel", reprend Stéphane Crozat en conclusion.

Intégration des processus d’indexation aux processus de production

"Un des problèmes de base de l’indexation est la bipolarisation entre l’individu et le collectif », considère Manuel Majada, de l'UTC (Université de Technologie de Compiègne). L’individu est un enseignant-chercheur, le collectif est très mouvant entre l'université, l'UNT, l'UNR, mais on passe d’un acte individuel à un acte collectif. Le documentaliste ou le bibliothécaire arrive à la fin et demande de remplir des champs, vient déranger l'individu qui n’a qu’une vision, la sienne, il a fait la ressource pour lui ou sa petite communauté. On vient lui dire comment faire la pédagogie, lui imposer de remplir des métadonnées. Dans ce contexte, comment intégrer les métadonnées dès le départ ? Au bout d’un moment l’auteur ne remplit plus les champs d'indexation. Il faut prendre en compte une chaîne qui pense les besoins de l’auteur dès le départ, les besoins de son organisation, les besoins du réseau de l’organisation. Il faut créer  une notion  :  le système d’information pédagogique, c’est-à-dire une chaîne continue depuis la création de contenus, l’indexation et jusqu’à l’utilisation. L’obstacle n’est pas technologique ni méthodologique, mais culturel et organisationnel. Une nécessité forte est que chacun se décentre de son cadre de référence pour mieux coopérer. Il faut que chaque acteur fasse des compromis.

Les chaînes éditoriales sont "un outil de production qui intègre les contraintes d’un collectif", poursuit Manuel Majada. "Il y a actuellement une démarche de structuration du collectif, avec les campus numériques en 1999, puis les UNR et les UNT. Sur les pratiques, les effets du collectif se font sentir de plus en plus sur l’organisation des processus de création de contenu et de leur instrumentation. Il y a aussi une mise en place de processus d’indexation, ainsi que des processus de diffusion de contenus". Pour Manuel Majada, « on passe d’une stricte logique d’innovation à l’émergence d’une logique d’institutionnalisation. On sort du ghetto et on  prend conscience que l’on a intérêt à coopérer ensemble".

Questions

"Au début, il a été dit que l’enseignement TICE est un acte collectif, reprend Alexandre Bonucci, de l'université Lyon-2. Dans les universités de sciences humaines, les enseignants ont un comportement individualiste et ils utilisent les TIC. La définition peut ne pas être la même sur l'utilisation des technologies : un enseignant qui utilise le bureau virtuel pour diffuser vers ses étudiants commence à utiliser les TIC".

"Est TIC tout ce qui utilise les technologies de l’information, répond Manuel Majada. A Lyon-2, vous avez fait une politique de sensibilisation très volontariste pour que les enseignants utilisent le bureau virtuel. Mais si quelqu'un collabore avec un service technique c’est différent, il s'agit d'un premier niveau. Si on se met à réfléchir différemment pour la conception de contenus en faisant appel à des spécialistes, alors c’est encore un autre niveau".

________

3. XSLT (eXtensible Stylesheet Language Transformations)

4. Un portlet est une application informatique qui s'exécute côté serveur que l'on peut placer dans un portail web, qui sert alors de conteneur. Un portlet traite les requêtes d'une tâche ou d'un service donné et génère dynamiquement le contenu web affiché à l'utilisateur. Les portlets permettent de fournir toutes sortes de services généralistes ou spécialisés (interface de consultation de dossiers, agenda personnel, annuaire, panneau d'information, intégration d'un moteur de recherche, météo, etc.).

5. SSO (Single Sign-On : authentification unique, et une seule fois)

6. Développé par l'Université de Yale, CAS (Central Authentication Service [7]) met en oeuvre un serveur d'authentification accessible par W3, composé de servlets java, qui fonctionne sur tout moteur de servlets (Tomcat par exemple)

7. WebDAV (Web-based Distributed Authoring and Versioning) est un protocole (plus précisément, une extension du protocole HTTP) défini par le groupe de travail IETF homonyme. Décrit dans la RFC 2518, WebDAV permet de simplifier la gestion de fichiers avec des serveurs distants. Il permet de récupérer, déposer, synchroniser et de publier des fichiers (et dossiers) rapidement et facilement. L'objectif principal de WebDAV est de rendre possible l'écriture à travers le web et pas seulement la lecture de données. WebDAV permet à plusieurs utilisateurs d'éditer le contenu d'un dossier web simultanément. Il saura gérer les droits d'accès aux fichiers (ou dossiers), en verrouillant momentanément les fichiers et dossiers édités.

8. LaTeX est un système logiciel de composition de documents, ou plus exactement : une collection de macro-commandes destinées à faciliter l'utilisation du « processeur de texte » TeX. Du fait de sa relative simplicité, il est devenu la méthode privilégiée d'écriture de documents scientifiques employant TeX

9. General Public License