Cluster 13

Projet Corpus numériques

Textométrie.

5 mars 2008
contact : Serge HEIDEN

1- Contexte scientifique et objectifs du projets

La textométrie a développé des techniques puissantes, originales, et solidement fondées, pour l’analyse de grands corpus de textes. Ces techniques ont été mises à profit dans de nombreuses disciplines des sciences humaines, qui s’en sont servi pour élaborer des solutions efficaces pour explorer leurs données, qui se présentent désormais massivement sous forme de corpus numériques. Dans la dernière période sont nées de nouvelles approches, plus respectueuses des particularités linguistiques et des sensibilités méthodologiques et herméneutiques propres à chaque discipline. On dénombre actuellement trois logiciels académiques autour desquels se développent les traitements textométriques dans toute leur richesse : Hyperbase, Weblex, Lexico 3. Ces trois logiciels sont très largement en intersection et ont tous trois besoin d’une réactualisation. Plutôt que d’entreprendre une triple maintenance-actualisation extrêmement dispendieuse en moyens et en énergie, les concepteurs de ces trois logiciels préfèreraient unir leurs efforts autour d’une plateforme commune. Ce développement collaboratif, open-source et modulaire, apparaît comme la solution scientifiquement la plus satisfaisante (par exemple pour évaluer/comparer des techniques, ou pour adapter les traitements aux singularités des données) et techniquement la plus solide (la maintenance et les développements reposent sur une communauté et non plus sur une personne, selon une formule désormais obsolète). La réalisation d’une telle plateforme suppose bien entendu un important travail de développement informatique. Mais cette étape fournira également l’occasion d’interroger les bases théoriques de la textométrie et de les adapter au contexte du développement actuel des corpus (XML, multilinguisme, enrichissement par traitement automatique des langues, etc.). Sont pleinement impliqués dans le projet des utilisateurs experts, représentatifs de différentes disciplines des SHS. Ils apportent leur expérience tant au plan de la conception du nouvel outil, qu’au plan de son évaluation dans le contexte de problématiques réelles, et ils oeuvrent à la mise au point de repères méthodologiques.

2- Description du projet, méthodologies

La première année permettra d’articuler un travail d’état de l’art et de conception, sur les aspects textométriques (typologie des fonctionnalités, éléments d’interface) et sur les aspects informatiques (composants généraux utilisables, architecture, choix technologiques). Les experts en textométrie et les développeurs seront amenés à collaborer étroitement, notamment pour mettre au point les modèles de données. L’aspect recherche est également mobilisé dès le départ, pour pouvoir anticiper ses incidences en terme de modèles de données et d’architecture logicielle. Les développements seront mis en place dès la première année et occuperont une grande partie de la deuxième année. Ils comprennent d’abord la création de la plateforme, avec le cadre de développement collaboratif, la réingénierie éventuelle de certains composants des logiciels existants et la réalisation des modules retenus lors de la phase de conception. Puis, à partir des composants ainsi disponibles, nous entreprendrons (en fin de deuxième année et début troisième année) une application logicielle, intègrant de façon pertinente et cohérente un choix de fonctionnalités. La conception de l’application (ou éventuellement des applications) sera établie en lien avec des scénarios d’usage, correspondants à des problématiques et à des corpus de diverses disciplines des SHS. Ces scénarios seront mobilisés ensuite pour évaluer la qualité et la pertinence de l’application. Le déploiement de la (des) application(s) est également prévu au terme du projet. Une attention particulière est portée tout au long du projet à la communication et à la documentation (théorique, technique, méthodologique et didactique).

3- Résultats attendus

L’objectif à trois ans est de mettre en place un environnement de développement collaboratif solide, et d’amorcer une dynamique positive de contribution :
- en associant à la conception et à la réalisation de la plateforme les principaux acteurs actuels de la textométrie, et
- en mettant à disposition
- des modules textométriques d’utilisation aisée,
- des formats et spécifications, et
- au moins une application logicielle (i.e. une intégration de modules/composants) directement utilisable et reprenant les principales fonctionnalités originales de la textométrie. A ce travail de développement sera associé, en amont comme en aval, la mise au point et la diffusion d’avancées théoriques et méthodologiques, par des publications expertes mais aussi des supports pédagogiques.



Établissements rhônalpins engagés :
— Université Lumière Lyon 2 (établissement porteur), ENS-LSH (établissement d’hébergement)
— INSA, Université Claude Bernard Lyon 1, Université Jean Moulin Lyon 3, Université de Savoie (Chambéry), Université Stendhal Grenoble 3, Université Pierre-Mendès France Grenoble 2, Université Jean Monnet Saint-Étienne

Le CNRS participe à travers ses chercheurs à temps plein et son rôle d’opérateur national auprès des unités de recherche ou de service dont il partage la tutelle avec les établissements précités, y compris l’Institut des Sciences de l’Homme.

Dans la seule limite de ses moyens, le cluster a naturellement vocation à faire bon accueil à toute proposition en rapport avec ses thématiques lorsqu’elle émane de collectivités territoriales, d’associations, d’institutions ou d’entreprises rhônalpines.