Informatisation d’une collection scientifique :
au-delà du catalogue

Régine Vignes Lebbe et Jean Broutin

EA 3496 Classification Evolution et Biosystématique

Université Pierre et Marie Curie

12 rue Cuvier, 75005 Paris

vignes@ccr.jussieu.fr, jean.broutin@snv.jussieu.fr

 

Présentation de la collection.

  Héritière de la « collection Boureau », la collection de Paléobotanique de l’université Pierre et Marie Curie est un petit patrimoine scientifique de quelque 15000 échantillons, provenant, pour l’essentiel, des donations faites pour étude par de nombreux géologues et enrichi par les collectes réalisées par les chercheurs du laboratoire, au cours des trois dernières décennies. Elle est actuellement placée sous la sauvegarde des chercheurs eux-mêmes qui en constituent, en quelque sorte, la mémoire au-delà des informations nécessairement lapidaires consignées dans le catalogue. Elle renferme environ 200 « échantillons types » et de très nombreux « spécimens figurés », fruit de l’activité de recherche des chercheurs et de leurs élèves.

 

Les fossiles de la collection sont de natures très diverses allant de macro fossiles de plusieurs kilogrammes tels que des bois pétrifiés à des micro fossiles (spores, pollens, graines …), ces végétaux fossiles pouvant parvenir jusqu’à nous conservés sous forme d’empreintes ou de compressions, avec de la matière organique encore présente (permettant la recherche de biomolécules) ou non.

La collection est consultable dans les locaux de l’université, 12 rue Cuvier à Paris, mais son informatisation débutée il y a déjà plusieurs années devrait permettre d’accéder au maximum d’informations sur le site Internet qui lui est consacré grâce à la consultation en ligne de la base de données PALBOT. Une consultation encore partielle est accessible à l’adresse http://albinoni.snv.jussieu.fr.

Informatisation de la collection et recherche.

L’informatisation a débuté sous l’impulsion du programme de la Mission Musées de la Direction de la Recherche pour la valorisation des collections détenues par les Universités. Dans la réalisation de ce travail, nos objectifs sont à la fois pratiques et scientifiques.

Sur le plan pratique, il s’agit d’assurer la sauvegarde d’une information dispersée entre le catalogue et les différents chercheurs gérant la collection ; d’en améliorer la visibilité en permettant la consultation sur Internet de la base de données et de fournir un meilleur accès en facilitant les recherches les plus courantes (retrouver un spécimen particulier et les données s’y rapportant). Mais il s’agit aussi d’offrir de nouvelles consultation rendues possibles par une modélisation fine des informations sous forme d’une base de données. Ce dernier point est primordial à nos yeux alors que la gestion des objets est relativement accessoire pour une telle collection. Il s’agit d’intégrer au maximum l’utilisation des spécimens et l’analyse des données déjà disponibles sur l’ensemble de ce patrimoine fossile dans la recherche scientifique. Les recherches récentes du laboratoire en matière de biomarqueurs[1] illustrent les analyses nouvelles et applications insoupçonnées qui peuvent ainsi à tout moment conduire à rechercher du matériel dans la collection et à le ré exploiter. Les interrogations avec critères multiples dans la base de données peuvent aussi amener à définir des orientations de recherche. Par exemple la réponse à une question telle que « quelles sont les espèces représentées dans la collection par plus de 20 feuilles entières » permet à un chercheur de choisir le taxon d’ une étude morphométrique sur la variabilité du contour foliaire, pour, par la suite, valider (ou infirmer) les identifications sur la base de méthodes plus modernes.

Sur le plan scientifique, l’apport des possibilités nouvelles de consultation de la collection est certes important, mais l’objectif est surtout l’apport conceptuel apporté par la réflexion de modélisation tant des objets que des pratiques scientifiques d’utilisation d’une collection. Concernant les données à informatiser, nous nous attachons au travers de cette collection particulière, à formaliser une réflexion partageable avec d’autres et permettant de comparer, voire de rattacher, notre modélisation avec celles proposées dans les projets internationaux sur les collections (participation aux projets européens ENHSIN[2] et BioCASE[3]). Au niveau de la consultation des données, nous essayons d’analyser les pratiques de consultation d’une collection et de proposer des méthodes originales et d’application générale. Il est clair que notre objectif va au-delà de la réalisation ponctuelle d’une base de données et que nous nous plaçons avant tout dans une collaboration de recherche paléobotanique et informatique.

Modélisation des données :

Informatiser la collection de paléobotanique pour répondre aux objectifs énoncés plus haut ne consiste pas simplement à transférer les données telles quelles sont énoncées dans le catalogue de la collection sur un support géré par l’ordinateur ; au-delà du catalogue de fiches, il s’agit d’informatiser du sens pour permettre des accès « intelligents » aux données. Par exemple une recherche dans la base de données sur les fossiles du Burdigalien doit être capable de retourner aussi en résultat des fossiles datés de façon très imprécise du Miocène (le Burdigalien étant inclus dans le Miocène). De même pour des identifications incertaines ou des origines géographiques imprécises.

Quelque soit le système de gestion de bases de données (SGBD) choisi et son modèle de données[4], la première étape de la modélisation des données est une étape conceptuelle qui aboutit à préciser la nature des données et à les structurer ainsi qu’à définir les liens entre ces données, leur signification et leur cardinalité (nombre d’objets de chaque type de part et d’autre du lien). Un extrait du schéma entités-relations est donné figure 2. Cette structuration des données nous a conduit (entre autres) à repenser la nature des objets conservés et leur statut : distinction claire entre échantillons, spécimens « paléontologiques », objets dérivés etc.., qui détermine la structuration de la base. Il en résulte en particulier la formalisation d’une triple notion d’objets de collection (voir figure 3).

Au niveau de la mise en oeuvre la structure complexe des données hiérarchisées (échelles stratigraphiques, classifications) ou non (liens entre zones géographiques ou entre organes biologiques fossilisés) est prise en compte poussant ainsi le modèle de données relationnel jusqu’à ses limites et amenant à des réflexions intéressantes du côté informatique sur la représentation des connaissances.

L’accent a donc été mis sur une représentation aussi fidèle que possible des connaissances, capable de suivre l’évolution des données pour rester en phase avec la recherche. Ceci conduit, au-delà même de la complexité des données, à un autre défi passionnant pour l’informaticien celui de gérer l’imprécision et le doute dans les données (datation imprécise, identification douteuse entre deux genres etc.) et à en tenir compte lors des requêtes. En effet il n’est pas question de ne représenter dans la base de données que des informations « sûres », « définitives » et la dimension dynamique est indispensable pour une collection scientifique de recherche, donc une collection qui évolue dans ses objets mais surtout dans les données s’y rapportant.

 

 



 

 


Figure 2 : Extrait du schéma entités – relations. Un objet biologique étudié peut se voir attribuer plusieurs noms en cas d’identification incertaine, et avoir été identifié différemment plusieurs fois. Cet objet peut présenté plusieurs organes fossilisés : feuille, tige etc. Les publications sont informatisées en même temps que les informations sur la collection car elles en sont indissociables pour attester de la source des données contenues dans la base.

Figure 3 : Illustration des 3 notions d'objet (échantillon récolté, objet biologique étudié, matériel stocké). Dans l’exemple ci-dessus, l’échantillon récolté sur le terrain portent plusieurs empreintes différentes : P = empreinte de feuille de Pecopteris et S = sporange de Schizostachis ; ce sont les deux objets biologiques étudiés et identifiés. Cependant il s’avère que le sporange momifié a permis après macération d’effectuer des prélèvements de matière organique et d’extraire des microspores. Le spécimen « sporange de Schizostachis » se retrouve ainsi stocké de façon dispersée dans la collection sur plusieurs supports : la roche fossilifère initiale et différentes lames.


 

Modélisation de la consultation de la base de données :

Les bases de données doivent être rendues accessibles, en particulier par une consultation sur le Web. Cette consultation est encore, le plus souvent, « ciblée » et aboutit à des fiches « fermées» décrivant l’objet recherché selon différents critères. Mais les moyens informatiques permettre une exploration beaucoup plus large de l’ensemble des données. Un tel mode de navigation « ouvert » ne privilégie pas une seule forme d’interrogation et permet de répondre à des questions extrêmement variées :

-         quel est le nombre d’espèces, appartenant à une famille donnée, dans la collection ?

-         quel est le nombre d’espèces identifiées sur la seule base de bois fossiles ?

-         quels sont les organes (feuilles, tiges, fructifications…) dont on dispose pour un taxon particulier ?

-         de quels sites géographiques proviennent les spécimens conservés en empreintes ?

-         quelle est la liste exhaustive des échantillons d’un même âge stratigraphique 

et peut donc être le point de départ de nouveaux axes de recherche.


Au niveau de la consultation de la base de données notre objectif a donc été de concevoir une méthode d’accès paramétrable (donc pouvant s’adapter à des applications différentes et à des utilisateurs différents), exploratoire (c’est-à-dire ne privilégiant pas un seul ou un petit nombre de types de recherches), et séparant clairement pour sa mise en œuvre les données d’une part et les informations pour paramétrer l’interface d’accès d’autre part. Il en résulte une consultation strictement hypertexte (c’est-à-dire sans saisie de texte dans un champ) permettant de naviguer au travers d’un graphe de relations entre informations sans requête privilégiée.

 


Figure 4 : Exemple de page web obtenue sur le site de consultation de la base de données PALBOT.

Le site web de la collection de Paléobotanique permet une consultation très souple qui s’apparente à l’exploration d’un graphe représentant les entités et les relations de la base de données. Les éléments « Holotype », « Bois », « Pliocène », « Saimpols » sont clickables et permettent d’accèder aux informations qui leur sont liées..

 

Si ce type de consultation est séduisant par sa facilité d’utilisation, il ne doit pas faire oublier ses limites : toutes les relations accessibles dans l’interface doivent avoir été prévues à l’avance. La figure 4 montre un exemple de page web sur la base de données PALBOT.

Conclusion :

Il est évidemment impossible de mettre en œuvre un tel mode d’informatisation d’une collection, et de la bibliographie qui lui est reliée, sans une révision scientifique préalable pour en valider le contenu. C’est pourquoi nous avons débuté, modestement, par les « types et figurés », objets de référence les plus importants, et par les spécimens pour lesquels les chercheurs actuels du laboratoire sont particulièrement experts. Ce travail est toujours en cours et va être prochainement complété par les données iconographiques.

Le travail de modélisation des données a permis des comparaisons avec des recherches menées dans le cadre de différents programmes internationaux tels que : CDEFD (Common Datastructures for European Floristic Databases), PFR (Plant Fossil Record) ASC (Association of Systematic Collections), ENHSIN (European Natural History Museum Specimen Information Network) et BioCASE. La base de données « Paléobotanique - U.P.M.C. » va d’ailleurs être intégrée prochainement aux bases de données de collection européennes rassemblées dans le cadre du projet BioCASE.

La recherche informatique actuelle sur les bases de données, telles que : l’édition coopérative, la gestion de points de vue, les modèles de structuration des données, etc…peut trouver dans les collections scientifiques un formidable champ de validation, riche de retombées fondamentales et appliquées, pour chacun des domaines scientifiques (paléontologie et informatique, dans le cas d’espèce). Dans notre cas, la recherche faite sur l’édition coopérative dans le laboratoire[5] devrait bénéficier à l’application PALBOT et permettre d’aboutir à la mise au point d’une base de données « commentée » permettant de conserver l’ensemble des étapes de la démarche scientifique ayant abouti à l’état des données « archivées » (corrections des identifications, par qui ? quand ? remise en cause d’une datation, par qui ?). On ouvre alors à la communauté scientifique la possibilité d’accéder instantanément aux données tout en en connaissant la source et l’historique, de les analyser et de les critiquer en toute connaissance de cause.

Enfin, l’effort de standardisation incontournable des données saisies, exigé par l’informatisation, amène les acteurs biologistes et informaticiens à mener en commun cette démarche qui peut, en aval, modifier la perception des collections et leur utilisation pour la recherche.



[1] Thanh Thuy Nguyen Tu, Jiri Kvacek, David Ulicny, Hervé Bocherens, André Mariotti, and Jean Broutin. Isotope reconstruction of plant palaeoecology : Case study of Cenomanian floras from Bohemia. Palaeogeography, Palaeoclimatology, Palaeoecology, 183:43-70, 2002.

[2] ENHSIN : European Natural History Museum Specimen Information Network

[3] BioCASE : Biological Collection Access System for Europe

[4] Pour informatiser la collection de paléobotanique nous avons choisi un SGBD de type relationnel

[5] Robert Bossy. An Edition Control Policy Model for Collaborative Scientific Databases. In Second International Conference on Web Information Systems Engineering (WISE 2001), Kyoto, Japan, dec 2001. IEEE Computer Society Press