Sauvegarder les données des chercheurs

Pour ne pas perdre le fruit d’années de travail, les chercheurs doivent préserver des quantités grandissantes de données. Une enquête menée à l’université a fait le point sur leurs pratiques.

Des dizaines de répertoires dans le disque dur d’un ordinateur portable, et un chercheur qui se gratte la tête, se demandant où il a bien pu mettre cette satanée image… Pire dans certains cas, des supports de stockages défaillants ou trop anciens pour êtres lus (disquettes…), ou même le départ du chercheur pour d’autres cieux peuvent rendre inexploitable le produit d’années de recherche. Pourquoi ? Parce qu’encore trop souvent, notamment en sciences humaines et sociales, la responsabilité de leurs données − fichier excel, base de données, images, etc. − leur incombe individuellement. Faute de temps, les chercheurs sont prisonniers de stratégies à court terme, bricolées, pour leurs sauvegardes.

Or il ne s’agit pas que de pérenniser ces données. La responsabilité d’un chercheur est aussi de les rendre accessibles. Pour que ses productions soient validées et intégrées aux savoirs communs, elles doivent en effet être décortiquées et critiquées, et sa démarche reproduite. Aujourd’hui, de plus en plus de projets de recherche internationaux requièrent un plan de gestion des données. « C’est toute une organisation à penser en amont » souligne Isabelle Westeel, directrice du service commun de la documentation de Lille 3 (SCD).

Cependant, les situations sont très contrastées selon les disciplines. C’est pourquoi, le laboratoire Geriico et le SCD ont souhaité faire un état des lieux, à travers deux enquêtes. L’une porte sur les données présentes dans les thèses (voir ici). L’autre s’est penchée sur les pratiques de sauvegardes des chercheurs aujourd’hui en sciences humaines et sociales. Elle est en cours d’analyse mais des résultats préliminaires sont déjà disponibles.

Les pratiques des chercheurs

Environ un tiers seulement des chercheurs interrogés diffusent leurs données, et c’est dans l’immense majorité des cas à leurs collègues proches. À peu près un quart des interrogés sont dans une démarche active, et testent plusieurs stratégies de sauvegardes et de partage de leurs données. Environ 40 % ne sont pas hostiles à la démarche mais confessent leur ignorance (ne savent pas qu’il est possible de déposer des données dans des infrastructures électroniques et de télécharger celles d’autres chercheurs). Une minorité (moins de 10 %) sont réticents et ne comptent pas diffuser leurs données. Le reste est plus ou moins intéressé. « C’est notamment ces derniers qu’il faut mobiliser » estime Joachim Schöpfel, maître de conférences en sciences de l’information et de la communication à Lille 3, et l’un des auteurs de l’étude.

Contrairement à d’autres universités comme Berlin ou Strasbourg, les sauvegardes se font assez souvent sur du matériel personnel − ordinateur personnel, disque dur externe, clé usb, etc. Peu recourent aux serveurs de l’université. « Peut-être parce que jusqu’ici beaucoup de chercheurs en sciences humaine et sociales n’ont pas un volume trop conséquent de données qui les obligerait à une stratégie de sauvegarde élaborée. » s’interroge Joachim Schöpfel.

Où déposer ses données ?

Mais les besoins sont réels. À Lille 3, l’enquête montre une très forte demande pour un espace d’archivage sécurisé et fiable. En France, seule une institution a réellement les capacités techniques pour stocker de grandes quantités de données. Il s’agit du Centre informatique national de l’enseignement supérieur (Cines − conserve notamment les thèses électroniques, des revues en sciences humaines et sociales du portail Persée, la plateforme nationale de diffusion des publications, Hal). Mais son rôle se limite à la conservation des données. Or une donnée brute dans un serveur ne sera jamais réutilisée.

Il faut une architecture informatique pour indexer ces données, de manière à pouvoir y faire des recherches, et d’autres pour permettre la mise en ligne de fiches les décrivant, par exemple. Pour l’instant, il n’existe pas de solutions suffisamment complètes. Hal permet de déposer des images, vidéos, et des fichiers. « Mais Hal ne permet de déposer des données que si elles sont rattachées à une publication, explique Joachim Schöpfel, même si la plateforme semble visiblement appelée à se développer. » En sciences humaines et sociales, d’autres initiatives ont démarré. Mais pour l’instant, elles ne sont disponibles que pour des institutions ou des grands projets de recherche (mise à jour : cela ne semble pas être le cas, voir ci-dessous). Pour le chercheur individuel, il n’existe que des solutions commerciales, comme Figshare, dont la pérennité à long terme n’est pas garantie, ou encore assez récentes comme Zenodo hébergée sur les serveurs du Cern à Genève (voir également ce portail permettant de rechercher dans 1300 entrepôts de données de recherche du monde entier).

Interrogés sur cette question, les chercheurs se prononcent clairement en faveur d’une plate-forme internationale, sans doute parce que c’est d’abord la visibilité de leur recherche qui leur importe. Ensuite, viennent les plate-formes de laboratoire, qui auraient l’avantage de rassembler en un même point les données d’une même discipline. Les plate-formes nationales et d’université n’arrivent qu’en troisième et quatrième position.

Un besoin d’accompagnement

Le second besoin avancé par les chercheurs dans l’enquête est une demande d’accompagnement : conseils techniques, juridiques ou pour l’élaboration d’un plan de gestion des données. Il est d’ailleurs de plus en plus fréquent que les grands projets de recherche recrutent des spécialistes de l’information et de la documentation. Les bibliothèques universitaires peuvent également venir en appui.

Les préconisations

Qu’est-ce que vont devenir les résultats de cette enquête ? L’école doctorale, le laboratoire Geriico et le service commun de la documentation sont en train de préparer un livre blanc de bonnes pratiques (désormais disponible ici), destiné aux directeurs de laboratoires, à la direction de la recherche, à la présidence, etc.

Outre la nécessité de promouvoir une solution technique pérenne et l’accompagnement des chercheurs (voir plus haut), plusieurs propositions émergent d’ores et déjà. D’abord de ne pas imposer le même modèle à tous, mais d’avoir une approche diversifiée selon les disciplines. Mais également d’intégrer cette problématique dans la formation des doctorants, pour qu’ils aient cette démarche le plus tôt possible dans leur travail. Un séminaire sur la gestion des données de recherche, destiné aux doctorants, sera organisé à la rentrée à Lille 3. Il faut aussi faciliter le dépôt des données par les doctorants lors des thèses, notamment via Hal.

« On voit bien que les universités commencent à se saisir de cette question, indique Isabelle Westeel. Mais il faut maintenant une mobilisation forte de tous les acteurs. »

Tout conserver

La masse de données produites par la recherche ne fait qu’augmenter, notamment du fait de l’explosion des capacités de stockage ces dernières décennies. Faut-il tout conserver ? « Oui, explique Joachim Schöpfel, le principe est de ne pas trier. Ce qu’un chercheur ne juge pas important aujourd’hui le sera peut-être demain. » De nouvelles questions rendront peut-être essentiels des résultats qui n’étaient que secondaires. Ou de nouvelles technologies en permettront peut-être l’exploitation d’une manière différente. On ne peut pas préjuger de l’avenir.

Depuis de nombreuses années, des entreprises, confrontées aux mêmes problèmes, ont développé des outils pour archiver, trier et faciliter la recherche dans ces masses conséquentes de données. Ces logiciels et techniques deviennent de plus en plus accessibles à tous. En sciences humaines et sociales, tout un pan de la recherche, les humanités numériques, vise d’ailleurs à l’exploitation de ces données (exemples). Dans certains cas, la mise à disposition de données peut également créer de l’activité économique.

L’enquête

Elle s’est déroulée pendant plusieurs semaines autour d’avril 2015 par l’envoi d’un questionnaire (un volet plus qualitatif, basé sur des entretiens approfondis suivra dans un second temps). Pour la mettre au point, ses coordonnateurs (Joachim Schöpfel et Hélène Prost, du CNRS) ont collaboré au cours de l’année précédente avec un grand institut de bibliothéconomie, à l’université Humboldt de Berlin. Ce dernier avait en effet réalisé une enquête similaire il y a quelques années. Les résultats ont été comparés avec trois autres enquêtes (Berlin, Strasbourg, LIBER Europe).

Environ 270 chercheurs (incluant les enseignants-chercheurs et les doctorants) ont répondu, soit un taux de réponse d’environ 15 %, classique dans ce genre d’enquête. Toutes les disciplines sont représentées, à peu près proportionnellement à leur poids en nombre de chercheurs : psychologie, langues, sciences de l’information et de la communication, sciences de l’éducation, histoire, etc.

Les différents types de données produites par les chercheurs interrogés (leurs résultats).
Les différents types de données produites par les chercheurs interrogés (leurs résultats).

Mise à jour du 17 juillet 2015 :

Le directeur technique d’Huma-Num, Stéphane Pouyllau, apporte les précisions suivantes sur Twitter :

Des tutoriels sont disponibles sur la page d’Huma-Num.

Mise à jour du 11 septembre 2015 :

Le livre blanc avec les préconisations de l’équipe est disponible ici.

Tweet about this on TwitterShare on Facebook0Share on LinkedIn9Email this to someone

10 réflexions au sujet de « Sauvegarder les données des chercheurs »

  1. Bonjour,

    Peut-être que la compétence d’un archiviste pourrait sur ce sujet vous être utile. En effet, notre métier consiste à collecter, classer, conserver et rendre accessible d’abord des documents, bien sur, mais également et depuis l’avènement du tout-numérique, les données, produites ou reçues par l’ensemble des entités, des personnes, des usagers de l’université.

    Les pratiques d’archivage en université française se rapprochent des pratiques anglo-saxonnes de la gestion des documents et de fait, une partie de nos activités est aussi dédiée à trouver une réponse optimisée pour chaque laboratoire, chaque service, chaque composante, à la gestion de la masse d’informations produites : savoir quoi jeter est aussi important que savoir quoi conserver…y compris au format électronique.

    Pour information, quelques fiches pratiques et travaux sur le sujet ont déjà été menés ou sont en cours d’études par le groupe “archives de la recherche” de la section Aurore de l’Association des archivistes français.

  2. Bonjour,
    Contrairement à ce qui est dit dans votre billet, la solution NAKALA proposée par Huma-Num, la très grande infrastructure de recherche pour les humanités numériques, est justement destiné aux enseignants/chercheurs des communautés SHS tout en répondant aussi à des besoins plus institutionnel tel que celui des Maisons des sciences de l’Homme. Il est également important de souligner qu’il s’agit d’une solution publique hébergée sur des serveurs publics qui sont partis de l’infrastructure d’Huma-Num. C’est particulièrement important à un moment ou la multiplication des initiatives dans le paysage de l’ESR brouille encore un peu plus les choses pour les chercheurs.

    Cordialement,

    Stéphane.

    1. Bonjour,
      Est-ce que vous pouvez alors préciser comment un chercheur individuel en SHS doit s’y prendre pour y déposer ses données ? (i.e. comment cela se passe concrètement)
      cordialement,
      Nicolas Constans.

  3. Pour moi, la solution la plus évidente, c’est bien sûr d’effectuer une copie de sauvegarde locale. Autrement dit, d’utiliser un disque de secours.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *