La gestion des données de la recherche est devenue une préoccupation majeure dans les milieux scientifiques pour de multiples raisons.
Notamment, avec le passage à l’ère numérique, on a pu observer une perte massive des données de la recherche. Au fil du temps, ces dernières sont en effet devenues inaccessibles, illisibles, ininterprétables, ou ont simplement été égarées.
En outre, l’accès aux données de la recherche représente à l’heure actuelle un enjeu important pour garantir la crédibilité et la reproductibilité des résultats scientifiques. Ainsi, de plus en plus de revues scientifiques et de bailleurs de fonds exigent que les données qui sous-tendent les résultats soient conservées, accessibles et/ou réutilisables.
Enfin, les chercheurs sont confrontés aux problèmes de la gestion quotidienne de leurs données : stockage, archivage, description, traitement, partage, anonymisation, etc.
Afin d’amorcer la réflexion sur la thématique de la gestion des données de la recherche à l’ULB, le Conseil de l’information documentaire a mis en place un groupe de travail constitué de chercheurs et de membres des départements Recherche, Informatique et des Bibliothèques & Information scientifique.
Le sondage est largement inspiré par une étude autrichienne portant sur 21 universités publiques, 3 centres de recherche totalisant 3026 répondants:
Researchers and Their Data. Results of an Austrian Survey- Report 2015
Le groupe de travail a souhaité recueillir des informations sur les pratiques des chercheurs de l’ULB dans la gestion de leurs données de recherche à l’aide d’un sondage Limesurvey adressé par email à tous les responsables d’unité de recherche à l’ULB sur base d’une liste de contact fournie par le Département Recherche.
Les informations recueillies permettent d’avoir une vue d’ensemble des usages à l’ULB et guideront le groupe de travail pour établir un bilan de la situation actuelle et déterminer l’éventuelle disparité entre la situation à l’ULB et les exigences des revues scientifiques et des bailleurs de fonds.
Le sondage pouvait être complété :
soit au nom de l’unité de recherche dans sa globalité en spécifiant le nombre total de chercheurs concernés
soit à titre individuel en tant que chercheur.
On exprime les résultats en “équivalents-réponses” : pour les réponses au nom d’une unité de recherche, on considère que tous les chercheurs de l’unité de recherche répondraient de manière identique aux questions.
Les données ont été récoltées à l’aide de LimeSurvey, exportées au format CSV et traitées à l’aide du logiciel RStudio 1.0.143 et R version 3.3.3 (2017-03-06).
Les graphiques sont réalisés à l’aide du package plotly 4.7.0.
Le rapport est rédigé en R Markdown et généré en HTML à l’aide de Knit 1.16.
L’enquête vise plusieurs objectifs:
connaître les pratiques des chercheurs de l’ULB
définir les priorités dans les besoins
confronter les résultats à ceux obtenus par d’autres enquêtes
identifier les chercheurs sensibilisés à la problématique
légitimer nos propositions
sensibiliser les chercheurs et les autorités
Cette section décrit l’échantillon collecté.
Nombre total d’équivalent-résponses : 624
Nombre total de répondants à l’enquête : 161
Population globale de chercheur : 4112
Taux de participation moyen : 15.2 %
Nombre moyen de chercheurs par réponse : 3.88
Nombre maximal de chercheurs par réponse : 80
Temps médian de réponse au questionnaire : 8 min
L’enquête a été menée du 27 avril au 12 juin 2017.
L’histogramme ci-dessous décrit le nombre de réponses collectées quotidiennement sur la durée de l’enquête.
L’email d’invitation à participer à l’enquête a été envoyé le 2 mai 2017. Un email de relance a été adressé à tous le 15 mai 2017.
On observe une très large participation de la faculté des Sciences avec 250 équivalent-réponses collectées.
Le taux de participation par faculté est calculé sur base du nombre de chercheurs par faculté transmis par le département recherche:
Faculté | Nb.Chercheurs |
---|---|
Faculté de Médecine | 666 |
Faculté des Sciences | 640 |
Faculté des Sciences appliquées - école polytechnique | 367 |
Faculté Solvay Brussels School of Economics and Management | 231 |
Faculté des Sciences psychologiques et de l’Education | 200 |
Faculté de Lettres, Traduction et Communication | 426 |
Faculté de Philosophie et Sciences sociales | 534 |
Faculté d’Architecture (La Cambre-Horta) | 79 |
Faculté de Droit/Ecole des sciences criminologiques | 293 |
Faculté des Sciences de la motricité | 224 |
Ecole de Santé publique | 81 |
Institut d’études européennes | 80 |
Centres de recherche transdisciplinaires | NA |
Section interfacultaire d’agrégation | NA |
Faculté de Pharmacie | 291 |
Autre | NA |
Ecole de Santé publique |
Faculté d’Architecture (La Cambre-Horta) |
Faculté des Sciences psychologiques et de l’Education |
Faculté des Sciences appliquées - école polytechnique |
Institut d’études européennes |
Faculté de Médecine |
Faculté des Sciences |
Le graphique ci-dessous indique les tranches d’âge des répondants au questionnaire. Toutes les tranches d’âge sont représentées.
On observe une large majorité de répondants dans la tranche d’âge “entre 30 et 50 ans”.
Les usages collectés correspondent vraisemblablement en majorité à des chercheurs confirmés.
Les usages collectés concernent des chercheurs établis sur tous les campus de l’ULB.
On notera qu’une majorité des répondants exercent principalement leurs activités de recherche sur les campus du Solbosch, de la Plaine et d’Erasme.
Une majorité de répondants a rempli le formulaire en français.
Les trois quarts des répondants ont rempli le questionnaire à titre personnel.
Les marges d’erreur sont évaluées à l’aide d’une formule de correction dans les conditions d’une population finie comme suit:
\(e = Z_{\alpha} \sqrt{\frac{p (1-p)}{n}} \sqrt{\frac{(N-n)}{(N-1)}}\)
où
\(Z_{\alpha}=1.96\) : pour un seuil de confiance de 95% (loi normale)
p=0.5 : proportion de personnes ayant le comportement étudié (erreur max pour p=0.5)
n=624 : la taille de l’échantillon
N=4112 : la taille de la population
Sur base de ces données, la marge d’erreur maximale est évaluée à 3.8 %.
Cette section décrit et commente les résultats obtenus pour chacune des questions de l’enquête.
En majorité, les répondants produisent :
On notera que seule une minorité de répondants produisent des données de recherche dans des formats binaires propriétaires susceptibles de poser des problèmes quant à leur réutilisabilité et leur préservation.
Les différents types de contenu numérique créés par les répondants de l’ULB correspondent à ceux indiqués dans l’étude autrichienne de référence
La quantité de données générées annuellement est évaluée par le répondant soit :
à titre personnel
pour l’unité de recherche dans sa globalité
Dans le second cas, on évalue alors comme équivalent-réponse, une moyenne par chercheur.
On constate que les répondants génèrent en majorité :
moins de 50 GB de données par an
entre 1 TB et 100 TB
Cette distribution s’explique peut-être par un biais de l’échantillon qui amènerait les chercheurs générant beaucoup de données à répondre plus fréquemment à l’enquête, se sentant plus concernés par la problématique de la gestion des données de la recherche.
Le pourcentage de répondants générant plus d’1 TB de données par an est plus important que dans l’étude autrichienne de référence (30% contre 7%)
Comme explicité dans le graphique ci-dessous, on notera que près de 49% des répondants génèrent moins de 100 GB par an.
Une majorité de répondants stocke habituellement leurs données de recherche sur :
leur PC
un service cloud (Dropbox, Amazon, Google, Microsoft)
un disque dur externe ou une clé USB
un serveur dédié géré par leur unité de recherche
L’usage de périphériques de stockage externe est largement répandu. Ce type de stockage ne constitue pas une solution particulièrement robuste et fiable.
L’usage des services cloud est nettement plus répandu pour les répondants de l’ULB que dans l’étude autrichienne de référence (58% contre 21%)
On observe que les répondants qui génèrent moins de 100 GB par an stockent leur données principalement sur leur PC, sur un service cloud ou un disque dur externe ou une clé USB.
Proposer une solution de stockage professionnelle apparaît comme essentiel pour les répondants qui génèrent moins de 100GB par an.
On observe que les répondants qui génèrent plus de 100 GB par an stockent leur données principalement sur leur PC, sur un serveur dédié géré par leur unité de recherche ou à l’aide d’un service cloud.
Les répondants qui génèrent plus de 100GB par an se tournent donc vers des solutions de stockage plus robustes.
La carte thermique ci-dessous indique la corrélation entre l’utilisation d’un moyen de stockage autre que le PC local et l’utilisation d’un autre moyen de stockage.
Une large majorité de répondants accède à leurs données générées très fréquemment ou fréquemment.
Ce résultat impacte le choix de l’infrastructure de stockage à proposer aux chercheurs.
Une large majorité des répondants estime que leurs données ne peuvent être régénérées ou qu’un effort ou coût très important serait requis pour les regénérées.
Ce résultat impacte le type et stratégie de sauvegarde et le niveau de réplication exigé pour la solution de stockage à proposer aux chercheurs.
Une majorité de répondants indique documenter leurs données de recherche de manière personnalisée mais pas systématique.
Seuls 16.5% des répondants indiquent documenter leurs données de recherche sur base de standard adaptés.
Les résultats coïncident avec ceux de l’étude autrichienne de référence toutefois une proportion un peu plus importante de répondants de l’ULB ne documentent pas leurs données de manière systématique (59% contre 40%)
Une très large majorité de répondants estime être responsable personnellement de la sauvegarde de leurs données de recherche.
Une proportion non négligeable d’unité de recherche confie la responsabilité de la sauvegarde de leurs données de recherche à un membre sur contrat temporaire.
Plus de 46% des répondants ont déjà subi une perte de données de recherche.
Les raisons principales de la perte de données indiquées par les répondants sont par ordre décroissant d’importance :
le départ d’un chercheur n’ayant pas laissé une copie de ses données au sein de l’unité de recherche
une erreur humaine (perte du media, erreur de manipulation)
un problème matériel de media de stockage
Les raisons principales de la perte de données sont en grande partie liées à une l’utilisation d’une solution de stockage peu fiable.
Une large majorité de répondants utilise des données de recherche externe, généralement après traitement.
Une large majorité de répondants est confrontée à des contraintes légales concernant l’exploitation de données à un moment au cours de sa recherche.
Un support relatif aux contraintes légales en matière de gestion des données de recherche paraît utile en conséquence.
Une large majorité de répondants indique que les données resteront à l’ULB si le créateur de ces données quitte l’institution.
Près d’un répondant sur six estime que les données partiront avec leur créateur.
Une large majorité de répondants utilise des données de recherche à caractère sensible ou confidentiel.
Un support relatif aux contraintes liées aux données de recherche à caractère sensible ou confidentiel paraît utile en conséquence. Le choix de l’infrastructure de stockage, de partage, de traitement et d’archivage est également impacté.
Une proportion importante de répondants utilisant des données à caractère sensible “souvent” ou “parfois” utilise des solutions en cloud comme moyen de stockage (respectivement 53% et 67%).
Les répondants générant moins de 100 GB par an utilisent en majorité l’email pour partager leurs données.
Les répondants générant plus de 100 GB par an utilisent en majorité un serveur de fichier géré par leur unité de recherche pour partager leurs données.
En très grande majorité, les répondants autorisent l’accès aux données aux partenaires du projet de recherche.
La solution de partage préconisée devrait donc permettre de partager aisément les données avec des membres d’autres institutions.
En grande majorité, les répondants estiment que leurs données de recherche sont réutilisables. Toutefois, seuls 25% répondants estiment que la réutilisation pourra se faire immédiatement.
Des recommandations en matière de documentation des données seraient utiles.
Pour la majorité des répondants, l’accord de collaboration avec les partenaires de projet sert de licence d’utilisation.
Plus d’un quart des répondants exploite une licence ouverte (Creative Commons, General Public License…)
La majorité des répondants préférerait utiliser un dépôt de données de recherche institutionnel centralisé pour assurer la préservation et, éventuellement, le partage de leurs données.
A court terme, la création d’un prototype de dépôt de données de recherche institutionnel s’avèrerait donc utile.
L’utilisation des dépôts commerciaux généralistes est très clairement écartée par les répondants
Seule une minorité de répondants ne souhaitent pas utiliser de dépôt de données
Une large majorité des répondants utiliserait un support de premier niveau s’il était disponible à l’ULB.
Reste à définir quelles sont les attentes concrètes par rapport à ce service.
Une majorité des répondants aurait recours à un service de conseils juridiques s’il était disponible à l’ULB
Reste à définir quelles sont les attentes concrètes par rapport à ce service.
Une très large majorité des répondants utiliserait une infrastructure de stockage de données de recherche s’il était disponible à l’ULB.
Il s’agit du service/infrastructure qui remporte le plus de succès.
Une minorité des répondants utiliserait une infrastructure de traitement de données de recherche s'il était disponible à l’ULB.
Il s’agit du service/infrastructure qui remporte le moins de succès. Sa mise en oeuvre n’est donc pas une priorité.
Une très large majorité des répondants utiliserait une infrastructure d’archivage de données de recherche dépôt institutionnel s’il était disponible à l’ULB.
Cela confirme les résultats exposés précédemment.
Une minorité de répondants envisage recourir à un service de support spécifique à la gestion des données de recherche s’il était disponible à l’ULB.
Peut-être cela s’explique-t-il par le fait que la plupart des chercheurs ne sont pas encore confrontés concrètement à la problématique de la gestion des données de la recherche puisque le DMP n’est pas encore exigé par tous les bailleurs de fonds.
Une grande majorité de répondants estime qu’il est important, très important et essentiel d’améliorer le réseau informatique.
Le projet de déploiement du nouveau réseau dans les deux années à venir devrait pouvoir répondre à ces attentes.
Une grande majorité de répondants estime qu’il est important, très important et essentiel de fournir des recommandations et des conseils sur la gestion des données.
Le GT GDR vise précisément à formuler ces recommandations.
Une grande majorité de répondants estime qu’il est important, très important et essentiel d’inclure la gestion des données dans le cursus doctoral
Cet aspect relève probablement plus de la compétence des écoles doctorales ou des formations transversales organisées à l’ULB dans le cadre de la formation doctorale de 60 crédits ECTS.
Une grande majorité de répondants estime qu’il est important, très important et essentiel d’inclure explicitement la gestion des données dans les responsabilités du chercheur.
Une majorité de répondants accepte d’être recontactée.
8.4.1 Comment assurez-vous l’accès par un tiers à vos données dans votre gestion quotidienne ?
En majorité, pour assurer l’accès par un tiers à leurs données de recherche, les répondants exploitent :
l’email
un serveur de fichiers spécifique géré par leur unité de recherche
des solutions dans le cloud
La taille des jeux de données influence le choix de la solution (voir infra)
Le choix de la solution dans le cloud ou de l’email peut poser problème dans le cadre des données sensibles.
La solution ownCloud proposée par l’ULB est utilisée par un nombre non négligeable de répondants bien que peu de promotion ait été faite (peut-être dû à un biais de l’échantillon)