1 Contexte

La gestion des données de la recherche est devenue une préoccupation majeure dans les milieux scientifiques pour de multiples raisons.

Notamment, avec le passage à l’ère numérique, on a pu observer une perte massive des données de la recherche. Au fil du temps, ces dernières sont en effet devenues inaccessibles, illisibles, ininterprétables, ou ont simplement été égarées.

En outre, l’accès aux données de la recherche représente à l’heure actuelle un enjeu important pour garantir la crédibilité et la reproductibilité des résultats scientifiques. Ainsi, de plus en plus de revues scientifiques et de bailleurs de fonds exigent que les données qui sous-tendent les résultats soient conservées, accessibles et/ou réutilisables.

Enfin, les chercheurs sont confrontés aux problèmes de la gestion quotidienne de leurs données : stockage, archivage, description, traitement, partage, anonymisation, etc.

Afin d’amorcer la réflexion sur la thématique de la gestion des données de la recherche à l’ULB, le Conseil de l’information documentaire a mis en place un groupe de travail constitué de chercheurs et de membres des départements Recherche, Informatique et des Bibliothèques & Information scientifique.

2 Etude de référence

Le sondage est largement inspiré par une étude autrichienne portant sur 21 universités publiques, 3 centres de recherche totalisant 3026 répondants:

Researchers and Their Data. Results of an Austrian Survey- Report 2015

3 Méthode

Le groupe de travail a souhaité recueillir des informations sur les pratiques des chercheurs de l’ULB dans la gestion de leurs données de recherche à l’aide d’un sondage Limesurvey adressé par email à tous les responsables d’unité de recherche à l’ULB sur base d’une liste de contact fournie par le Département Recherche.

Les informations recueillies permettent d’avoir une vue d’ensemble des usages à l’ULB et guideront le groupe de travail pour établir un bilan de la situation actuelle et déterminer l’éventuelle disparité entre la situation à l’ULB et les exigences des revues scientifiques et des bailleurs de fonds.

Le sondage pouvait être complété :

soit au nom de l’unité de recherche dans sa globalité en spécifiant le nombre total de chercheurs concernés
soit à titre individuel en tant que chercheur.

On exprime les résultats en “équivalents-réponses” : pour les réponses au nom d’une unité de recherche, on considère que tous les chercheurs de l’unité de recherche répondraient de manière identique aux questions.

4 Traitement des données

Les données ont été récoltées à l’aide de LimeSurvey, exportées au format CSV et traitées à l’aide du logiciel RStudio 1.0.143 et R version 3.3.3 (2017-03-06).

Les graphiques sont réalisés à l’aide du package plotly 4.7.0.

Le rapport est rédigé en R Markdown et généré en HTML à l’aide de Knit 1.16.

5 Objectifs

L’enquête vise plusieurs objectifs:

connaître les pratiques des chercheurs de l’ULB
définir les priorités dans les besoins
confronter les résultats à ceux obtenus par d’autres enquêtes
identifier les chercheurs sensibilisés à la problématique
légitimer nos propositions
sensibiliser les chercheurs et les autorités

6 Echantillon

Cette section décrit l’échantillon collecté.

6.1 Caractéristiques de l’échantillon

Nombre total d’équivalent-résponses : 624

Nombre total de répondants à l’enquête : 161

Population globale de chercheur : 4112

Taux de participation moyen : 15.2 %

Nombre moyen de chercheurs par réponse : 3.88

Nombre maximal de chercheurs par réponse : 80

Temps médian de réponse au questionnaire : 8 min

6.2 Date de soumission des réponses

L’enquête a été menée du 27 avril au 12 juin 2017.

L’histogramme ci-dessous décrit le nombre de réponses collectées quotidiennement sur la durée de l’enquête.

L’email d’invitation à participer à l’enquête a été envoyé le 2 mai 2017. Un email de relance a été adressé à tous le 15 mai 2017.

6.3 Nombre d’équivalent-réponses par faculté

On observe une très large participation de la faculté des Sciences avec 250 équivalent-réponses collectées.

Le taux de participation par faculté est calculé sur base du nombre de chercheurs par faculté transmis par le département recherche:

Faculté	Nb.Chercheurs
Faculté de Médecine	666
Faculté des Sciences	640
Faculté des Sciences appliquées - école polytechnique	367
Faculté Solvay Brussels School of Economics and Management	231
Faculté des Sciences psychologiques et de l’Education	200
Faculté de Lettres, Traduction et Communication	426
Faculté de Philosophie et Sciences sociales	534
Faculté d’Architecture (La Cambre-Horta)	79
Faculté de Droit/Ecole des sciences criminologiques	293
Faculté des Sciences de la motricité	224
Ecole de Santé publique	81
Institut d’études européennes	80
Centres de recherche transdisciplinaires	NA
Section interfacultaire d’agrégation	NA
Faculté de Pharmacie	291
Autre	NA

On notera que la participation dépasse les 10% pour 7 facultés :

Ecole de Santé publique

Faculté d’Architecture (La Cambre-Horta)

Faculté des Sciences psychologiques et de l’Education

Faculté des Sciences appliquées - école polytechnique

Institut d’études européennes

Faculté de Médecine

Faculté des Sciences

6.4 Participation par âge

Le graphique ci-dessous indique les tranches d’âge des répondants au questionnaire. Toutes les tranches d’âge sont représentées.

On observe une large majorité de répondants dans la tranche d’âge “entre 30 et 50 ans”.

Tip Les usages collectés correspondent vraisemblablement en majorité à des chercheurs confirmés.

6.5 Participation par campus

Les usages collectés concernent des chercheurs établis sur tous les campus de l’ULB.

On notera qu’une majorité des répondants exercent principalement leurs activités de recherche sur les campus du Solbosch, de la Plaine et d’Erasme.

6.6 Participation par langue

Une majorité de répondants a rempli le formulaire en français.

6.7 Participation à titre personnel ou pour l’unité de recherche

Les trois quarts des répondants ont rempli le questionnaire à titre personnel.

7 Evaluation de la marge d’erreur

Les marges d’erreur sont évaluées à l’aide d’une formule de correction dans les conditions d’une population finie comme suit:

\(e = Z_{\alpha} \sqrt{\frac{p (1-p)}{n}} \sqrt{\frac{(N-n)}{(N-1)}}\)

où

\(Z_{\alpha}=1.96\) : pour un seuil de confiance de 95% (loi normale)
p=0.5 : proportion de personnes ayant le comportement étudié (erreur max pour p=0.5)
n=624 : la taille de l’échantillon
N=4112 : la taille de la population

Sur base de ces données, la marge d’erreur maximale est évaluée à 3.8 %.

8 Résultats de l’enquête

Cette section décrit et commente les résultats obtenus pour chacune des questions de l’enquête.

8.1 Types de données de recherche et formats

8.1.1 Quels types de contenu numérique créez-vous lorsque vous générez des données de recherche ?

En majorité, les répondants produisent :

des documents textuels non structurés
des graphiques et images
des feuilles de calcul
des données de configuration

Tip On notera que seule une minorité de répondants produisent des données de recherche dans des formats binaires propriétaires susceptibles de poser des problèmes quant à leur réutilisabilité et leur préservation.

Tip Les différents types de contenu numérique créés par les répondants de l’ULB correspondent à ceux indiqués dans l’étude autrichienne de référence

8.2 Gestion quotidienne des données de recherche

8.2.1 Quelle quantité de données générez-vous approximativement chaque année ?

La quantité de données générées annuellement est évaluée par le répondant soit :

à titre personnel
pour l’unité de recherche dans sa globalité

Dans le second cas, on évalue alors comme équivalent-réponse, une moyenne par chercheur.

On constate que les répondants génèrent en majorité :

moins de 50 GB de données par an
entre 1 TB et 100 TB

Tip Cette distribution s’explique peut-être par un biais de l’échantillon qui amènerait les chercheurs générant beaucoup de données à répondre plus fréquemment à l’enquête, se sentant plus concernés par la problématique de la gestion des données de la recherche.

Tip Le pourcentage de répondants générant plus d’1 TB de données par an est plus important que dans l’étude autrichienne de référence (30% contre 7%)

Comme explicité dans le graphique ci-dessous, on notera que près de 49% des répondants génèrent moins de 100 GB par an.

8.2.2 Où stockez-vous habituellement vos données de recherche ?

Une majorité de répondants stocke habituellement leurs données de recherche sur :

leur PC
un service cloud (Dropbox, Amazon, Google, Microsoft)
un disque dur externe ou une clé USB
un serveur dédié géré par leur unité de recherche

Tip L’usage de périphériques de stockage externe est largement répandu. Ce type de stockage ne constitue pas une solution particulièrement robuste et fiable.

Tip L’usage des services cloud est nettement plus répandu pour les répondants de l’ULB que dans l’étude autrichienne de référence (58% contre 21%)

8.2.3 Quel moyen de stockage utilisent les répondants qui génèrent moins de 100GB par an ?

On observe que les répondants qui génèrent moins de 100 GB par an stockent leur données principalement sur leur PC, sur un service cloud ou un disque dur externe ou une clé USB.

Tip Proposer une solution de stockage professionnelle apparaît comme essentiel pour les répondants qui génèrent moins de 100GB par an.

8.2.4 Quel moyen de stockage utilisent les répondants qui génèrent plus de 100GB par an?

On observe que les répondants qui génèrent plus de 100 GB par an stockent leur données principalement sur leur PC, sur un serveur dédié géré par leur unité de recherche ou à l’aide d’un service cloud.

Tip Les répondants qui génèrent plus de 100GB par an se tournent donc vers des solutions de stockage plus robustes.

8.2.5 Quelle proportion de répondants utilise conjointement deux moyens de stockage ?

La carte thermique ci-dessous indique la corrélation entre l’utilisation d’un moyen de stockage autre que le PC local et l’utilisation d’un autre moyen de stockage.

8.2.6 A quelle fréquence accédez-vous à ces données générées (en lecture ou écriture) ?

Une large majorité de répondants accède à leurs données générées très fréquemment ou fréquemment.

Tip Ce résultat impacte le choix de l’infrastructure de stockage à proposer aux chercheurs.

8.2.7 Quel effort ou coût demanderait la régénération de vos données ?

Une large majorité des répondants estime que leurs données ne peuvent être régénérées ou qu’un effort ou coût très important serait requis pour les regénérées.

Tip Ce résultat impacte le type et stratégie de sauvegarde et le niveau de réplication exigé pour la solution de stockage à proposer aux chercheurs.

8.2.8 Documentez-vous habituellement vos données de recherche ?

Une majorité de répondants indique documenter leurs données de recherche de manière personnalisée mais pas systématique.

Seuls 16.5% des répondants indiquent documenter leurs données de recherche sur base de standard adaptés.

Tip Les résultats coïncident avec ceux de l’étude autrichienne de référence toutefois une proportion un peu plus importante de répondants de l’ULB ne documentent pas leurs données de manière systématique (59% contre 40%)

8.2.9 Qui est responsable de la sauvegarde de vos données de recherche ?

Une très large majorité de répondants estime être responsable personnellement de la sauvegarde de leurs données de recherche.

Tip Une proportion non négligeable d’unité de recherche confie la responsabilité de la sauvegarde de leurs données de recherche à un membre sur contrat temporaire.

8.2.10 Avez-vous déjà subi une perte de données de recherche ?

Plus de 46% des répondants ont déjà subi une perte de données de recherche.

8.2.11 Pour quelle raison avez-vous déjà subi une perte de données de recherche ?

Les raisons principales de la perte de données indiquées par les répondants sont par ordre décroissant d’importance :

le départ d’un chercheur n’ayant pas laissé une copie de ses données au sein de l’unité de recherche
une erreur humaine (perte du media, erreur de manipulation)
un problème matériel de media de stockage

Tip Les raisons principales de la perte de données sont en grande partie liées à une l’utilisation d’une solution de stockage peu fiable.

8.3 Aspects éthiques et légaux

8.3.1 Utilisez-vous des données de recherche externes pour votre propre recherche (données qui ne sont pas générées par vous-même(s)) ?

Une large majorité de répondants utilise des données de recherche externe, généralement après traitement.

8.3.2 Êtes-vous confronté(s) à des contraintes légales concernant l’exploitation de données de recherche ?

Une large majorité de répondants est confrontée à des contraintes légales concernant l’exploitation de données à un moment au cours de sa recherche.

Tip Un support relatif aux contraintes légales en matière de gestion des données de recherche paraît utile en conséquence.

8.3.3 Qu’arrivera-t-il aux données de recherche générées au sein de votre unité de recherche si le créateur de ces données quitte l’institution ?

Une large majorité de répondants indique que les données resteront à l’ULB si le créateur de ces données quitte l’institution.

Tip Près d’un répondant sur six estime que les données partiront avec leur créateur.

8.3.4 Utilisez-vous des données de recherche à caractère sensible ou confidentiel?

Une large majorité de répondants utilise des données de recherche à caractère sensible ou confidentiel.

Tip Un support relatif aux contraintes liées aux données de recherche à caractère sensible ou confidentiel paraît utile en conséquence. Le choix de l’infrastructure de stockage, de partage, de traitement et d’archivage est également impacté.

8.3.5 Quels moyens de stockage utilisent les répondants qui utilisent des données à caractère sensible “souvent” ou “parfois” ?

Tip Une proportion importante de répondants utilisant des données à caractère sensible “souvent” ou “parfois” utilise des solutions en cloud comme moyen de stockage (respectivement 53% et 67%).

8.4 Accessibilité et réutilisation

8.4.1 Comment assurez-vous l’accès par un tiers à vos données dans votre gestion quotidienne ?

En majorité, pour assurer l’accès par un tiers à leurs données de recherche, les répondants exploitent :

l’email
un serveur de fichiers spécifique géré par leur unité de recherche
des solutions dans le cloud

Tip La taille des jeux de données influence le choix de la solution (voir infra)

Tip Le choix de la solution dans le cloud ou de l’email peut poser problème dans le cadre des données sensibles.

Tip La solution ownCloud proposée par l’ULB est utilisée par un nombre non négligeable de répondants bien que peu de promotion ait été faite (peut-être dû à un biais de l’échantillon)

8.4.2 Comment assurez-vous l’accès par un tiers à vos données dans votre gestion quotidienne ? (<=100GB/an)

Les répondants générant moins de 100 GB par an utilisent en majorité l’email pour partager leurs données.

8.4.3 Comment assurez-vous l’accès par un tiers à vos données dans votre gestion quotidienne ? (>100GB)

Les répondants générant plus de 100 GB par an utilisent en majorité un serveur de fichier géré par leur unité de recherche pour partager leurs données.

8.4.4 A qui autorisez-vous l’accès aux données que vous partagez ?

En très grande majorité, les répondants autorisent l’accès aux données aux partenaires du projet de recherche.

Tip La solution de partage préconisée devrait donc permettre de partager aisément les données avec des membres d’autres institutions.

8.4.5 Vos données de recherche sont-elles réutilisables par d’autres ?

En grande majorité, les répondants estiment que leurs données de recherche sont réutilisables. Toutefois, seuls 25% répondants estiment que la réutilisation pourra se faire immédiatement.

Tip Des recommandations en matière de documentation des données seraient utiles.

8.4.6 Quel(s) type(s) de licence accordez-vous aux utilisateurs de vos données ?

Pour la majorité des répondants, l’accord de collaboration avec les partenaires de projet sert de licence d’utilisation.

Tip Plus d’un quart des répondants exploite une licence ouverte (Creative Commons, General Public License…)

8.5 Infrastructures et services

8.5.1 Quel(s) type(s) de dépôt(s) de données préférez-vous (ou préféreriez-vous) utiliser pour assurer la préservation et, éventuellement, le partage de vos données ?

La majorité des répondants préférerait utiliser un dépôt de données de recherche institutionnel centralisé pour assurer la préservation et, éventuellement, le partage de leurs données.

Tip A court terme, la création d’un prototype de dépôt de données de recherche institutionnel s’avèrerait donc utile.

Tip L’utilisation des dépôts commerciaux généralistes est très clairement écartée par les répondants

Tip Seule une minorité de répondants ne souhaitent pas utiliser de dépôt de données

8.5.2 Pourcentage des répondants favorables un dépôt à l’ULB (centralisé ou non)

8.5.3 Utiliseriez-vous ce type d’infrastructure ou de service s’il était disponible à l’ULB - [Support de premier niveau (helpdesk)]

Une large majorité des répondants utiliserait un support de premier niveau s’il était disponible à l’ULB.

Tip Reste à définir quelles sont les attentes concrètes par rapport à ce service.

8.5.4 Utiliseriez-vous ce type d’infrastructure ou de service s’il était disponible à l’ULB - [Conseils juridiques]

Une majorité des répondants aurait recours à un service de conseils juridiques s’il était disponible à l’ULB

Tip Reste à définir quelles sont les attentes concrètes par rapport à ce service.

8.5.5 Utiliseriez-vous ce type d’infrastructure ou de service s’il était disponible à l’ULB - [Infrastructure de stockage de données] ?

Une très large majorité des répondants utiliserait une infrastructure de stockage de données de recherche s’il était disponible à l’ULB.

Tip Il s’agit du service/infrastructure qui remporte le plus de succès.

8.5.6 Utiliseriez-vous ce type d’infrastructure ou de service s’il était disponible à l’ULB - [Infrastructure de traitement des données]

Une minorité des répondants utiliserait une infrastructure de traitement de données de recherche s'il était disponible à l’ULB.

Tip Il s’agit du service/infrastructure qui remporte le moins de succès. Sa mise en oeuvre n’est donc pas une priorité.

8.5.7 Utiliseriez-vous ce type d’infrastructure ou de service s’il était disponible à l’ULB - [Infrastructure d’archivage des données de recherche (dépôt)]

Une très large majorité des répondants utiliserait une infrastructure d’archivage de données de recherche dépôt institutionnel s’il était disponible à l’ULB.

Tip Cela confirme les résultats exposés précédemment.

8.5.8 Utiliseriez-vous ce type d’infrastructure ou de service s’il était disponible à l’ULB - [Support spécifique à la gestion des données de recherche (création d’un plan de gestion des données (DMP), description et traitement des données)]

Une minorité de répondants envisage recourir à un service de support spécifique à la gestion des données de recherche s’il était disponible à l’ULB.

Tip Peut-être cela s’explique-t-il par le fait que la plupart des chercheurs ne sont pas encore confrontés concrètement à la problématique de la gestion des données de la recherche puisque le DMP n’est pas encore exigé par tous les bailleurs de fonds.

8.5.9 Quelles actions devrait mener l’ULB en priorité - [Améliorer le réseau informatique pour permettre le transfert de grands volumes de données] ?

Une grande majorité de répondants estime qu’il est important, très important et essentiel d’améliorer le réseau informatique.

Tip Le projet de déploiement du nouveau réseau dans les deux années à venir devrait pouvoir répondre à ces attentes.

8.5.10 Quelles actions devrait mener l’ULB en priorité - [Fournir des recommandations et des conseils sur la gestion des données] ?

Une grande majorité de répondants estime qu’il est important, très important et essentiel de fournir des recommandations et des conseils sur la gestion des données.

Tip Le GT GDR vise précisément à formuler ces recommandations.

8.5.11 Quelles actions devrait mener l’ULB en priorité - [Inclure la gestion des données dans le cursus doctoral] ?

Une grande majorité de répondants estime qu’il est important, très important et essentiel d’inclure la gestion des données dans le cursus doctoral

Tip Cet aspect relève probablement plus de la compétence des écoles doctorales ou des formations transversales organisées à l’ULB dans le cadre de la formation doctorale de 60 crédits ECTS.

8.5.12 Quelles actions devrait mener l’ULB en priorité - [Inclure explicitement la gestion des données dans les responsabilités du chercheur]

Une grande majorité de répondants estime qu’il est important, très important et essentiel d’inclure explicitement la gestion des données dans les responsabilités du chercheur.

8.6 Contact et commentaires

8.6.1 Pouvons-nous vous contacter au besoin pour un complément d’information ?

Une majorité de répondants accepte d’être recontactée.

Résultats de l’enquête sur les usages des chercheurs de l’ULB en matière de gestion des données de recherche

Groupe de Travail Gestion des Données de la Recherche

12 Juin 2017