Données de la recherche

Pour plus d’informations, nous vous conseillons de télécharger notre guide figurant dans la boîte à outils.

Le développement de la science ouverte répond à des enjeux scientifiques et aussi économiques exigés par l’Union Européenne et les principaux financeurs nationaux comme l’ANR par exemple. Ce développement modifie notre façon de faire de la recherche en instaurant de nouvelles méthodes de travail. Mais cette complexification de la recherche via les principes FAIR n’est pas un problème en soi car mettre en place sa recherche selon ces principes sera un gage de qualité et d’intégrité permettant une meilleure transparence des résultats et une recherche plus éthique.

Il est désormais clair que les principes sur l’ouverture, la communication, l’appropriation et la réutilisation des données de recherche, quelles qu’elles soient, sont applicables aux résultats de la recherche dans toutes les disciplines.

Lorsque l’on parle de données, il faut comprendre qu’il s’agit essentiellement de résultats de recherches originales. Ces données peuvent être de nature très diverses analogiques ou numériques :

  • Données d’observation (capturées en temps réel) : relevés météo, images, enquêtes sociales, fouilles archéologiques (dessin), témoignages oraux, plan…
  • Données expérimentales (obtenues à partir d’équipement et de manipulation en laboratoire) : séquence peptide, poids, biomasse, analyses moléculaires…
  • Données de simulations informatiques : modèle climatique, modèle économique, …
  • Données dérivées ou compilées (issues de traitement de données brutes) : bases de données compilées, fouille de textes, tableaux ou matrices, par exemple : la population des villes médiévales françaises etc…
  • Considérez tous vos actifs de recherche comme des données de recherche qui pourraient être potentiellement réutilisées par d’autres chercheurs et leur être utiles, afin de rédiger par un exemple l’état de l’art de leur recherche

Pour rendre ses données FAIR il faut prendre en compte les questions juridiques et éthiques afin de déterminer quelles données seront communicables et comment. De plus, il faut adopter de bonnes pratiques de gestion des données (utilisation de formats ouverts, de vocabulaires consistants et de standards de métadonnées communs), ainsi que l’utilisation d’outils adéquats (ex : entrepôts de stockage compatibles avec les principes FAIR, Linked Data).

Un vocabulaire est une liste de termes prédéfinis servant à organiser des informations afin d’en faciliter la recherche et l’accès. Utiliser des termes prédéfinis permet aux machines d’avoir un langage commun et de se comprendre.

Findable : ce principe a pour objectif de faciliter la découverte de vos données par d’autres chercheurs et par des systèmes informatiques. De ce fait, vous devez mettre en place une description et une indexation des données et des métadonnées avec un identifiant pérenne. En plus des métadonnées bibliographiques (auteurs, titre, résumé, etc.), il est important également de fournir des métadonnées sur le contexte et la provenance des données. L’entrepôt choisi doit indexer les données et permettre leur recherche par les humains et les machines. Avant tout dépôt sur des plateformes ou des entrepôts vous devez vous assurer que vos données sont communicables d’un point de vue juridique et éthique.

Pour cela vous devez créer un PID (Persistent Identifier)

Accessible : ce principe encourage à stocker durablement les données et les métadonnées et à faciliter leur accès et/ou leur téléchargement, en spécifiant les conditions d’accès (accès ouvert ou restreint) et d’utilisation avec une licence en Creative Commons. Le plus simple est de déposer vos données dans un entrepôt qui permettra de garantir que les métadonnées restent accessibles même si les données ne le sont pas ou plus. Il est par exemple utile d’utiliser un identifiant pérenne qui pointe vers une page descriptive contenant les métadonnées plutôt que vers les données elles-mêmes et d’assurer la pérennité de cette page descriptive. Il est conseillé en tant que chercheur de vous créer un PID également via ORCID. Ainsi, vos publications, votre nom en tant qu’auteur et votre établissement seront plus visibles et accessibles.

Le répertoire re3data.org permet de rechercher parmi 1500 entrepôts de données, en fonction des types de fichiers à déposer, des disciplines concernées et des politiques de dépôt et de consultation. Vous pouvez également utiliser OADOpenDOAR, etc. Si vous cherchez un entrepôt certifié, consultez le site CoreTrustSeal.

Interoperable : Vos données devront être téléchargeables, trouvables par l’homme et la machine. Pour cela vous devez :

  • Mettre les données dans un entrepôt qui permet leur identification de manière unique et pérenne, leur accès et téléchargement par les humains et les machines ;
  • Utiliser un format ouvert et indépendant (exemple logiciel libre).
  • Contextualiser les données : indiquer les liens vers d’autres données (versions antérieures ou plus récentes, données complémentaires, etc.) et les liens vers des publications (articles citant les données, data papers, etc). Il faut respecter la chaine des données et créer une sorte de réseau de données où elles se répercutent entre elles

Reusable : Ce principe met en avant les caractéristiques qui rendent les données utilisables pour de futures recherches ou d’autres finalités (enseignement, innovation, reproduction/transparence de la science). Pour que les données soient réutilisables par d’autres, elles doivent être protégées par une licence qui précise les conditions de leur utilisation. Ensuite, il est utile de décrire leur provenance et de fournir toute information permettant de les contextualiser. Ces licences s’adressent aux auteurs souhaitant :

  • partager et faciliter l’utilisation de leur création par d’autres
  • autoriser gratuitement la reproduction et la diffusion (sous certaines conditions)
  • accorder plus de droits aux utilisateurs en complétant le droit d’auteur qui s’applique par défaut
  • faire évoluer une œuvre et enrichir le patrimoine commun (les biens communs ou Commons)
  • économiser les coûts de transaction
  • légaliser le peer to peer de leurs œuvres.

Les licences Creative Commons sont fondées sur le droit d’auteur. Alors que le régime du droit d’auteur classique vous incite à garder l’exclusivité sur la totalité de vos droits (« tous droits réservés »)

Le système CC offre quatre types de licences réglementant l’utilisation des œuvres (dérivé et aucun dérivé) en termes de copie, distribution, affichage, exécution et remixage par les titulaires de licence.

• CC BY (Attribution): Le travail peut être utilisé en donnant crédit aux auteurs.

• CC SA (partage): le travail peut être distribué sous une licence identique.

• CC NC (non commercial): les titulaires de licence peuvent utiliser uniquement à des fins non commerciales.

• CC ND (pas de dérivé): les titulaires de licence ne peuvent diffuser l’œuvre textuelle, dérivée ou les copies remixées de la version sous licence sont exclues.

Vous ne pouvez attribuer une licence qu’à une œuvre dont vous êtes le titulaire des droits d’auteur. S’il y a des co-auteurs, vous devez être d’accord avec eux sur la licence. De plus, vous n’êtes pas autorisés à licencier des œuvres du domaine public. Vous devez également savoir s’il existe des exigences de licence de la part de l’organisme de financement ou du référentiel de données.[i]


Sources :

[i] Esther Dzale Yeumo : Les principes FAIR, UAR DIST Délégation Information Scientifique et Technique, Versailles, Inra, France

https://doranum.fr