DATA TERRA

  • | mise à jour le 18/09/2024

Septembre 2024

Votre centre de référence

Data Terra est une e-infrastructure1 de recherche nationale, centrée sur les processus d’observation et de connaissance pluridisciplinaires du système Terre à partir de données et produits scientifiques qualifiés ainsi que des services de traitements. 

L’IR Data Terra est portée par 6 tutelles : le CNRS, CNES, Ifremer, IGN, IRD, INRAe, BRGM et MNHN, en partenariat avec d’autres organismes de recherche. L’IR fédère cinq pôles thématiques nationaux de données et de services : 

Elle opère également un dispositif d’accès à l’imagerie spatiale haute résolution, Dinamis, un groupe d’expertise technique collective sur la fairisation des données et services : Inter-pôles ainsi que des animations régionales thématiques, les ART.

Enfin, parmi les entrepôts de confiance, l’entrepôt EaSy Data (pour Earth System Data Repository), porté par la e-Infrastructure de Recherche Data Terra et opérationnalisé par le BRGM, a été identifié comme étant l’entrepôt thématique national des données dites « orphelines » ou de longue traîne de l’Environnement et du Système Terre : EaSy Data.

Fresque live-sketching réalisée lors du séminaire interne Data Terra en mars 2023. Création : Lison Bernet

D’où vient le besoin de créer une infrastructure spécialisée sur les données de la recherche ?

La création de DATA TERRA comme e-Infrastructure de Recherche dédiée au Système Terre et à l’Environnement, est une ambition collective nationale majeure. Elle répond aux enjeux critiques d’un accès transparent, traçable et intégré à des données scientifiques multi-sources et d’un traitement à la demande adapté.

L’IR s’appuie sur un continuum d’infrastructures de services aux données distribuées et coordonnées et sur des ressources organisées en  « écosystèmes de données ». Elle fournit des données et services à valeur ajoutée à travers ses pôles et dispositifs en associant les producteurs de données, les expertises scientifiques et numériques, aux capacités de stockage et de calcul incluant l’IA.

Tout cela s’inscrit dans des stratégies nationales d’Infrastructures de Recherche inscrites dans les feuilles de route du MESR, dans des initiatives européennes (EOSC, DestinE, …) et internationales. C’est également une contribution aux politiques de science ouverte au niveau national et européen, ainsi qu’aux ambitions de construction de jumeaux numériques2 de la Terre afin de créer les conditions d’adoption des nouvelles capacités d’observation.

Depuis quand votre centre accompagne la gestion des données ? Comment s’est constitué ce service ?

Observer, comprendre et modéliser de manière intégrée l’histoire, le fonctionnement et prévoir l’évolution du système Terre soumis aux changements globaux est un enjeu fondamental de recherche et une nécessité pour de nombreuses applications environnementales et socio-économiques en lien avec la mise en œuvre des objectifs du développement durable. Depuis 2016, l’IR DATA TERRA est organisée avec une approche interdisciplinaire et transverse  autour de 4 pôles de données et de services Aeris (atmosphère), Formater (terre solide), Odatis (océan) et Theia (surfaces continentales), puis 5 pôles avec l’intégration du pôle biodiversité PNDB en 2024. Elle opère également le dispositif transverse DINAMIS (images très haute résolution spatiale).

L’IR Data Terra propose des services autour des données d’observation du système Terre. L’objectif est de fournir des services interopérables et interdisciplinaires à tous les niveaux.

  • Budget global : 42 millions d’euros
  • +1000 produits et services
  • +15000 utilisateurs
  • 100’000 TB (2022/2023)

L’IR DATA TERRA est par ailleurs un centre de référence thématique Recherche Data Gouv depuis 2022. La Terre est un système complexe composé de sous-systèmes impliquant les milieux physiques, chimiques et biologiques, caractérisés par des processus en interaction sur un large continuum d’échelles de temps et d’espace.

Enfin depuis 2023, DATA TERRA a lancé les animations régionales thématiques (ART). Créées initialement à l’initiative du pôle Theia dédié aux surfaces continentales depuis plusieurs années pour regrouper des structures publiques et privées sur une base territoriale, avec un intérêt pour la collecte, le traitement et l’interprétation des données pour l’action publique. Si le point de départ a été la diffusion de données et produits concernant les surfaces continentales, elles sont désormais étendues à toutes les thématiques associées, atmosphère, biodiversité, océan, terre solide et imagerie spatiale.

Comment accompagnez-vous les chercheurs ?

La mission première est d’assurer la préservation du patrimoine scientifique, et plus particulièrement des données et documents acquis ou réalisés dans le cadre d’opérations de recherche : données d’observation produites ou en cours de production, données spatiales, in situ, etc.

Cette mission sous-tend également une stratégie économique visant à diminuer les coûts récurrents, par la mise en commun d’une infrastructure en co-gérant des outils, instruments et systèmes de gestion des données. DATA TERRA s’inscrit pareillement dans une démarche de partage et d’ouverture des données selon les principes FAIR pour : Facile à trouver, Accessible, Interopérable, Réutilisable (en anglais : Findable, Accessible, Interoperable, Reusable).

L’IR Data Terra met en place des services variés dans l’accompagnement des producteurs et des utilisateurs de données système Terre et environnement

1- Découverte des données système Terre et environnement
2- Accompagnement dans la collecte de données (campagne de mesure, ateliers,…)
3- Production des données FAIR, appui à la rédaction de DMP et vocabulaires de domaine
4- Services de calculs et de traitement à la demande
5- Diffusion et valorisation des données à travers des catalogues thématiques
6- Mise à disposition des ressources et d’une animation scientifique (webinaires, ateliers thématiques, bulletins d’information, newsletters, etc,) ainsi que de forum de rencontre avec les utilisateurs de données publics et privés

Pour solliciter l’utilisation des services des deux centres de références thématiques DATA TERRA et PNDB, l’utilisateur doit relever du monde académique français. Les projets internationaux sont accueillis dans la mesure où l’équipe porteuse principale du projet relève du monde académique français.
Accès rapide aux données et services : https://www.data-terra.org/donnees-services/acces-rapide/

Quel lien avec les services support en local ?

Pour répondre aux enjeux d’ouverture des données, la France construit à travers Recherche Data Gouv une solution souveraine pour la diffusion des données et propose des services d’accompagnement aux chercheurs. La stratégie du gouvernement est de s’appuyer sur les forces françaises, en particulier les infrastructures de recherche de « big science » disciplinaires, soutenues dans le cadre des Equipex+, fortement inscrites à l’échelle internationale (EBI, GEO, CDS-ESO…). L’infrastructure de recherche DATA TERRA participe également à structurer le paysage des indispensables e-infrastructures d’envergure nationale ayant vocation à conforter la France dans un contexte européen (EOSC) très compétitif. Une offre de service très étendue est apportée aux utilisateurs, y compris des services d’infrastructures numériques support.

L’IR DATA TERRA affiche une approche complète, depuis l’acquisition de la donnée jusqu’à son utilisation transdisciplinaire. L’objectif est de faire vivre et développer un dispositif global d’accès à des données, produits et services permettant d’observer, comprendre et prévoir de manière intégrée le système Terre : faciliter l’accès et l’utilisation des données et produits, fournir un service à valeur ajoutée de visualisation et traitement des données permettant de supporter l’accroissement de la volumétrie. L’IR se doit de répondre aux besoins des scientifiques, mais aussi des politiques publiques et doit s’adapter progressivement aux besoins croissants des utilisateurs vers le multi-capteurs/multi-sources. Elle se construit également en étroite collaboration avec les infrastructures d’observation et d’expérimentation des domaines Atmosphère (ICOS, IAGOS, ACTRIS), Surfaces Continentales (OZCAR, RZA…), Océan ( Euro-Argo, EMBRC-France, ILICO), Terre Solide (RESIF-EPOS), Biodiversité (réseau des Zones Ateliers, AnaEE Natura, Phenome-emphasis, AnaEE Ecotron, Recolnat, Rare, …) et transverses (SAFIRE, TGIR Flotte Océanographique Française, EMSO, ILICO, projet REGEF, …), au travers de la prise en compte de leurs besoins autour des données.

En 2021, le projet Equipex+ GAIA DATA est construit sur les dispositifs existants développés et exploités par les trois Infrastructures de Recherche DATA TERRA, CLIMERI-France et PNDB, organisées autour de pôles de données et de simulations climatiques et de biodiversité. Basé sur le partage, l’interopérabilité et l’accessibilité des données en toute transparence, ce projet comporte également un volet technique qui vise à rationaliser les ressources existantes dans l’Enseignement supérieur et de la recherche  (ESR). Il s’appuie sur 30 centres existants (centres de calcul nationaux, centres de données et de services, Mésocentres régionaux et thématiques, etc.) afin de permettre l’augmentation des capacités de stockage et de calcul et de soutenir l’évolution des infrastructures associées.

Enfin, grâce à une collaboration mise en œuvre avec les ateliers de la donnée dans le cadre de notre rôle en tant que centre de référence thématique, nous soutenons depuis 2023 la gestion et la diffusion des données Systeme Terre et Environnement en mettant en place des actions pour contribuer à la définition des standards internationaux de description des (meta) données et à la diffusion des bonnes pratiques de collecte, documentation, traitement et accès aux données.

Que représente le label “centre de référence thématique” de Recherche Data Gouv pour vous ?

Le futur des sciences dites « système Terre » nécessite l’assemblage d’informations de sources et nature très variées. Les enjeux liés à cette hétérogénéité des données vont permettre une plus grande interopérabilité entre les bases et les jeux de données issus de communautés historiquement indépendantes, fragmentées, et de nature souvent très différente. L’un des enjeux majeurs est de créer des référentiels communs et des standards de métadonnées suffisamment précis pour aider à leurs réutilisations. Dans ce cadre, les centres de références thématiques ont une portée nationale et disciplinaire. Ils soutiennent l’action en matière de gestion et diffusion des données d’un domaine thématique scientifique.

L’IR Data Terra soutient le partage et l’ouverture des données d’observation du système Terre notamment au travers de pôles de données et d’un entrepôt thématique de données ouvertes, comme cités plus haut. Son inscription dans l’écosystème Recherche Data Gouv vise à reconnaître et rendre visible son activité structurante de gestion, de diffusion et d’accès aux données issues des infrastructures de recherche, d’observation et d’expérimentation dans le domaine science du Système Terre.

Présentez une action particulièrement importante du centre en matière d’accompagnement à la gestion des données.

La plateforme nationale fédérée des données de la recherche, Recherche Data Gouv intègre un entrepôt pour référencer les données de la recherche n’ayant pas de solutions thématiques ou institutionnelles, et un catalogue permettant de référencer les données des entrepôts de confiance existants dans le paysage national. Parmi les entrepôts de confiance, l’entrepôt EaSy Data (pour Earth System Data Repository), porté par l’IR DATA TERRA et opérationnalisé par le BRGM, a été identifié comme étant l’entrepôt thématique national des données dites « orphelines » ou de longue traîne de l’Environnement et du Système Terre. Les Données longue traîne sont des données (ou produits) issues de travaux de recherche de durée finie (projets ou publications) dont l’acquisition/l’élaboration, la préservation et la diffusion ne sont pas organisées de façon pérenne ou communautaire. Une (grande) partie des données de longue traîne sont dites « orphelines », au sens où elles ne bénéficient pas d’un service d’entrepôt de données susceptible de les préserver et de les rendre accessibles à la communauté scientifique ».

EaSy Data a été lancé le 6 novembre 2023 et propose une interface conviviale et simple d’utilisation pour le dépôt et les recherches. Basée sur des standards reconnus par les communautés du Système Terre et de l’Environnement, la plateforme vise à faciliter la découverte et la réutilisation des données déposées. Les métadonnées respectent les principes FAIR conformément aux recommandations nationales et européennes. Des vocabulaires sont utilisés pour améliorer la qualité des descriptions des jeux de données et garantir un certain niveau d’interopérabilité entre les systèmes.  Un dispositif de modération disciplinaire assure la qualité des dépôts effectués. EaSy Data rend visible les jeux de données d’autres entrepôts thématiques (e.g. Seanoe pour les données marines, Data Indores). Les données stockées dans EaSy Data seront référencées au niveau national dans le catalogue de Recherche Data Gouv.

Pour en savoir plus, retrouvez le replay de l’inauguration de l’entrepôt EaSy Data en ligne : https://www.data-terra.org/actualite/lancement-easydata/ 

  1. ¹Les infrastructures de recherche numériques, ou e-infrastructures, sont des outils permettant le partage de données et les échanges de savoir-faire entre chercheurs, technologues et innovateurs, et de faire des simulations. Il s’agit de réseaux de communication transnationaux, des centres de calcul à haute performance et de gestion de données et de logiciels scientifiques collaboratifs. ↩︎
  2. ²Les jumeaux numériques visent à développer un modèle numérique de la Terre de haute précision pour modéliser, surveiller et simuler les phénomènes naturels, les risques et les activités humaines associées. Ces fonctionnalités innovantes aident les utilisateurs à concevoir des stratégies d’adaptation et des mesures d’atténuation très fines. ↩︎