L’Institut Français de Bioinformatique (IFB), Centre de Référence Thématique pour les données de biologie-santé
Décembre 2024
Votre centre de référence
L’Institut Français de Bioinformatique (IFB), qui assure la fonction de Centre de Référence Thématique pour les données de biologie-santé, est l’une des 27 infrastructures nationales de biologie santé (INBS) sur la feuille de route du MESR.
L’IFB fédère un réseau de 35 plateformes régionales et équipes de recherche. L’infrastructure nationale est coordonnée par l’IFB-core, une unité d’appui à la recherche multi-tutelle (CNRS, INSERM, INRAE et CEA).
En s’appuyant sur les compétences des plateformes et équipes, l’IFB propose des services (calcul et stockage, développement et déploiement logiciel, bases de connaissances, gestion de données, accompagnement de projets), des formations, de l’accompagnement et des développements innovants à destination de la communauté scientifique en sciences de la vie et de la santé.
L’IFB est également le nœud français de l’infrastructure européenne ELIXIR (European Life-science Infrastructure for Biological Information, ELIXIR-FR), qui est composée des infrastructures nationales de 23 pays européens et d’un Hub de coordination. Les actions de l’IFB contribuent aux plateformes technologiques et aux communautés thématiques d’ELIXIR, dont certaines sont directement liées aux données (par exemple la plateforme Interoperability, ou encore la communauté des Research Data Managers).
D’où vient le besoin de créer une infrastructure spécialisée sur les données de la recherche ?
Depuis le tournant du 21è siècle, la biologie est devenue une science qui s’appuie de plus en plus sur des données massives de natures diverses (génomique, transcriptomique, protéomique, métabolomique, imagerie, structures tridimensionnelles) générées par des technologies à haut débit. Si les objets étudiés sont les mêmes, ce changement d’échelle a rendu le traitement des données incontournable. Les communautés des sciences de la vie et de la santé ont rapidement pris conscience de la nécessité d’accéder à des moyens de calcul et de stockage, de développer des approches innovantes, d’implémenter des outils logiciels spécialisés, et de monter en compétence sur des méthodes avancées d’analyse des données (approches statistiques multidimensionnelles, analyse des réseaux, apprentissage automatique, apprentissage profond).
Pour répondre à ces besoins, la communauté bioinformatique nationale s’est structurée en réseau depuis de nombreuses années. Ses plateformes régionales en bioinformatique étaient regroupées dans le réseau ReNaBi qui proposait un label et des financements. L’Institut Français de Bioinformatique a été créé en 2013, sur financement de la première vague du plan d’investissement d’avenir (PIA1), afin de renforcer la coordination et la structuration des plateformes et services en bioinformatique.
Son positionnement scientifique place aujourd’hui l’IFB au carrefour des données en science de la vie et de la santé, grâce à une offre de services basée sur une infrastructure numérique largement ouverte aux communautés académiques des sciences de la vie et de la santé, équipé de centaines d’outils spécialisés pour analyser les données biologiques, accessibles via des interfaces présentant différent degrés de compromis entre flexibilité, interactivité et convivialité (terminal Unix, plateformes Web RStudio, JupyterHub, Galaxy, Open OnDemand).
Cependant, au-delà de la réponse aux premiers besoins exprimés (calcul, stockage, logiciel), un énorme travail reste à mener pour accompagner les personnels de la recherche (ingénieurs, chercheurs, enseignants) sur la gestion de leurs données depuis la conception d’un projet jusqu’à la publication des résultats et au dépôt des données, afin d’éviter la perte ou la duplication de données, d’organiser la collecte de métadonnées, et de les rendre Faciles à trouver, Accessibles, Interopérables et Réutilisables (principes FAIR).
Depuis quand votre centre accompagne la gestion des données ? Comment s’est constitué ce service ?
Si l’importance de disposer de moyens de calcul, de stockage et de logiciel pour analyser les données massives et assurer leur préservation a été perçue par les acteurs de la recherche, en revanche l’expression explicite de la nécessité d’une organisation de leur gestion n’a émergé que relativement récemment. Pour l’IFB, la gestion de la donnée en tant que telle a été identifiée comme action stratégique de la feuille de route en 2019, et a donné lieu à des actions ponctuelles financées par l’appel flash ANR Science Ouverte (projets maDMP4LS pour le développement de plans de gestion de données automatisables , projet OpenLink pour le suivi des flux de données tout au long du projet), et par nos fonds propres (FAIR-checker : évaluation de ressources Web via 12 indicateurs des critères F,A,I,R). L’IFB a également mis en place deux formations récurrentes visant à accompagner les chercheurs pour la FAIRisation de leurs données (FAIR-data) ou de leur code logiciel (FAIR-bioinfo). Un jalon essentiel a été la conception en 2020, du projet PIA3 MUDIS4LS (Mutualized Digital Spaces for FAIR Life and health Sciences), financé par l’appel PIA3 Equipex+ « Equipements Structurants pour la Recherche ». Ce projet inclut un workpackage consacré à l’orchestration des flux de données tout au long de leur cycle de vie, et cinq Implementation Studies ciblées sur la gestion de données hétérogènes intégrées (en partenariat avec plusieurs INBS) et sur la FAIRisation de données de 4 communautés représentatives de la recherche en biologie-santé: biologie marine, microbiologie, agriculture, santé.
Comment accompagnez-vous les chercheurs ?
L’IFB a mis en oeuvre un ambitieux programme visant à développer des ressources pour faciliter la gestion des données tout au long de leur cycle de vie, et un accompagnement des chercheurs pour l’utilisation de ces ressources.
En tant que Centre de Référence Thématique pour les données de Biologie-Santé, une première mission consiste à définir et promouvoir les standards. Ceci repose sur une étroite collaboration avec les autres INBS spécialisées dans l’un ou l’autre type de données :
- identification des entrepôts de confiance pour chaque type de données biologiques ;
- définition de référentiels de métadonnées associés à ces entrepôts, indiquant quelles informations sont obligatoires, recommandés ou optionnels ;
- implémentation de plans de gestion de données (PGD) dits « d’entité », permettant aux plateformes de service de décrire les paramètres technologiques ayant présidé à la production d’un jeu de données ; ces PGD sont mis à disposition via le service DSW@IFB, en utilisant un modèle permettant un haut niveau de détails disciplinaires.
- interopérabilité permettant d’importer automatiquement ces métadonnées technologiques depuis les PGD d’entité vers les PGD de projet.
L’IFB développe également des outils logiciels pour faciliter la gestion de la donnée tout au long de la vie des projets.
- MADbot, un environnement logiciel modulaire qui permettra au chercheur de suivre le parcours des fichier de données depuis leur production jusqu’au dépôt dans les entrepôts spécialisés, et de contrôler la qualité de ses métadonnées avant de les soumettre à ces entrepôts ;
- Nous poursuivons le développement de FAIR-checker, qui permet de mesurer a posteriori la découvrabilité, l’accessibilité, l’interopérabilité et la réutilisabilité d’un jeu de données sur base des paramètres visibles sur la page Web qui le décrit.
Nous proposons également aux chercheurs des formations à la gestion des données (FAIR-data) et du code logiciel (FAIR-bioinfo). Ces deux formations ont été construites en s’appuyant sur les compétences de plusieurs plateformes de l’IFB et sur celles d’intervenants externes (notamment pour les aspects juridiques), et sont périodiquement rejouées par les plateformes de l’IFB afin de répondre aux demandes locales.
L’accompagnement de l’IFB s’articule également avec les réalisations de l’infrastructure européenne ELIXIR, qui héberge de nombreuses ressources de données, notamment l’European Nucleotide Archive (ENA), entrepôt thématique pour les données de séquence. ELIXIR propose également une boîte à outils logiciels pour la gestion des données, le RDM kit (https://rdmkit.elixir-europe.org/) développés par l’ensemble des noeuds du réseau grâce au financement ELIXIR-CONVERGE (2019-2024). .
Avec la collaboration des autres INBS (Instituts Nationaux en Biologie et Santé), nous travaillons sur des référentiels de FAIRisations thématiques, mettant en perspective les référentiels européens avec les ressources disponibles pour la communauté nationale.
Quel lien avec les services support en local ?
Les différents référentiels que l’IFB et les autres INBS construisent sont à disposition des services régionaux d’accompagnement, notamment les Ateliers de la Donnée, qui sont des dispositifs de proximité à destination des personnels scientifiques.
L’accompagnement local des personnels de la recherche s’appuie également sur les plateformes et les équipes associées de l’IFB, ainsi que sur les réseaux de plateformes portées par les autres INBS. Ces acteurs sont clairement identifiés et reconnus depuis de nombreuses années par la communauté scientifique.
Que représente le label “centre de référence thématique” de Recherche Data Gouv pour vous ?
Les actions que nous avions entreprises en gestion des données et notre implication avec les autres INBS ont amené le MESR à désigner l’IFB pour assurer le rôle de Centre de Référence Thématique pour les données de biologie et la santé. Compte tenu du champ disciplinaire très large couvert par ce label, nous savons que cette mission ne pourra être accomplie qu’en collaboration étroite avec l’ensemble des infrastructures nationales et autres acteurs de biologie-santé, en mutualisant nos expertises.
Dans ce contexte, ce label représente avant tout pour nous une responsabilité, celle d’animer les communautés en biologie et santé pour ainsi constituer, consolider et co-construire les référentiels de FAIRisation.
Cette responsabilité s’accompagne par celle de collaborer étroitement avec l’ensemble des dispositifs d’accompagnement : les ateliers, les autres centres de référence thématiques et les centres de ressources.
Au-delà des responsabilités afférentes, ce label permet de faire reconnaître le travail de l’ensemble des acteurs de la gestion des données en biologie santé, infrastructures nationales ou autres communautés scientifiques thématiques.
Présentez une action particulièrement importante du centre en matière d’accompagnement à la gestion des données.
Plusieurs actions menées par l’IFB sont stratégiques et importantes en matière d’accompagnement à la gestion des données, comme celles décrites ci-dessus.
Un autre exemple d’action significative est la création et l’animation du groupe de travail des données de la recherche, au sein du club des Infrastructures Nationales en Biologie et Santé. Ce groupe, co-animé par l’IFB et par FRISBI (infrastructure nationale de biologie structurale), travaille sur la définition des référentiels de FAIRisation par grandes thématiques : bioimagerie, séquences, données structurales, données métabolomiques, protéomique… Chaque infrastructure nationale y apporte ses compétences spécifiques sur un type particulier de données, et la mise en cohérence des référentiels et des recommandations avec celles des réseaux internationaux auxquels elle est rattachée (en particulier les ESFRIs). Ce groupe, susceptible de s’élargir au-delà du cercle des INBS, offre de bonnes garanties de co-construction, afin que ces référentiels soient pertinents, à jour, et utiles aux communautés.