Institut Pasteur
Juin 2022
Votre établissement
L’Institut Pasteur à Paris :
- Fondation privée à but non lucratif, dont la mission est de contribuer à la prévention et au traitement des maladies, en priorité infectieuses, par la recherche, l’innovation, l’enseignement, et des actions de santé publique,
- 144 unités de recherche, 24 plateformes technologiques, 14 centres nationaux de référence,
- 1200 chercheurs et ingénieurs de recherche, 1200 personnels administratifs et techniques, 300 doctorants.
- En avril 2022 : 114 projets ANR en coordination en cours ; 21 projets européens en coordination en cours, dont 10 ERC.
Depuis quand votre service accompagne la gestion des données ? Comment s’est constitué votre service ?
L’accompagnement à la gestion des données a débuté en 2017, avec l’arrivée d’une data librarian en alternance au Centre de Ressources en Information Scientifique (CeRIS). Le CeRIS a en effet souhaité accompagner les coordinateurs de projets européens à mettre en place leur plan de gestion des données (PGD demandé dans le cadre de l’Open Data Pilot du programme européen H2020). Il a été décidé de développer une trame de PGD spécifique à l’Institut Pasteur, de façon à clarifier les questions de la trame H2020 et à les accompagner de conseils, exemples de réponses et fiches pratiques adaptés aux thématiques de recherche de l’Institut Pasteur. Ce projet porté par le CeRIS a permis de sensibiliser et rassembler de nombreux services supports autour de la question des données de la recherche : direction des systèmes d’information, service des archives, direction juridique, cellule éthique, service des brevets, service qualité, grants office (en charge de l’aide au montage et suivi des projets de recherche), centre de recherche translationnelle.
L’offre de service du CeRIS s’est ensuite progressivement construite autour du PGD : sensibilisation, formation et conseil sur les plans de gestion des données, sur l’ouverture des données et sur les entrepôts de données. Le CeRIS y dédie actuellement 1 ETP.
En parallèle de la démarche du CeRIS, la direction des systèmes d’information, confrontée à diverses problématiques liées aux données de recherche (augmentation rapide des volumes de données, gestion de la sensibilité des données, conformité RGPD…) a créé un poste dédié aux données de la recherche, en particulier pour identifier et gérer les données sensibles en partenariat avec le responsable de la sécurité des systèmes d’information. Après un premier état des lieux, une mission d’analyse d’écart sur la conformité RGPD (avec un volet dédié aux données de la recherche) et une analyse de différents besoins en gestion des données, il est rapidement apparu nécessaire de créer un service dédié de mutualisation de compétences en gestion des données. La Plateforme de Data Management (PF-DM) a été officiellement créée en février 2020 avec 2 ETP. L’objectif de la PF-DM est d’apporter support et expertise aux unités de recherche et aux autres plateformes de l’Institut Pasteur :
- support opérationnel via la gestion des données des projets de recherche (rédaction du plan de gestion des données, création des bases de données et de la documentation associée, nettoyage des données…)
- conseils sur les bonnes pratiques, formations…
La PF-DM s’est progressivement développée pour répondre aux besoins et comporte actuellement 8 ETP : 4 data managers permanents, 3 data managers financés sur projet de recherche, et la responsable de la plateforme.
Le CeRIS et la PF-DM travaillent en étroite collaboration.
Comment accompagnez-vous les chercheurs ?
Le CeRIS et la PF-DM proposent chacun une offre de service spécifique.
L’accompagnement proposé par le CeRIS :
- proposition de documentation : trame de PGD, fiches pratiques, logigrammes, intranet… ,
- formations au PGD : 8 à 10 formations par an, 73 personnes formées en 2021,
- prise de contact avec les coordinateurs de projets ANR et européens (conseils pour la rédaction de PGD de projet) et avec les responsables d’entité (conseils pour la rédaction de PGD d’entité),
- relecture de PGD (24 PGD relus en 2021, 17 relus au premier trimestre 2022),
- accompagnement lors du montage de projet (rédaction ou relecture du paragraphe sur la gestion des données),
- formations sur les entrepôts de données mises en place dès 2022,
- conseils sur l’ouverture des données et orientation vers les entrepôts de données adaptés aux types de données.
La PF-DM accompagne les chercheurs sur tous les aspects du cycle de vie des données :
- support aux PGD (initiation du PGD, coordination de rédaction) pour les projets gérés par la plateforme,
- organisation des données (plan de classement, règles de nommage, structure de base de données),
- création des bases de données, tests et validation,
- documentation des jeux de données, conseil sur les formats, ontologies, etc.,
- gestion du partage de données selon la réglementation.
Les data managers de la PF-DM sont des ingénieurs pour la plupart, avec une formation en biostatistiques, maths appliquées ou bioinformatique. Certains sont détachés sur des projets spécifiques afin de gérer les données du projet de bout en bout. D’autres apportent un soutien ponctuel aux projets.
La plateforme dispose d’une expertise plus spécifique sur la recherche sur la personne humaine. Elle propose en particulier :
- création des eCRF (electronic Case Report Form) sur REDCap®. Un eCRF est un questionnaire électronique utilisé pour la collecte de données auprès de personnes participants à une étude (clinique, épidémiologique ou autre),
- création des contrôles de cohérence. Ces contrôles permettent de limiter la saisie de données erronées dans la base (par exemple : s’assurer qu’une donnée « âge » est un nombre entre 0 et 120, qu’une date n’est pas postérieure à la date du jour, etc.),
- validation des paramétrages, des droits d’accès et test de la base,
- rédaction de la documentation (guide utilisateur, dictionnaire de données…),
- contrôle qualité des données (queries) et nettoyage de la base. Ces contrôles permettent, une fois les données collectées, de détecter les données manquantes, les incohérences, les erreurs de format, etc. La liste des erreurs est ensuite envoyée au site de saisie pour vérification (vérification dans le dossier patient ou lors de la visite suivante du patient, ou autre vérification en fonction du type d’étude).
La plateforme donne également des formations sur les outils REDCap® et Gitlab ainsi que sur les bonnes pratiques de gestion des données.
Le CeRIS et la PF-DM proposent également des actions communes :
- mise en place d’une politique institutionnelle de gestion et partage des données et codes logiciels, qui résume les bonnes pratiques que l’Institut Pasteur demande ou recommande de mettre en œuvre tout au long du processus de recherche. Communication sur cette politique auprès des chercheurs et accompagnement à la mise en place des bonnes pratiques,
- organisation de « Rencontres Data » : conférences à destination des pasteuriens proposant des conseils pratiques sur la gestion de différents types de données : données de recherche clinique, codes et logiciels de recherche, etc.,
- recommandations pour la description des jeux de données dans le cahier de laboratoire électronique progressivement déployé à l’Institut Pasteur (solution eLabJournal),
- mise en place d’un projet visant à implémenter les principes FAIR dans le datalake de l’Institut Pasteur. Cette plateforme développée par la DSI est dédiée au partage sécurisé de « big data » multidisciplinaires entre scientifiques de l’Institut Pasteur et partenaires internationaux, pendant la recherche. L’objectif du projet TODAY (Turn Our DAta lake into a trusworthY repository) est d’ouvrir le datalake au partage de données en fin de projet avec la communauté scientifique et ainsi proposer aux scientifiques un entrepôt de confiance, conforme aux exigences des financeurs,
- mise en place d’un réseau de correspondants données dans les entités, afin de relayer les bonnes pratiques de gestion des données au sein de leur entité et de remonter les besoins d’accompagnement.
Comment est organisé l’accompagnement à la gestion des données dans votre établissement ?
Les chercheurs sollicitent le CeRIS ou la PF-DM via des adresses email dédiées. Les différences entre ces deux services ne sont généralement pas clairement distinguées par les chercheurs, ils sollicitent l’un ou l’autre en fonction des interlocuteurs avec lesquels ils ont interagi précédemment ou des informations qu’ils ont trouvées sur l’intranet. Les demandes peuvent ensuite être redistribuées entre ces services ou vers des services contributeurs :
- le délégué à la protection des données,
- la direction juridique (pôles données de santé et propriété intellectuelle),
- la direction des systèmes d’information (équipe dédiée à la mise en place du datalake OWEY, équipe dédiée à la mise en place du cahier de laboratoire électronique…),
- le service sécurité des systèmes d’information,
- le hub de bioinformatique,
- le centre de recherche translationnelle,
- la direction des applications de la recherche et des relations industrielles,
- …
Le grants office, en charge de l’accompagnement des chercheurs dans le montage et le suivi de leurs projets de recherche, peut également demander une assistance pour la rédaction de la partie sur la gestion des données dans les dossiers de financement.
La coordination clinique du centre de recherche translationnelle de l’Institut Pasteur informe la PF-DM des projets de recherche sur la personne humaine afin d’anticiper les besoins en data management et de proposer au responsable du projet un accompagnement adapté.
Le CeRIS et la PF-DM contactent directement certains chercheurs pour leur proposer un accompagnement :
- coordinateurs de projets (ANR, européens ou financement interne de l’Institut Pasteur), pour leur proposer une formation ou un accompagnement individuel au PGD,
- responsables d’entité, pour leur proposer un accompagnement à la mise en place d’un PGD d’entité.
Depuis juin 2021, l’Institut Pasteur est partenaire d’Université Paris Cité. Les équipes d’accompagnement à la gestion des données de l’Institut Pasteur et d’Université Paris Cité ont récemment entamé une collaboration afin de mutualiser leurs compétences et expertises.
Présentez une action particulièrement importante pour votre établissement d’accompagnement à la gestion des données.
Dans le cadre de son plan stratégique 2019-2023, l’Institut Pasteur a lancé en juin 2019 un projet visant à développer une politique fixant les lignes directrices en matière de gestion et partage des données et codes logiciels. Ce projet collaboratif et transversal a été mené par le CeRIS et la PF-DM et a fait intervenir de nombreux acteurs : un groupe de travail de 10 personnes (scientifiques et services supports), un comité de pilotage et un comité scientifique.
Le projet a débuté par une enquête menée auprès des scientifiques pasteuriens, afin de prendre en compte les pratiques et besoins recensés sur le campus pour élaborer des lignes directrices et conseils de bonnes pratiques. Cette enquête, complétée par des ateliers complémentaires, a montré que la majorité des pasteuriens se débrouillaient seuls pour la gestion de leurs données et le développement de leurs codes, scripts et logiciels. Elle a permis de clairement identifier le besoin de définir une politique pour améliorer les pratiques et intégrer les principes FAIR (Findable, Accessible, Interoperable, Reusable).
Le groupe de travail a ensuite rédigé une première version de la politique, en s’appuyant sur des entretiens réalisés avec les directions support. Il a également préparé une série de 20 fiches pratiques pour accompagner la politique et donner aux scientifiques des conseils pratiques pour mettre en œuvre les bonnes pratiques listées dans la politique.
Enfin, une dernière étape a consisté à recueillir l’avis de 10 responsables de projet sur la politique et les fiches pratiques associées. Cette étape avait pour objectif de s’assurer que la politique était réaliste et adaptée aux besoins et aux pratiques des scientifiques de l’Institut Pasteur. Le groupe de travail a fait évoluer les fiches pratiques et la politique en fonction des retours des chefs de projet.
La version finalisée de la politique a été validée par le comité de pilotage du projet en avril 2021 et publiée sur le site web de l’Institut Pasteur depuis mai 2021.
Afin d’accélérer la mise en place des bonnes pratiques de gestion des données, il a été décidé en comité de pilotage d’accompagner cette politique de nouvelles exigences concernant les PGD. D’une part, les coordinateurs de projets financés par l’Institut Pasteur devront désormais mettre en place un PGD et d’autre part, les responsables d’entités devront mettre en place un PGD d’entité en amont de l’évaluation quinquennale de leur entité.