La Direction des ressources et de l’information scientifique (DRIS) de Sciences Po Paris

| mise à jour le 13/05/2025

Février 2025

Article mis à jour le 13 mai 2025

Votre établissement

Sciences Po Paris est une institution de droit privé de type fondation financée par l’Etat, le mécénat et sur ressources propres. La Direction Scientifique (DS) est chargée entre autres de l’accompagnement dans la recherche de financement de projets de recherche et du suivi bibliométrique. S’y rattachent 11 laboratoires, parfois également rattachés au CNRS, 2 programmes transversaux à forte dimension inter-établissements (avec Université Paris Cité par exemple) et 2 nouveaux instituts sur les « transformations » (digitales, environnementales). Parmi ces laboratoires, le Centre de données socio-politiques (CDSP), est une Unité d’Appui et de Recherche (UAR) de Sciences Po et du CNRS et propose une palette d’infrastructures et services à vocation nationale et internationale autour des données en sciences sociales. La Direction des Ressources et de l’Information Scientifique (DRIS), qui allie archives et bibliothèque, fournit un accompagnement diversifié : aide à la publication scientifique (y compris thèse), archivage numérique des documents numérisés, aide à la recherche d’archive et à l’archivage, appui à la gestion des données de la recherche, acheminement des documents directement dans les laboratoires, aide à la recherche documentaire, appui à la science ouverte. D’autres acteurs importants dans le domaine de la science ouverte sont associés en fonction des sujets : DPD, référents intégrité, DSI, etc.

Bien que des programmes transdisciplinaires se montent en particulier avec l’Université Paris Cité, la recherche en sciences humaines et sociales reste prépondérante, notamment l’économie, la sociologie, le droit, l’histoire, le numérique et la science politique. Cela implique des questionnements récurrents autour des données personnelles : le RGPD (il s’agirait de tout fermer) et la Loi Lemaire pour une République numérique (tout ouvrir) parfois perçus comme antinomiques ; ou encore le risque de voir se multiplier les autocensures sur les sujets de recherche pour éviter des formalités perçues comme trop complexes. Le présent retour d’expérience s’axera sur les sujets desquels la DRIS est partie prenante ou auxquels elle est associée.

Depuis quand votre service accompagne la gestion des données ? Comment s’est constitué votre service ?

L’accompagnement à la gestion des données de recherche à la DRIS s’amorce en 2015. Un modèle de plan de gestion des données (PGD) institutionnel est rédigé en collaboration avec le CDSP et intégré sur DMP OPIDoR. Un petit groupe de bibliothécaires est formé afin de jeter les bases d’une palette de services aux chercheurs et un guide d’information et de ressources est publié sur le site de la bibliothèque. Une formation est proposée aux doctorants en collaboration avec le CDSP et une session de sensibilisation aux chercheurs. Plus d’informations sur la genèse du projet dans le document suivant : Elise Chapoy, Laurent Lesnard, Odile Gaultier-Voituriez, Emilie Groshens, Cynthia Pedroja, et al.. Sciences Po. Une histoire de données. [Rapport de recherche] Sciences Po. 2020, pp.91. ⟨hal-03612928⟩.

Comment accompagnez-vous les chercheurs ?

Quelques définitions si besoin en préambule.

Depuis 2020, l’appui à la gestion des données de recherche à la DRIS prend différentes formes. Côté Plan de gestion de données, deux modus operandi sont proposés :

● échange de 2/3h en amont puis corédaction, relecture par le data librarian et itérations avec les équipes de recherche ;

● data interviews des équipes de recherche par le data librarian puis rédaction par le data librarian et relecture par le chercheur.

Certains PGD concernent les contrats doctoraux et les masters, curieux de se former à l’exercice dans la perspective d’une carrière dans la recherche. Le modèle institutionnel sur lequel s’appuie la prise en charge des projets s’enrichit au fil des demandes. Il sert de document de référence y compris dans les laboratoires devenus totalement autonomes sur la rédaction des PGD. L’accompagnement PGD se traduit parfois par le dépôt d’une partie des données produites. Un modèle de Software Management Plan (SMP) a été rédigé. L’accompagnement se prolonge par la fourniture d’exemples de PGD rédigés selon les besoins du projet. Les outils avancés pour le dépôt de ces exemples de PGD sont HAL, DMP OPIDoR ou les entrepôts de données pour faciliter la phase de dépôt et de documentation des données. Un benchmark a été rédigé.

Côté dépôt de données, l’entrepôt de données data.sciencespo est fondé sur le logiciel libre Dataverse et le schéma de métadonnées Data Documentation Initiative (DDI). Il se compose de deux collections : une collection CDSP, catalogue d’enquêtes en sciences humaines et sociales, certifié CoreTrustSeal, dont la curation est réalisée par les ingénieurs du CDSP, et une collection Sciences Po, catalogue de données, fondé sur le principe de l’auto-dépôt, géré et accompagné par la DRIS en lien avec les unités de recherche de Sciences Po.

Concernant la collection Sciences Po, les jeux de données en accès sur demande génèrent en moyenne une dizaine de demandes d’accès par an. Une exception : le Baromètre de la confiance politique, avec 1126 demandes en 1 an. Des projets de dépôts rétroactifs sont pris en charge, y compris sur des projets à forte volumétrie, sensibilité et valeur documentaire voire historique. Cela suppose un travail de fonds de sélection, d’arborescence et de documentation qui prend plusieurs mois, voire plusieurs années. Ces dépôts sont souvent hybrides : données nativement numériques, archives papier, archives numérisées. Ils occasionnent un cadrage juridique et technique plus important de l’accès sur demande, absolument nécessaire pour les données en SHS. Un workflow de ce type de dépôt est en cours d’élaboration. Des titulaires de masters déposent les données d’appui de leur mémoire.

L’accompagnement au dépôt est aussi l’occasion de faire le point sur les techniques de référencement des jeux de données dans les moteurs de recherche :

● Travailler sur les liens entre les publications et les données en orchestrant un dépôt croisé publications et données ;

● Multiplier les liens rebonds entre archives, site web du chercheur, sites web des projets s’ils existent encore, profils sur les réseaux sociaux ;

● Observer ce qui remonte dans les résultats de recherche et mettre un lien vers les données dans les sites bien classés ;

● Créer une page wiki personnelle pour le chercheur et citer les jeux de données dans les bibliographies d’articles Wikipédia reliés au sujet ;

● Rédiger des data papers ;

● Renvoyer à d’autres jeux de données de la même enquête ou d’autres enquêtes aux sujets connexes ;

● Remplir les champs mots-clés avec le vocabulaire le plus pertinent ;

● Créer plusieurs jeux de données intellectuellement cohérents plutôt que de diffuser ensemble de nombreux fichiers hétérogènes ;

● Utiliser un lien pérenne unique avec un identifiant unique (DOI par exemple). Les paragraphes, les titres et intertitres, les listes à puces, la mise en gras des mots importants aident les moteurs de recherche à déterminer si la page est pertinente sur une expression donnée ;

● Le dépôt multilingue favorise la prise en compte par les moteurs de recherche de différents pays ;

● Mettre à jour régulièrement les jeux de données qui s’y prêtent (ex. : études longitudinales) pour un meilleur signalement dans les moteurs de recherche.

D’autres modes de valorisation existent : un jeu de données de Sciences Po a fait l’objet d’une valorisation sur le portail Recherche Data Gouv. Un autre a fait l’objet d’un article sur le site “Ouvrir la science”, rubrique “Les belles histoires. Comment la science ouverte contribue à la connaissance et à sa diffusion”. Deux chercheuses déposantes, chevronnée ou jeune docteure, ont été lauréates du Prix Science Ouverte/données de la recherche du ministère en 2022 et 2023. L’entrepôt data.sciencespo est moissonné dans recherche.data.gouv. Il fait partie d’un annuaire d’entrepôts en SHS établi par DoRANum et Huma-Num. Le jeu de données le plus téléchargé compte 27 000 téléchargements.

Parallèlement, l’organisation d’un data sprint piloté par le médialab de Sciences Po avec la BnF et l’Université de Lille a permis d’aller plus loin en pratiquant la constitution, la visualisation et la documentation de corpus numériques issus du web vivant et des archives du web, au plus près des besoins des chercheurs.

Doctorants, masters, chercheurs et professionnels ont été formés à la gestion des données : cycle de formation doctorale et masters ; interventions dans les laboratoires ; tutorats sur la gestion des données ; webinaires… La nécessité d’internationaliser l’auditoire a été prise en compte grâce à l’offre de webinaires “use cases”, organisée dans le cadre de l’alliance européenne Civica.

Côté data paper, un travail de recherche sur les politiques éditoriales de revues dans lesquelles les chercheurs de Sciences Po publient est effectué par 3 laboratoires de Sciences Po (CDSP, CSO, CEE) et la DRIS : politique de partage des données, h-index, présence de chercheurs de Sciences Po dans les comités de lecture. En parallèle, une grille de critères d’échantillonnage et d’extraction de corpus est établie permettant d’établir si une revue publie ou non des data papers, souvent présentés sous un autre nom : research note, article de méthodologie… Le travail a nourri la réflexion sur les pré-requis d’un data journal en SHS, DEMC (Données, Expériences, Méthodes, Codes), créé depuis par le CDSP. Un mémo à destination des chercheurs souhaitant rédiger un data paper a ainsi été rédigé par le CDSP, le CEE et la DRIS. L’accompagnement au PGD est l’occasion systématique de sensibiliser aux data papers. Depuis, la DRIS a intégré le comité de rédaction de la revue Data & Corpus de l’université de Lorraine.

Côté guides en ligne, en 2022, le guide fait l’objet d’une refonte visant à proposer des options de lecture en fonction du niveau d’information souhaité, du temps à disposition et des appétences (chiffres, fictions, images, sons…). Un kit de survie propose des check lists à consulter à chaque étape du projet. 150 retours de chercheurs, étudiants et professionnels ont permis d’améliorer l’outil. En outre, le retour d’économistes a permis de cerner les usages très spécifiques de la discipline : logiciels de traitement particuliers, rejet des entrepôts institutionnels, perçus comme peu pérennes et peu connus hors de leur établissement d’origine.

Côté événements, en 2020 et 2021, la DRIS intervient dans le cadre de semaines Data SHS organisées par le CDSP et Université Paris Cité.

En 2022, sous l’égide de l’Open Access Month, des interviews de chercheurs sont tournées soulevant les problématiques suivantes : comment répondre à l’obligation d’ouverture des revues imposée en économie quand on a utilisé des données achetées ? ; comment un chercheur développe lui-même un logiciel open source de fouille et visualisation de données pour répondre à son objectif de recherche très spécifique ?

En 2023, le programme de l’Open Access Month s’étoffe : projection-débat, ateliers wiki, ateliers HAL et ateliers Jeux, BD, sketchnotes. Ces derniers ont été reconduits pour les Love Data Week et Open Access Month suivants sous la forme d’une tournée des laboratoires de Sciences Po. L’organisation de ces événements a permis de renforcer les liens avec l’Urfist de Paris et de discuter sur les sujets de fond comme sur les méthodes (vulgarisation scientifique).

La fonction de data librarian telle qu’on peut la comprendre dans les pays anglo-saxons (recherche de données) est donc bien différente à Sciences Po sauf à travers un guichet de réponses à distance « data.bib » qui concernent dans les faits plutôt la santé, l’environnement et les données statistiques.« data.bib » qui concernent dans les faits plutôt la santé, l’environnement et les données statistiques.

Comment est organisé l’accompagnement à la gestion des données dans votre établissement ?

La publication d’une charte de la science ouverte en juin 2021 et la remise d’un rapport sur la politique des données de la recherche sont les premier jalons d’une politique de la donnée institutionnelle. Elle s’inscrit également dans un engagement dans plusieurs infrastructures de recherche : Collex-Persée dont la bibliothèque de Sciences Po est membre délégataire et dont l’objectif est de faciliter l’accès et de favoriser l’usage de collections hybrides au service du chercheur ; Progedo, IR* Humanum, dont le CDSP est un partenaire historique.

En 2022, le projet ADD (Ateliers de la Donnée en SHS) est déposé. En réponse, Sciences Po a reçu une labellisation conforme à son projet de services à destination de sa communauté et devient centre de référence établissement dans l’écosystème Recherche Data Gouv.

Lancée en 2021 par la DRIS, la Data team compte des représentants et représentantes de tous les laboratoires de Sciences Po et de la DRIS. Les métiers sont variés : chercheuse et chercheur, directeur d’unité, archiviste, documentaliste, statisticien, développeur, data manager, webmaster, cartographe, secrétaire générale, data librarian, data protection officer. Ses objectifs incluent :

● La montée en compétences des laboratoires,

● Des formations ciblées sur les besoins,

● La co-construction du programme,

● La fédération d’un réseau de référents qui essaiment au sein de leur laboratoire respectif,

● La valorisation des expertises au sein de Sciences Po.

Parmi les actions menées :

● Résolution collective de problèmes rencontrés sur le terrain,

● Formations des uns par les autres,

● Intervention des experts invités sur les sujets suivants : montage et financement de projets de recherche, données personnelles, stockage, diffusion, archivage, anonymisation…etc.

D’autres instances trans-laboratoires de Sciences Po sur les données sont très actives : le METAt, le MetSem et le projet ResIn – pilotés par le médialab de Sciences Po.

Pour avancer sur le terrain organisationnel, des préconisations en matière de politique des données ont été formulées à la DRIS :
1/ améliorer notre connaissance commune du terrain : PGD d’entité, tournée des métiers ;
2/ s’organiser en interne : outil commun de suivi des projets, chercheurs-relais, urbanisation des outils ;
3/ construire des partenariats et proposer des projets concrets : formation de chercheurs-formateurs, réseau de contacts inter-établissements sur des sujets de pointe, fonds de soutien pour les doctorants (prise en charge de l’accès aux données CASD par exemple).