Sciences Po Paris
Février 2025
Article mis à jour le 24 février 2025
Votre établissement
Sciences Po Paris est une institution de droit privé de type fondation financée par l’Etat, le mécénat et sur ressources propres. La Direction Scientifique (DS) est chargée entre autres de l’accompagnement dans la recherche de financement de projets de recherche et du suivi bibliométrique. S’y rattachent 11 laboratoires, parfois rattachés au CNRS, 2 programmes transversaux à forte dimension inter-établissements (avec Université Paris Cité par exemple) et 2 nouveaux instituts sur les « transformations » (digitales, environnementales). Un de ces laboratoires, le Centre de données socio-politiques (CDSP), est en même temps un service transversal à vocation nationale, du fait de son statut d’UAR (Unité d’Appui à la Recherche). La Direction des Ressources et de l’Information Scientifique (DRIS), qui allie archives et bibliothèque, fournit un accompagnement via 5 pôles différents offrant de nombreux services : aide à la publication scientifique (y compris thèse), archivage numérique des documents numérisés, aide à la recherche d’archives et à l’archivage, gestion des données de la recherche, navette chercheurs, aide à la recherche documentaire, science ouverte. D’autres acteurs importants dans le domaine de la science ouverte sont associés en fonction des sujets : DPD, référents intégrité, DSI, etc.
Bien que des programmes transdisciplinaires se montent en particulier avec l’Université Paris Cité, la recherche en sciences humaines et sociales reste prépondérante, notamment l’économie, la sociologie, le droit, l’histoire, le numérique et la science politique. Cela implique des questionnements récurrents autour des données personnelles : le RGPD (il s’agirait de tout fermer) et la Loi Lemaire pour une République numérique (tout ouvrir) parfois perçus comme antinomiques ; ou encore le risque de voir se multiplier les autocensures sur les sujets de recherche pour éviter des formalités perçues comme trop complexes. Le présent retour d’expérience s’axera sur les sujets desquels la DRIS est partie prenante ou auxquels elle est associée.
Depuis quand votre service accompagne la gestion des données ? Comment s’est constitué votre service ?
Le CDSP assure la curation et la diffusion de données quantitatives dès 2006 à travers les entrepôts NESTAR et Quetelet. A partir de 2013, le Centre élargit son spectre aux enquêtes qualitatives via l’outil beQuali. VIZLAB a servi à la diffusion de données d’élections françaises, aujourd’hui prise en charge par le portail data.gouv. A la même époque, le CDSP crée un entrepôt dédié au projet ArchiPolis, consortium de laboratoires de Sciences Po et des universités de Lille, Grenoble, Lyon, Bordeaux… financé par Huma-Num. Il diffuse des notices d’enquêtes qualitatives en utilisant le logiciel libre Dataverse et le schéma de métadonnées Data Documentation Initiative (DDI). Ce projet a servi de prototype au projet d’entrepôt institutionnel, datasciencespo. Le Centre ajoute à ses activités celles de Plateforme Universitaire des données à partir de 2018. L’entrepôt data.sciencespo est moissonné dans recherche.data.gouv. Il fait partie d’un annuaire d’entrepôts en SHS établi par DoRANum et Huma-Num. Comme membre de l’Alliance DDI et en collaboration étroite avec CoData, le CDSP conçoit des formations sur les standards de métadonnées et les plateformes de diffusion. En parallèle, à la DRIS, un modèle de plan de gestion des données (PGD) institutionnel est rédigé et intégré sur DMP OPIDoR. Un petit groupe de bibliothécaires est formé afin de jeter les bases d’une palette de services aux chercheurs et un guide d’information et de ressources est publié sur le site de la bibliothèque. Une formation est proposée aux doctorants et une session de sensibilisation aux chercheurs.
Comment accompagnez-vous les chercheurs ?
Quelques définitions si besoin en préambule.
Depuis 2020, l’accompagnement à la DRIS prend différentes formes. Côté Plan de gestion de données, deux modus operandi sont proposés :
- échange de 2/3h en amont puis corédaction, relecture par le data librarian et itérations avec les équipes de recherche ;
- data interviews des équipes de recherche par le data librarian puis rédaction par le data librarian et relecture par le chercheur.
Certains PGD concernent les contrats doctoraux et les masters, curieux de se former à l’exercice dans la perspective d’une carrière dans la recherche. Le modèle institutionnel sur lequel s’appuie la prise en charge des projets s’enrichit au fil des demandes. Il sert de document de référence y compris dans les laboratoires devenus totalement autonomes sur la rédaction des PGD. L’accompagnement PGD se traduit parfois par le dépôt d’une partie des données produites. Un modèle de Software Management Plan (SMP) a été rédigé. L’accompagnement se prolonge par la fourniture d’exemples de PGD rédigés selon les besoins du projet. Les outils avancés pour le dépôt de ces exemples de PGD sont HAL, DMP OPIDoR ou les entrepôts de données pour faciliter la phase de dépôt et de documentation des données. Un benchmark a été rédigé.
Côté dépôt de données, les jeux de données en accès sur demande génèrent en moyenne une dizaine de demandes d’accès par an. Une exception : le Baromètre de la confiance politique, avec 1126 demandes en 1 an. Des projets de dépôts rétroactifs sont pris en charge, y compris sur des projets à forte volumétrie, sensibilité et valeur documentaire voire historique. Cela suppose un travail de fonds de sélection, d’arborescence et de documentation qui prend plusieurs mois, voire plusieurs années. Ces dépôts sont souvent hybrides : données nativement numériques, archives papier, archives numérisées. Ils occasionnent un cadrage juridique et technique plus important de l’accès sur demande, absolument nécessaire pour les données en SHS. Un workflow de ce type de dépôt est en cours d’élaboration. Des titulaires de masters déposent les données d’appui de leur mémoire.
L’accompagnement au dépôt est aussi l’occasion de faire le point sur les techniques de référencement des jeux de données dans les moteurs de recherche :
- Travailler sur les liens entre les publications et les données en orchestrant un dépôt croisé publications et données ;
- Multiplier les liens rebonds entre archives, site web du chercheur, sites web des projets s’ils existent encore, profils sur les réseaux sociaux ;
- Observer ce qui remonte dans les résultats de recherche et mettre un lien vers les données dans les sites bien classés ;
- Créer une page wiki personnelle pour le chercheur et citer les jeux de données dans les bibliographies d’articles Wikipédia reliés au sujet ;
- Rédiger des data papers ;
- Renvoyer à d’autres jeux de données de la même enquête ou d’autres enquêtes aux sujets connexes ;
- Remplir les champs mots-clés avec le vocabulaire le plus pertinent ;
- Créer plusieurs jeux de données intellectuellement cohérents plutôt que de diffuser ensemble de nombreux fichiers hétérogènes ;
- Utiliser un lien pérenne unique avec un identifiant unique (DOI par exemple). Les paragraphes, les titres et intertitres, les listes à puces, la mise en gras des mots importants aident les moteurs de recherche à déterminer si la page est pertinente sur une expression donnée ;
- Le dépôt multilingue favorise la prise en compte par les moteurs de recherche de différents pays ;
- Mettre à jour régulièrement les jeux de données qui s’y prêtent (ex. : études longitudinales) pour un meilleur signalement dans les moteurs de recherche.
D’autres modes de valorisation existent : un jeu de données de Sciences Po a fait l’objet d’une valorisation sur le portail Recherche Data Gouv. Un autre a fait l’objet d’un article sur le site “Ouvrir la science”, rubrique “Les belles histoires. Comment la science ouverte contribue à la connaissance et à sa diffusion”. Deux chercheuses déposantes, chevronnée ou jeune docteure, ont été lauréates du Prix Science Ouverte/données de la recherche du ministère en 2022 et 2023. Le jeu de données le plus téléchargé (27 000 téléchargements) est cité dans un article de Nature.
Doctorants, masters, chercheurs et professionnels ont été formés à la gestion des données : cycle de formation doctorale et masters ; interventions dans les laboratoires ; tutorats sur la gestion des données ; webinaires… La nécessité d’internationaliser l’auditoire a été prise en compte grâce à l’offre de webinaires “use cases”, organisée dans le cadre de l’alliance européenne Civica.
Côté data paper, un travail de recherche sur les politiques éditoriales de revues dans lesquelles les chercheurs de Sciences Po publient est effectué : politique de partage des données, h-index, présence de chercheurs de Sciences Po dans les comités de lecture. En parallèle, une grille de critères d’échantillonnage et d’extraction de corpus est établie permettant d’établir si une revue publie ou non des data papers, souvent présentés sous un autre nom : research note, article de méthodologie…
Le travail a nourri la réflexion sur les pré-requis d’un data journal en SHS, créé depuis par le CDSP. Un mémo à destination des chercheurs souhaitant rédiger un data paper a ainsi été rédigé. L’accompagnement au PGD est l’occasion systématique de sensibiliser aux data papers. Depuis, la DRIS a intégré le comité de rédaction de la revue Data & Corpus de l’université de Lorraine.
Côté guides en ligne, en 2022, le guide fait l’objet d’une refonte visant à proposer des options de lecture en fonction du niveau d’information souhaité, du temps à disposition et des appétences (chiffres, fictions, images, sons…). Un kit de survie propose des check lists à consulter à chaque étape du projet. 150 retours de chercheurs, étudiants et professionnels ont permis d’améliorer l’outil. En outre, le retour d’économistes a permis de cerner les usages très spécifiques de la discipline : logiciels de traitement particuliers, rejet des entrepôts institutionnels, perçus comme peu pérennes et peu connus hors de leur établissement d’origine.
Côté événements, en 2020 et 2021, la DRIS intervient dans le cadre de semaines Data SHS organisées par le CDSP et Université Paris Cité.
En 2022, sous l’égide de l’Open Access Month, des interviews de chercheurs sont tournées soulevant les problématiques suivantes : comment répondre à l’obligation d’ouverture des revues imposée en économie quand on a utilisé des données achetées ? ; comment un chercheur développe lui-même un logiciel open source de fouille et visualisation de données pour répondre à son objectif de recherche très spécifique ?
En 2023, le programme de l’Open Access Month s’étoffe : projection-débat, ateliers wiki, ateliers HAL et ateliers Jeux, BD, sketchnotes. Ces derniers ont été reconduits pour les Love Data Week et Open Access Month suivants sous la forme d’une tournée des laboratoires de Sciences Po. L’organisation de ces événements a permis de renforcer les liens avec l’Urfist de Paris et de discuter sur les sujets de fond comme sur les méthodes (vulgarisation scientifique).
La fonction de data librarian telle qu’on peut la comprendre dans les pays anglo-saxons (recherche de données) est donc bien différente à Sciences Po sauf à travers un guichet de réponses à distance « data.bib » qui concernent dans les faits plutôt la santé, l’environnement et les données statistiques.
Comment est organisé l’accompagnement à la gestion des données dans votre établissement ?
La publication d’une charte de la science ouverte en juin 2021 et la remise d’un rapport sur la politique des données de la recherche sont les premier jalons d’une politique de la donnée institutionnelle. Elle s’inscrit également dans un engagement dans plusieurs infrastructures de recherche : Collex-Persée dont la bibliothèque de Sciences Po est membre délégataire et dont l’objectif est de faciliter l’accès et de favoriser l’usage de collections hybrides au service du chercheur ; Progedo, IR* Humanum, dont le CDSP est un partenaire historique.
En 2022, le projet ADD (Ateliers de la Donnée en SHS) est déposé. En réponse, Sciences Po a reçu une labellisation conforme à son projet de services à destination de sa communauté et devient centre de référence établissement dans l’écosystème Recherche Data Gouv.
Lancée en 2021 par la DRIS, la Data team compte des représentants et représentantes de tous les laboratoires de Sciences Po et de la DRIS. Les métiers sont variés : chercheuse et chercheur, directeur d’unité, archiviste, documentaliste, statisticien, développeur, data manager, webmaster, cartographe, secrétaire générale, data librarian, data protection officer. Ses objectifs incluent :
- La montée en compétences des laboratoires,
- Des formations ciblées sur les besoins,
- La co-construction du programme,
- La fédération d’un réseau de référents qui essaiment au sein de leur laboratoire respectif,
- La valorisation des expertises au sein de Sciences Po.
Parmi les actions menées :
- Résolution collective de problèmes rencontrés sur le terrain,
- Formations des uns par les autres,
- Intervention des experts invités sur les sujets suivants : montage et financement de projets de recherche, données personnelles, stockage, diffusion, archivage, anonymisation…etc.
D’autres instances trans-laboratoires de Sciences Po sur les données sont très actives : le METAt, le MetSem et le projet ResIn.
Pour avancer sur le terrain organisationnel, des préconisations en matière de politique des données ont été formulées à la DRIS :
1/ améliorer notre connaissance commune du terrain : PGD d’entité, tournée des métiers ;
2/ s’organiser en interne : outil commun de suivi des projets, chercheurs-relais, urbanisation des outils ;
3/ construire des partenariats et proposer des projets concrets : formation de chercheurs-formateurs, réseau de contacts inter-établissements sur des sujets de pointe, fonds de soutien pour les doctorants (prise en charge de l’accès aux données CASD par exemple).
Présentez une action particulièrement importante pour votre établissement d’accompagnement à la gestion des données.
La page d’accueil de data.sciencespo compte une collection CDSP et une collection Sciences Po. Un projet de réorganisation a été lancé en décembre 2023, impulsé par la DRIS. Cette réorganisation est nécessaire car les risques de la double-entrée sont nombreux. Un phasage a été réalisé en collaboration :
1/ proposer une page d’accueil qui mette en avant les services fournis aux déposants ; signaler une adresse unique de contact ; afficher un bouton unique pour “explorer” (trouver des données) et “déposer” des données ;
2/ nommer une équipe d’administrateurs trans-services ayant la main sur l’ensemble de l’entrepôt ;
3/ prévoir à terme un chantier d’harmonisation et de contrôle qualité des dépôts en profitant de l’expertise acquise par le CDSP dans le processus de certification de sa collection ;
4/ mettre en place des outils de suivi commun, rédiger un rapport annuel commun de l’entrepôt, pour que l’information circule de manière équitable entre tous les acteurs. Donner un accès commun au module de suivi des statistiques de l’entrepôt.