Cartographie de la recherche sur la Ville de Paris

Comment rendre visible le réseau de chercheur·es travaillant sur la transition écologique de la ville de Paris ?

A la demande de la Direction de la Transition Écologique et du Climat (DTEC) de la Ville de Paris, l’équipe du SIVDBI a réalisé CartoDoc, un logiciel permettant de construire automatiquement et de visualiser le réseau de chercheur·es travaillantsurla transition écologique de la ville de Paris. 


­­

Chaque année, la Ville de Paris finance des doctorats CIFRE portant notamment sur la transition écologique et le climat de la ville. A ce jour, 35 doctorats ont ainsi été financés, mobilisant un réseau croissant de laboratoires et de chercheur·es partenaires.

Cartographier ce réseau permettrait d’avoir un aperçu du travail effectué sur les différentes thématiques, de pouvoir identifierl’ensemble des chercheur·es ayant développé une expertise sur la ville de Paris et de retracer l’évolution académique des doctorant·es financé·es.

Or, les travaux académiques sont généralement archivés et accessibles sur HAL – l’archive nationale permettant à la communauté scientifique française la diffusion ouverte de ses résultats de recherche. Chaque document déposé dans HAL est accompagné de métadonnées donnant le contexte de sa publication : auteur·ices, structures d’appartenance, date de publication, disciplines etc. Autant de données qui pourraient être utilisées pour documenter le réseau académique travaillant sur la transition écologique de la ville de Paris.

Cette ambition se heurte cependant à plusieurs problématiques techniques. Il faut d’abord pouvoir identifier les travaux des doctorant·es financé·es par la ville de Paris parmi le million de documents présents dans l’archive, puis synthétiser et rendre lisible les nombreuses métadonnées collectées.

Le SIVDBI a donc développé un programme simple pour répondre à ces défis. A partir de la liste des doctorant·es CIFRE financé·es depuis 2009 fournie par la DTEC, le prototype créé, baptisé CartoDoc, extrait automatiquement les métadonnées liées à toutes leurs publications enregistrées dans HAL (articles, thèse, communications dans des conférences ou congrès, chapitre de livre …). CartoDoc les enrichit ensuite avec les données disponibles sur une deuxième base de données de référence, theses.fr, qui recense l’ensemble des thèses de doctorat soutenues en France depuis 1985.

CartoDoc génère enfin une visualisation du réseau des chercheur·es identifié·es : les doctorant·es, leurs encadrant·es et leurs co-auteur·ices. Des informations complémentaires, comme les disciplines d’étude, les laboratoires impliqués ou l’historique de publication sont également affichés pour chaque auteur·ices.

Accessible librement sur le Gitlab de l’Université Gustave Eiffel, CartoDoc est composé de plusieurs scripts Python qui permettent le requêtage des bases de données de HAL et theses.fr, le nettoyage des données collectées, et la création de la visualisation. Pour cette dernière, nous avons utilisé des outils Open Source développés par le Médialab de Sciences Po : Ipisygma, un widget Jupyter, utilisant lui-même deux librairies JavaScript (Sigma.js et graphology) permettant la visualisation de réseaux interactifs dans un navigateur.
 

 

1Guillaume Plique. (2022). ipysigma, A Jupyter widget using sigma.js to render interactive networks. Zenodo. https://doi.org/10.5281/zenodo.7446059

Notice d'utilisation

La mise en page du réseau se lance automatiquement et prend quelques secondes. L’ensemble des boutons à gauche permettent ensuite de modifier l’affichage. Ensuite, cliquez sur le bouton « spread nodes » (en haut à gauche) pour rendre le réseau plus lisible, puis sur "Pause" quand l'affichage vous convient.

Chaque auteur·ice est représenté par un nœud, avec les propriétés suivantes :

  • Taille du nœud : nombre de publications
  • Couleur du nœud : discipline générale de l’auteur·ice
  • Halo : le halo jaune indique les doctorant·es actuellement ou anciennement en CIFRE avec la Ville de Paris
  • Liens avec les autres nœuds : Les auteur·ices ayant publiés ensemble au moins une fois seront liés
    • La taille du lien représente le nombre de publications communes.
    • La couleur du lien représente la nature de la coopération entre auteur·ices :
      • Gris : coauteur·ices
      • Rouge : direction de thèse

La légende se trouve à la droite de l’écran. Par défaut, elle indique le code couleur des disciplines, ainsi la signification des différents éléments graphiques.

La légende nous permet également de
1 - chercher un·e auteur·ices par son nom

2 - filtrer les auteur·ices selon leur discipline générale.

 

En cliquant sur un nœud, on affiche en légende les informations (attributes) liées à l’auteur·ice correspondant :

  • Nombre de coauteur : nombre de coauteur·ices*
  • Nombre de publications : nombre de publications*
  • Nombre de publications total : estimation du nombre de publication total sur toute la carrière de l’auteur·ices. Pertinent pour les auteur·ices qui ne sont pas les doctorant·es CIFRE.
  • Discipline générale : la discipline générale à laquelle est rattachée le plus de publications*
  • Disciplines : liste des 3 disciplines les plus fréquemment renseignées*
  • Institution :institution(s) de rattachement renseignée(s) à la dernière publication*
  • Laboratoire :laboratoire(s) de rattachement renseigné(s) à la dernière publication*
  • Dernière publication en : L’année de dernière publication*
  • A publié pendant : nombre d’années écoulées entre la première et la dernière publications *
  • Titre de la Thèse : uniquement pour les doctorant·es CIFRE, le titre de leur thèse.
  • Dernières publications : liste des titres des 3 dernières publications*
  • Mots-clés : Les mots-clés le plus souvent renseignés dans leurs publications*. Pour chaque auteur, nous avons conservé les 15 mots-clés les plus fréquemment retrouvés dans les métadonnées des publications.
  • is_paris_cifre_value : Peu lisible, sert uniquement à construire le halo indiquant si l’auteur est un doctorant·es CIFRE actuel ou passé.

*en considérant uniquement les publications communes avec les doctorant·es CIFRE.

Les informations présentées par CartoDoc ont été établies à partir du corpus de publications des doctorant·es CIFRE. Exclusion faite ces derniers, les informations présentées ne concernent donc pas l’ensemble de la carrière des auteur·ices, mais uniquement leur activité commune à celle des doctorant·es CIFRELa seule information concernant l’activité de recherche totale des auteur·ices qui ne sont pas doctorant·es CIFRE est le Nombre de publications total.

Certains doctorant·es n’ont pas encore publié et ne sont donc pas dans HAL ; nous les avons fait figurer tout de même avec leur directeur·ice de thèse. Dans ce cas, les informations affichées sont celles disponibles sur le site theses.fr, y compris pour leur directeur·ice de thèse si absent·e de la liste des coauteurs·ices.

Enfin, comme il n’y a pas de moyen direct d’identifier les auteur·ices à coup sûr dans HAL (homonymes véritables ou accidentels), certaines informations affichées peuvent être erronées.