← retour

INNOVATION

ÉTUDE

Open Data et Protection Sociale : l'impossible union ?

Aujourd’hui, le changement de paradigme induit principalement par la révolution numérique suscite l’émergence de nouveaux domaines au nombre desquels figure l’Open Data. Plusieurs organisations se sont développées en ce sens au cours des dernières années dans le but d’accompagner l’ouverture des données au grand public telles que l’Open Data Foundation, l’Open Knowledge Foundation ou encore l’Open Content Project.

/Qu’est-ce que l’Open Data ?

Le terme Open Data (en français : données ouvertes) désigne l’ensemble des données dont l’accès est public et raisonnablement libre de droit mais également d’exploitation et de réutilisation. L’ouverture des données fait émerger de nouvelles opportunités de création de valeur, qu’il s’agisse d’étendre le savoir humain ou de développer de nouveaux produits et services de qualité.

Pour que des données puissent être qualifiées d’ouvertes, l’Open Knowledge Foundation[1] définit trois critères nécessaires :

  1. La disponibilité : les données doivent être disponibles dans leur ensemble et accessibles pour un coût raisonnable de reproduction ;
  2. La réutilisation et redistribution : les données doivent être accessibles sous une licence qui permet leur réutilisation et leur redistribution, en particulier pour pouvoir les croiser avec d’autres ensembles de données ;
  3. La participation universelle : l’accès aux données doit être ouvert à toute personne sans discrimination (d’activité, de groupe, d’appartenance) pour permettre à tous de contribuer à l’exploitation des données.

Ces trois critères doivent permettre l’interopérabilité des données désignant la capacité d’exploiter des agrégats de différents ensembles de données. L’interopérabilité est considérée comme le noyau de l’Open Data. Elle doit permettre d’opérer et de faire communiquer des modules venant de systèmes et d’organisations différentes pour construire des systèmes plus complexes impliquant des acteurs de natures différentes.

/Principe du Gouvernement Ouvert

Dans l’optique d’encourager le développement de l’Open Data, la structure de gouvernement ouvert a été développée et formalisée en Septembre 2011 en marge de l’assemblée des Nations Unies avec la création par huit états membres[2] (Brésil, Indonésie, Mexique, Norvège, Philippines, Afrique du Sud, États-Unis et Royaume-Uni) de l’Open Government Partnership[3]. Cette structure doit permettre d’ouvrir sans restriction légale, financière ou technologique les données collectées par les services publics à l’ensemble des organisations et des citoyens. Ce modèle repose sur l’application par le gouvernement de trois principes pour créer un écosystème de données encourageant l’ouverture et l’innovation. En premier lieu, il doit respecter une exigence de transparence et montrer l’exemple en ouvrant l’accès aux données publiques et en mettant à disposition de ses citoyens des outils de visualisation et de suivi des politiques publiques. Il doit ensuite encourager la collaboration et la création de partenariats, en facilitant les rencontres entre les différents acteurs intéressés voire en étant à la tête de certains partenariats. Enfin, il doit permettre la participation de tous en lançant des actions de concertation et de co-création des politiques publiques avec tous les citoyens.

/La Place de la France dans l’Open Data

Le baromètre de l’Open Data[4], publié chaque année par la World Wide Web foundation place la France comme l’un des champions actuels en matière d’ouverture de ses données. À quelques exceptions près (en particulier les données de propriété des cadastres et les données de dépenses gouvernementales), les données sont accessibles dans des formats utilisables à moindre coût et mises à jour régulièrement.

De plus, des initiatives gouvernementales ont été lancées pour appliquer les principes de gouvernement ouvert à l’État français. Par exemple, la mission Etalab[5] a pour objectif d’ « Ouvrir, partager et valoriser les données publiques »à travers le développement de plusieurs projets. Parmi ceux-ci, Etalab a créé plusieurs plateformes ouvertes des données, la plus connue étant Data.gouv.fr qui permet à tous, organisations et individus, de publier des jeux de données en accès libre. Parmi les organisations publiant des jeux de données, certaines sont certifiées par l’équipe data.gouv.fr en tant qu’organisation exerçant une mission de service public, afin de garantir la source des données mises disposition.

Certaines données ouvertes, utilisées en France, proviennent aussi d’études européennes ou internationales. On peut par exemple citer Eurostat : le portail des données ouvertes de l’Union Européenne (donnant accès aux données publiées par les institutions et organes de l’UE) ou encore OCDE Données : le portail des données ouvertes de l’OCDE (Organisation de Coopération et de Développement Économiques) auxquels s’ajoutent encore La Banque Mondiale ou les données des Nations Unies. D’autres données annexes sont, elles, plus spécifiques à la France comme les données de Scope National, des DOM-TOM, des Régions ou encore des Départements.

/L’Open Data aujourd’hui dans la protection sociale

Des bases de données ouvertes regroupant des informations sur un thème commun sont également accessibles. Pour la protection sociale, plusieurs organismes mettent à disposition les données dont ils sont dépositaires, dont :

  • Allocations : Cafdata

La Caisse nationale des Allocations familiales et les Caisses d'allocations familiales ont développé le site Cafdata qui structure des données autour de trois grandes catégories : Les statistiques allocataires, prestations et services ; Les indicateurs de l'activité des Caf ainsi que Les services au public.

  • Santé : Le CNAM, EHESP (École des Hautes Études en Santé Publique), Inserm, Observatoire Régional de Santé, Institut de veille sanitaire

La France possède 260 bases de données publiques dans le domaine de la santé. L'Inserm est un organisme public de recherche français entièrement dédié à la santé humaine. Son objectif est d’améliorer la santé de tous par le progrès des connaissances sur le vivant et sur les maladies, l’innovation dans les traitements et la recherche en santé publique. Il existe également le portail « Épidémiologie – France », catalogue en ligne qui recense près de 500 bases de données en santé utiles au développement de la recherche et de l’expertise en santé publique.

  • Emploi : Pôle Emploi

Pôle Emploi a choisi de s'associer à la démarche globale d'ouverture des données publiques, initiée par l'État en collaboration avec la mission Etalab, en rendant accessibles des données. Pour aller plus loin, et permettre à tous (dont les professionnels de l’emploi et les collectivités territoriales) d’enrichir ou de créer de nouveaux services web et applications mobiles, au bénéfice des demandeurs d’emploi et des entreprises, Pôle emploi a mis en place un partage de données ré-exploitables en temps réel.

  • Retraite : Data.Cnav, Insee

L’INSEE (Institut National de la Statistique et des Études Économiques) regroupe des données sur des thèmes très variés et dont l’emploi ou la retraite font partis. De plus, la CNAV a ouvert un site dédié aux statistiques et à la recherche : Data.cnav. Cela a ainsi permis de franchir un premier cap en matière de mise à disposition de données de la branche retraite sous format numérique.

  • Données transverse : Drees, IRDES

La Direction de la Recherche, des Études, de l’Évaluation et des Statistiques (Drees) a pour vocation de fournir aux décideurs publics, aux citoyens et responsables économiques et sociaux, des informations fiables ainsi que des analyses sur les populations et les politiques sanitaires et sociales. L’exploitation et la diffusion des statistiques de la Drees permet la mise à disposition de données en ligne sur les thématiques de la santé ou de la retraite notamment. L’espace Data.Drees met à disposition des tableaux de données personnalisables directement par l’utilisateur. Ces données sont librement réutilisables selon les conditions relatives à la diffusion des informations publiques.

Dans le cadre de la mise en place d’une politique nationale de gouvernance ouverte de la donnée, l’État français a aidé les organisations de la protection sociale à sauter le pas de l’ouverture de leurs données avec Etalab et à trouver de premières applications concrètes à l’exploitation de leurs données à travers plusieurs initiatives.

Dans le secteur de l’emploi, l’Open Data dynamise la circulation des offres et demandes d’emploi. Suite à la libération des données sur les compétences, fiches métiers et formations combinées à leur géolocalisation, des sociétés innovantes proposent des nouveaux services d’orientation professionnelle et offrent un débouché vers des postes disponibles sur les territoires choisis.Dans ce cadre, Pôle Emploi en partenariat avec l’Incubateur de Start-up de l’État a lancé son service « La Bonne Boîte ». Celui-ci analyse en Machine Learning des millions de données de Pôle emploi sur le recrutement des entreprises sur plusieurs années. Le modèle prédictif ainsi développé est constamment alimenté et indique ensuite à un demandeur d’emploi la liste d’entreprises à « haut potentiel d’embauche » auxquelles il peut envoyer des candidatures spontanées en fonction de son profil ou des critères définis tel que sa situation géographique.

De façon plus locale, le département de la Manche qui rencontre des difficultés à attirer les travailleurs saisonniers, a pu développer une structure spécifique « La maison des saisonniers » pour faciliter le recrutement des profils requis[6]. En utilisant l’API mise à disposition par Pôle emploi, le département a pu créer un filtrage automatisé des annonces spécifiques au territoire. Les annonces sont accompagnées d’une carte interactive fournissant les moyens de transports et l’offre d’hébergements issue de l’API du système d’information touristique territorial pour faciliter le déplacement pour des entretiens des candidats (à ce jour partiellement ouvert). La structure se concentre ainsi sur son cœur de métier – accompagner entreprises et postulant tout en fournissant une information de premier niveau de qualité grâce à de l’Open Data.

Ce type d’initiatives se développe aussi dans le domaine de la santé : la Caisse Nationale d’Assurance Maladie s’est associée avec le centre de mathématiques appliquées de l’école Polytechnique pour analyser les données du SNIIRAM (qui regroupent les dépenses d’assurance maladie). Leur recherche s’est orientée vers le développement d’algorithmes de traitement des données permettant notamment d’automatiser la détection d’effets secondaires nocifs voire graves dans des médicaments pour permettre aux autorités de réagir rapidement en cas de problème. Au-delà de ces premiers travaux, les futurs développements de ce partenariat de recherche incluront une analyse et une identification des différentes typologies de parcours de soin ou encore la mise en place de balayages automatisés des données du SNIIRAM pour détecter les situations frauduleuses.L’État poursuit aujourd’hui son rôle d’orchestrateur de l’exploitation des données, en particulier des données des organismes de protection sociale. On peut citer à cet égard l’appel à projets d’expérimentation dans les services publics lancé par la DINSIC et la Direction Interministérielle de la Transformation Publique (DITP) pour expérimenter l’utilisation de l’Intelligence Artificielle au sens large dans le traitement des données des administrations avec un accompagnement de 10 mois des projets sélectionnés.

/Les freins aux politiques d’Open Data

Cependant malgré les incitations et l’accompagnement offert, les initiatives d’exploitation des données peinent à réellement décoller dans la sphère sociale comme l’illustre le rapport détaillé du baromètre français de l’Open Data[7]. Si l’ouverture des données, en particulier du gouvernement et des institutions publiques, a été réalisée, l’utilisation qui en est faite est restreinte et l’impact dans la sphère sociale est le plus limité de tous. Ainsi, l’exploitation des données de protection sociale et la création de projets ou d’initiatives pour accélérer leur utilisation rencontre aujourd’hui plusieurs obstacles qui devront être surmontés avant d’instaurer une réelle gouvernance ouverte des données de protection sociale en France.

L’un des freins régulièrement rapportés par les experts du domaine est la multitude de formats de partage de données mises à disposition. Si la nécessité d’ouvrir l’accès à ces données publiques à tous est maintenant bien comprise et intégrée par l’ensemble des organisations, la notion d’interopérabilité n’a pas encore été prise en compte. Les croisements de données sont donc d’autant plus coûteux qu’ils nécessitent en amont de toute analyse un travail souvent important d’harmonisation des formats.

À cela s’ajoute le problème de communication sur l’accessibilité des données. En plus du manque de communication autour de l’existence de ces pools de données qui ne facilite pas leur exploitation, une mauvaise compréhension du terme Open Datagénère l’inquiétude des populations. En effet une confusion existe entre les données publiques et les données accessibles qui ne sont pas ouvertes. La mauvaise compréhension du terme « Open Data » peut alors générer une inquiétude quant à la confidentialité des données, par exemple avec l’accessibilité des données médicales personnelles. Il est important de noter que toutes les données accessibles au public ne sont pas ouvertes : le terme Open Data ne signifie pas qu’un gouvernement ou une autre entité rende publiques toutes ses données.

Enfin l’un des freins les plus fréquemment évoqué est la crainte des usagers face au partage et à l’utilisation d’informations relevant de la vie privée dans des programmes Open Data. Cependant si l’ouverture des données peut susciter des craintes quant à l’exploitation d’information personnelles, l’application des principes du Règlement Général sur la Protection des Données (RGPD) pour encadrer cette ouverture permettra de concilier développement de l’Open Data et respect de la vie privée en construisant des projets qui incorporent dès leur conception la notion de « Privacy by design »[8]. La Commission Nationale Informatique et Liberté (CNIL) propose par exemple des modèles d’analyse d’impact relative à la protection des données[9] (AIPD) pour aider les organisations à construire aujourd’hui des projets de traitement des données personnelles directement conformes au RGDP et respectueux de la vie privée en général.De même, la diffusion et l’explication de bonnes pratiques de traitement statistique des données en amont des projets d’Open Data permettra de conserver la confiance des usagers et d’apaiser en partie les craintes existantes face à l’utilisation des données. A ce titre, les recommandations de l’INSEE en matière de respect du secret statistiques sont une base solide sur laquelle construire un projet de traitement des données. Ainsi dans son Guide du Secret Statistique[10], l’Institut expose les règles de base pour empêcher toute ré-identification d’un individu ou d’une organisation à partir des données collectées. Par exemple, dans le cas de fichiers de données portant sur des entreprises, aucune information n’est publiée si elle concerne moins de trois entreprises parmi l’ensemble des entreprises prises en compte. Ces règles concernant des niveaux de granularité applicables lors de traitement de données permettent de faire des analyses pertinentes tout en garantissant l’anonymat des sujets concernés.

/Comment répondre aux problématiques de l’Open Data ?

Pour pallier les éventuels freins de l’Open Data plusieurs solutions pourraient être envisagées.Tout d’abord, concernant la libération des données utiles, l’inscription dans la loi du statut de certaines données sectorielles (telles que celles qui se rapportent à l’emploi ou à la santé) comme relevant de l’intérêt général de la nation pourrait être envisagé[11]. Par conséquent, les organismes détenteurs de ces données devront obligatoirement les mettre à disposition en licence libre venant ainsi enrichir les sources de données accessibles.

Cependant, la libération des données n’est que la première étape : l’exploitation est l’aspect déterminant pour développer des synergies dynamiques. Ainsi, l’accent doit être mis sur la réutilisation des données : inciter des acteurs innovants à l’aide de concours ou d’investissements d’avenir permettrait de les motiver à développer des applications nouvelles basées sur ces contenus. Si des nouvelles plateformes ou applications intègrent les bases de données ouvertes, celles-ci doivent être également attractives pour les utilisateurs : une communication efficace sur l’accessibilité des données pour améliorer la visibilité est un élément essentiel. Etalab a un rôle à jouer : son objectif est que tous les français puissent participer activement à la communauté Open Data française. Le système coordonne la conception et la mise en œuvre de la stratégie de l’État dans le domaine de la donnée. En tant que tel, Etalab doit se charger de référencer l’ensemble des initiatives d’Open Data dans le monde de la protection sociale et devrait proposer une ou plusieurs normes pour favoriser ces échanges. Il pourrait aussi être un point de relais pour les différentes initiatives, leur permettant d’établir des contacts et d’éventuels partenariats plus facilement, accélérant ainsi la croissance de l’écosystème français de l’Open Data.

Enfin, une des solutions pourrait être la mise en place d’une Data gouvernance plus large pilotée au niveau national, correspondant à l’ensemble des organisations et des procédures mises en place afin d’encadrer la collecte de données et leur utilisation. Celles-ci s’appliquent surtout à l’échelle des entreprises et/ou organisations privées ou semi-privées pour lesquelles l’ouverture de leurs données est moins avancée. La Data Gouvernance implique quatre dimensions : la disponibilité, l’utilisabilité, l’intégrité ainsi que la sécurité des données. Elle vise ainsi à créer un équilibre entre profitabilité des données collectées et respect des règles ce qui permet d’acquérir un bon niveau de confiance auprès des autorités mais également des utilisateurs. Des initiatives dans ce sens telle que la future mise en place au 1erdécembre 2019 de la plateforme Health Data Hub sous l’égide du Ministère des Solidarités et de la Santé vont dans le bon sens en participant à standardiser la disponibilité, la qualité et l’accès aux données, ici dans le domaine de la santé et pourront en cas de succès être une référence à répliquer dans tous les services de l’État pour construire une politique cohérente et complète de l’ouverture de la donnée.

[1]Vision & Values, Open Knowledge Foundation

[2]The White House, Open Government Partnership

[3]Open Government Partnership Website

[4]WWW Foundation, Open Data Barometer

[5]Site d’Etalab

[6]Site officiel, Maison des Saisonniers

[7]Baromètre de l’Open Data, focus France

[8]Commission Nationale de Protection des Données – « Privacy by Design »

[9]Commission Nationale Informatique et Liberté - AIPD

[10]INSEE – Guide du Secret Statistique, version du 27 juillet 2018

[11]Ministère de l’économie, Rapport relatif aux données d’intérêt général

Cet article a été rédigé par Fernanda de Freitas, Julie Nadal et Théo Marécheau, consultant.e.s YCE Partners.

Crédit photo : Alexander Sinn sur Unsplash

Télécharger le PDF
Christophe Roth, président de l’AGEFIPH

Jeux Paralympiques : Comment instaurer une dynamique durable pour l’emploi des personnes en situation de handicap ?|Entretien avec Christophe Roth, président de l’AGEFIPH

M. Zemmour (Sciences Po, Uni. Paris 1) "La gestion de la dette née de la crise pourrait devenir un instrument au service des politiques d’austérité"

Acte 2 du Plan pauvreté : quelles mesures pour faire face à l’explosion attendue de la pauvreté ?

Infographie : l'impact financier du Covid sur la protection sociale