Ensembles de données anonymes non personnelles
Lignes directrices pour la prise de décision et la recherche
Contexte
Les ensembles de données anonymes accessibles au public sont des collections de données qui ont fait l'objet d'un processus d'anonymisation des données, qui préserve la valeur analytique et de recherche des données tout en maintenant l'anonymat de toutes les personnes concernées. L'objectif de ce processus est de protéger la vie privée des individus en supprimant les informations personnelles identifiables (IPI), telles que les noms, les adresses et les numéros de sécurité sociale, tout en mettant à disposition des données contenant des informations importantes pour l'évaluation des politiques, de l'administration, de la recherche ou des tendances dans différents secteurs. Les données non personnelles comprennent les données susmentionnées ainsi que les données qui ne contenaient pas d'informations personnelles au départ (telles que l'emplacement GIS public, les indicateurs socio-économiques régionaux/nationaux, la météo ou les collectes d'impôts agrégées).
Ces ensembles de données peuvent être mis gratuitement à la disposition du public pour encourager l'innovation, promouvoir la transparence ou contribuer à la recherche scientifique. Par exemple, les ensembles de données publiques anonymes peuvent être utiles pour former des modèles d'apprentissage automatique, analyser des données de santé agrégées pour comprendre les caractéristiques des maladies, élaborer des plans de soins éclairés et concevoir des essais cliniques pour la mise au point de médicaments. Ils facilitent l'apprentissage des algorithmes sans porter atteinte à la vie privée, éclairent les stratégies de soins de santé, optimisent les protocoles d'essai et accélèrent la découverte de médicaments tout en respectant la vie privée et les normes éthiques.
Pour garantir le succès à grande échelle, il est important de noter qu'une approche centralisée des ensembles de données agrégées peut être difficile à mettre à l'échelle puisque chaque entité devra télécharger ses ensembles de données sur une plateforme unique et qu'elle peut hésiter à se séparer de ses données. Même si elles partagent leurs données, s'assurer qu'elles sont régulièrement mises à jour et synchronisées avec le système principal serait une tâche ardue. Une approche plus simple consiste à créer une politique de réseau ouvert pour le partage de données anonymes. Les entités peuvent faire appel à n'importe quel fournisseur de technologie et rejoindre le réseau pour partager leurs données sous leur propre marque. Cela leur permettrait de reconnaître et de contrôler leurs propres ensembles de données et faciliterait leur mise à jour à long terme. Le choix d'une mise à disposition gratuite et payante des données pourrait relever d'une décision politique et le réseau soutiendrait les deux modèles.
Principes de conception pour l'élaboration de jeux de données ouvertes
La fédération dès la conception : Plutôt que d'aspirer à un seul registre de données centralisé couvrant toutes les données pertinentes pour le secteur, il peut être plus pragmatique de continuer à encourager un écosystème où de multiples ensembles de données et fournisseurs de données existent (même à travers plusieurs portails/plateformes), chacun contribuant à une plus grande réserve de connaissances disponibles pour de multiples innovateurs. Il est essentiel de noter que l'harmonisation des schémas de données dans toutes les unités n'est pas nécessairement nécessaire - tant que chaque entité publiant des données publie le schéma de données utilisé par son ensemble de données.
Le respect de la confidentialité dès la conception pour protéger l'identité individuelle à tout moment : Les petits ensembles de données doivent faire l'objet d'une attention particulière lors du partage de résultats agrégés, afin de garantir que la désanonymisation n'est pas possible.
Libre accès : Il est essentiel de veiller à ce que chaque ensemble de données soit mis à la disposition des autres pour qu'ils puissent l'exploiter et le réutiliser efficacement grâce à des politiques transparentes.
Normes ouvertes : La promotion de normes ouvertes pour le partage des données est essentielle pour faciliter la réutilisation par les algorithmes logiciels qui accèdent aux données et les analysent. Les schémas de données et les interfaces utilisateur ouvertes facilitent l'accès aux données provenant de sources multiples.
Réseau décentralisé de données non personnelles
L'accès aux données est également un ensemble de services qui peuvent être facilités par des API selon un protocole standardisé pour la "découverte et la fourniture" de tout bien ou service. Un "réseau d'accès aux données non personnelles" décentralisé, conçu pour faciliter l'accès sur la base de normes unifiées via un protocole tel que Beckn, peut permettre, conformément aux API standard, les services d'accès aux données suivants :
1. Découverte de différents types d'ensembles de données dans diverses agences/entités (publiques/privées).
2. Licence/Contrat : les conditions de licence des ensembles de données varient et les deux parties doivent conclure un contrat avant le téléchargement/l'accès.
3. Téléchargement/accès : Les méthodes d'accès vont du téléchargement d'ensembles de données aux modèles de données en tant que service utilisant la confidentialité l'informatique. Les méthodes informatiques avancées peuvent établir des “bacs à sable” (sandboxes) de données au lieu d'une disponibilité directe pour permettre aux réseaux d'apprentissage en profondeur de former des modèles.
4. La tarification : Si certaines données peuvent être librement accessibles, tous les ensembles de données ne sont pas publics ou gratuits. Les données publiques sont généralement censées être librement accessibles, mais avec certaines analyses, elles peuvent également être mises à disposition à un certain prix. La tarification permet à tous les acteurs de prendre des décisions en connaissance de cause et de créer un écosystème durable.
5. Cycles de mise à jour/feedback : La mise en œuvre de notifications automatiques de mise à jour des ensembles de données garantit des feedbacks d'information en temps utile (par exemple, une fois par an), ce qui améliore la pertinence des données au fil du temps.
Tous ces processus se déroulent au sein de diverses agences qui publient des catalogues de produits/services de données au sein d'un réseau décentralisé. Cela est essentiel pour garantir que les ensembles de données publiques et privées soient accessibles dans un cadre décentralisé unifié.
L'architecture susmentionnée concerne les données non personnelles (NPD) dans les systèmes publics et privés, que ce soit par téléchargement/accès ou par des modèles de confidentialité informatique. Toutes les opérations sont décentralisées, ce qui permet aux agences du monde entier de gérer et de mettre à jour les services d'ensembles de données.
Exemples de référence
Ensembles de données de formation linguistique pour les modèles de langues locales indiennes à des fins de formation et d'évaluation comparative.
Remarque :
Le partage des données personnelles n'entre pas dans le champ d'application du présent document. Le partage des données personnelles et non personnelles nécessite deux approches différentes au niveau de l'architecture, de la politique et des cadres de gouvernance.
Le consentement au partage des données à des fins d'anonymisation est supposé faire partie de la gouvernance/des politiques de partage des données des systèmes/plateformes/entités sources et n'entre pas dans le champ d'application du présent document.
Last updated