DCP or not DCP ?

https://twit­ter.com/edasfr/status/1481614710688600065

Mon accroche quand on parle de DCP (données à carac­tère person­nel) c’est de dire « si la base fuite, qu’est-ce qui va pouvoir être fait avec ? » et d’ajou­ter ensuite « quel est le risque ? »

Il y a forcé­ment une dose d’in­ter­pré­ta­tion et de subjec­ti­vité dans la réponse. Ça se verra parti­cu­liè­re­ment avec l’exemple 7. Je ne donne ici que mes propres inter­pré­ta­tions, pas des véri­tés géné­rales qui préten­draient s’ap­pliquer de façon univer­selle.

1. prénom + nom + adresse postale

https://twit­ter.com/edasfr/status/1481614716913037323

Celui là est le plus facile. C’est évidem­ment une donnée à carac­tère person­nelle puisqu’elle est nomi­na­tive. Le risque asso­cié est toute­fois faible pour la plupart des gens.

Dans toute la liste c’est la seule qui est nomi­na­tive mais c’est proba­ble­ment aussi la moins sensible. C’était impor­tant pour moi de le montrer.

2. plaque d’im­ma­tri­cu­la­tion + heure de passage devant une caméra fixe

https://twit­ter.com/edasfr/status/1481614720541016064

La plaque d’im­ma­tri­cu­la­tion est une DCP en elle-même. Elle iden­ti­fie le proprié­taire du véhi­cule. Même si on parle du conduc­teur et pas du proprié­taire, on se restreint à un très petit groupe de personnes avec un très fort niveau de proba­bi­lité. Ça suffit très large­ment à parler de DCP.

Cet exemple est impor­tant parce qu’il réper­to­rie toutes vos allées et venues. On sait qui vous êtes, où vous êtes, et quand.

On peut savoir que vous vous trou­vez tous les jours à l’hô­pi­tal, ou que vous passez en pleine jour­née dans un quar­tier rési­den­tiel à une heure où vous devriez être au boulot, ou que depuis deux mois vous ne vous rendez plus au même endroit pour aller au travail, ou que vous êtes en isole­ment parce que sans dépla­ce­ment cette semaine, ou en voyage parce qu’on vous a croisé sur le trajet vers l’aé­ro­port puis plus rien pour quinze jours.

Tout ça dit des choses sur vous, beau­coup de choses, pas toujours neutres.

C’est d’au­tant plus impor­tant que le proprié­taire d’une imma­tri­cu­la­tion n’est pas une donnée si privée que ça. Le fichier des cartes grises est vendu (les pubs sur le contrôle tech­nique, ça vient de là) et acces­sible à pas mal de monde sous une forme ou une autre.

Quand vous voyez certains se battre contre la recon­nais­sance faciale ou recon­nais­sance de plaques d’im­ma­tri­cu­la­tion sur la voie publique, on parle exac­te­ment de ça : Atten­tion danger si ces données sont conser­vées quelque part.

3. traces GPS des diffé­rentes sorties de footing

https://twit­ter.com/edasfr/status/1481614725603540999

Celui là a été étudié dans la presse en long et en large avec des exemples réels. Oui c’est une donnée à carac­tère person­nel même s’il n’y a aucun iden­ti­fiant d’uti­li­sa­teur.

On peut indi­vi­dua­li­ser des parcours, des habi­tudes, ou même simple­ment l’adresse de départ de la sortie. Sur certaines recherches la presse a pu iden­ti­fier des bases mili­taires, des indi­vi­dus, et mêmes des agents dont on n’au­rait pas dû savoir qu’ils travaillaient pour l’ar­mée. Ça unique­ment sur la base de traces GPS spor­tives.

C’est vrai de la même façon pour vous et moi. On sait que vous n’êtes pas chez vous et quand, que ce matin vous avez inter­rompu votre footing pour voir quelqu’un pendant deux heures, et à quelle adresse, si vous avez fait une halte en phar­ma­cie ou si vous vous êtes arrêté devant la devan­ture de l’agent immo­bi­lier, si depuis deux semaines vous avez un problème de santé qui vous bloque à la maison, etc.

4. statis­tiques de visite d’un site web avec : adresse ip + adresse de la page visi­tée + horo­da­tage

https://twit­ter.com/edasfr/status/1481614730292834305

L’adresse IP a une problé­ma­tique simi­laire à celle de la plaque d’im­ma­tri­cu­la­tion de la voiture. La liste des pages visi­tées est l’équi­valent numé­rique de la trace GPS. Oui c’est de la donnée à carac­tère person­nel, et c’est sacré­ment sensible.

On sait ce que vous lisez, quand, vos habi­tudes et vos secrets, même les plus indis­crets. Un forum sur le cancer, l’or­ga­ni­sa­tion d’un diner, le programme de la télé… on fait quasi­ment tout par le web.

De façon géné­rale tout ce qui est lié à une adresse IP est géné­ra­le­ment à carac­tère person­nel. Ça iden­ti­fie géné­ra­le­ment un foyer donc un groupe de personnes assez restreint. Il existe même des brokers en ligne qui à partir de l’adresse IP donnent contre quelques cents les nom, prénom et adresse des membres du foyer avec un bon niveau de confiance.

Vous n’êtes pas anonymes sur le web. Les sites qui vous imposent Google Analy­tics sans votre consen­te­ment posent de sérieux problèmes de vie privée. Ce n’est pas que théo­rique.

5. Tracking des taux de réponse à des publi­ci­tés avec pour chaque publi­cité vision­née : iden­ti­fiant unique aléa­toire pour chaque utili­sa­teur + infor­ma­tion sur le clic ou non clic sur la publi­cité

https://twit­ter.com/edasfr/status/1481614730292834305

Jusque là il n’y avait pas débat. On entre dans l’in­ter­pré­ta­tion un peu plus fine et ça se voit sur les réponses « non » qui montent à 25%.

Sur le prin­cipe, s’il y a un iden­ti­fiant utili­sa­teur, même s’il ne corres­pond à rien (donc tiré au sort), pour peu qu’il permette de lier des données dans le temps, c’est géné­ra­le­ment une DCP.

Si c’est juste une poignée de publi­ci­tés, sans marquage horaire ni adresse de la page, le risque d’iden­ti­fi­ca­tion est quasi nul et ne permet pas de savoir grand chose même si on y arrive.

Si c’est un iden­ti­fiant stable sur vos visites de plein de sites, là c’est un grand « oui ». On commence à connaitre vos inté­rêts et à créer un profil. Parfois ça donne des infor­ma­tions que vous consi­dé­rez « très privées » (santé, sexe, amours, achats).

Dans la réalité il y a un horo­da­tage, l’adresse de la page et des infor­ma­tions de profi­lage, et ça devient un énorme « oui ».
Quand on se bat contre « les cookies » on se bat juste­ment contre ça.

6. Envoi de statis­tiques par une balance connec­tée : poids mesuré + numéro de série de la balance

https://twit­ter.com/edasfr/status/1481614739243417600

J’aime beau­coup cet exemple parce que c’est un cas réel et « oui », c’est une DCP. Le numéro de série de la balance iden­ti­fie avec suffi­sam­ment de préci­sion une personne. Si on ajoute le poids, on a même géné­ra­le­ment qui dans la famille.

Si la base fuite, n’im­porte qui passé chez vous peut tracer vos courbes de poids. Certains s’en foutent, d’autres pas du tout. Au niveau régle­men­taire, c’est de la donnée à carac­tère person­nel. Certains parle­ront même de données de santé, donc sensible par nature.

Au niveau des objets connec­tés c’est malheu­reu­se­ment le far west.

7. Statis­tiques de visites et de compor­te­ment d’un site web avec : adresse de la page, temps de char­ge­ment, date sans heure, temps d’in­te­rac­tion avec la page, adresse du lien cliqué, mesures des dépla­ce­ments de la souris, pays d’ori­gine

https://twit­ter.com/edasfr/status/1481614742431088642

Là c’est… « non » pour moi. On récolte beau­coup de choses, énor­mé­ment de choses, mais il n’y a rien pour lier les diffé­rentes visites d’un même utili­sa­teur, ni pour l’iden­ti­fier.

C’est inté­res­sant parce que ça montre que :

  • DCP ou non n’est pas unique­ment lié à la quan­tité de données ou leur sensi­bi­lité, mais aussi comment on les lie ;
  • On peut faire des stats web pous­sées sans avoir besoin de consen­te­ment.

Je note tout de même la réponse que m’a fait Aeris : Il y a un risque que vos habi­tudes de mani­pu­la­tion de souris puissent repré­sen­ter une empreinte unique que vous repro­dui­sez de visite en visite, et qu’un attaquant très poussé puisse lier vos données, donc les voir comme des DCP.

L’in­ter­pré­ta­tion est là : Dans un cadre géné­ral c’est « non », pas de DCP, pas besoin de consen­te­ment. Si vous montez le nouveau wiki­leaks ou un outil d’ano­ny­mi­sa­tion comme Tor, ça pour­rait être « oui » parce que le risque est plus grand.

Parler données person­nelles se fait aussi en fonc­tion du contexte.

8. Statis­tiques anony­mi­sées sur les achats de médi­ca­ments dans les phar­ma­cies avec : iden­ti­fiant anony­misé (*) de la phar­ma­cie, ville de la phar­ma­cie, médi­ca­ment acheté, date sans heure, iden­ti­fiant anony­misé (*) à partir de la carte vitale

https://twit­ter.com/edasfr/status/1481614746612871174

C’est un autre cas réel. Un coucou pas très amical à IQVIA qui fait exac­te­ment ça. Oui, vos achats en phar­ma­cie sont tracés et enre­gis­trés par un tiers privé pour son propre usage commer­cial.

La réalité c’est qu’ils parlent d’ano­ny­mi­sa­tion (et j’ai donc repris leur voca­bu­laire) mais ce qui est expli­cité est de la pseu­do­ny­mi­sa­tion (on garde un iden­ti­fiant stable par utili­sa­teur) et ça fait toute la diffé­rence.

Oui les données, même sous pseu­do­nyme, restent à carac­tère person­nel vu qu’elles conti­nuent à vous concer­ner vous et personne d’autre.

Combien de personnes en Savoie ont eu à la fois (des médi­ca­ments contre) un cancer en 2020 et (des médi­ca­ments contre) des cham­pi­gnons au pied en décembre en 2021 ? pas grand monde.

Si la base fuite, on pour­rait iden­ti­fier qui vous êtes à partir de vos habi­tudes, et connaitre tout ce qui manque sur vos autres achats : quelles phar­ma­cies et donc où vous vous dépla­cez, quels achats et donc quelles affec­tions de santé.

On pour­rait aussi vous iden­ti­fier en rejouant toute la chaîne de pseu­do­ny­mi­sa­tion (donc partir de vos iden­ti­fiants publics jusqu’à créer l’en­trée dans la base finale) et faire le lien ensuite. Des enti­tés du niveau d’un État peuvent tout connaître de vous.

Pour finir l’his­toire du cas réel, même si c’est le cas en théo­rie, en pratique vous n’avez malheu­reu­se­ment aucun moyen de savoir si la phar­ma­cie parti­cipe à ce projet (plus d’une sur deux le fait) et aucun moyen d’ac­cès pour voir après coup si vos données ont été envoyées. La CNIL a validé sur la base d’un devoir d’in­for­ma­tion qui n’est pas du tout présent dans la réalité et ça pose un vrai problème public.

9. Collecte statis­tique sur l’obé­sité avec : poids + taille + profes­sion + ville + méde­cin trai­tant + date sans heure

https://twit­ter.com/edasfr/status/1481614752661094408

On pour­rait même proba­ble­ment reti­rer un des items sans chan­ger le résul­tat : Ces données permettent de vous iden­ti­fier avec une granu­la­rité raison­nable et ce sont des données à carac­tère person­nel.

Rien que le méde­cin + date, c’est de l’ordre de la ving­taine de personnes. Si on ajoute la profes­sion, la taille ou le poids, on tombe à la poignée de personnes.

Même sans la date, la somme des données peut indi­vi­dua­li­ser assez peu de personnes pour un même méde­cin. La date permet de tracer votre fréquence de visite et vos jours de visite chez le méde­cin. On est dans les données de santé.

10. jour­naux d’ac­ti­vité d’un aspi­ra­teur connecté pour permettre l’amé­lio­ra­tion et la correc­tion des anoma­lies avec : carto­gra­phie spatiale de l’ap­par­te­ment, date de dernier passage, date de dernier passage avec succès, date de dernier échec à retrou­ver la base pour se char­ger

https://twit­ter.com/edasfr/status/1481614757614522374

La carto­gra­phie spatiale c’est un appar­te­ment et un seul, ou pas loin. Si on a le place­ment de la table du salon, ou la base de l’as­pi­ra­teur, ou une date de passage, on peut vous indi­vi­dua­li­ser et récu­pé­rer les autres données, qui peuvent dire des choses sur vous.

C’est assez peu sensible, il faut déjà bien vous connaitre pour vous iden­ti­fier dans la base, et les infor­ma­tions annexes sont faibles, mais théo­rique­ment on est bien dans la donnée à carac­tère person­nel.

Les objets connec­tés sont de vrais cafteurs.


Publié

dans

par

Étiquettes :

Commentaires

3 réponses à “DCP or not DCP ?”

  1. Avatar de Thibaud
    Thibaud

    Expérience super intéressante ! Merci de tes retours !

    Sur le 6, il faut quand même un accès physique à la balance pour pouvoir relever le numéro de série et l’associer à ta personne, je trouve que l’exploitation est compliquée quand même :-)

    Même chose pour le 10 je trouve que l’exploitation est compliquée pour retrouver la personne à partir du plan de son appartement (même si ça me semble plus simple que pour le 6.

    Après peut-être que je ne suis pas logique avec moi même en ayant répondu oui au 9 alors que l’exploitation à grande échelle me paraît aussi compliquée que le 10…

    Par contre effectivement pour une agence de renseignement qui veut récupérer des informations sur une personne précise c’est sans doute possible (mais on a pas tous la chance d’être suivi par la CIA, et j’espère que les personnes dans ce cas n’ont pas de trucs connectés chez eux :-) ). Un détective privé pourrait sans doute lier le 9 et 10, le 6 il faut quand même un accès physique à la salle de bain qui doit être possible mais pas évident…

    1. Avatar de Éric
      Éric

      Sans démarcher la CIA (que ton poids intéressera peu), n’importe quel ami ou voisin qui passe chez toi a cette information. L’ex-conjoint qui utilise l’objet connecté pour te harceler ou simplement te faire chier « tu as pris du poids depuis quelques semaines » c’est aussi une réalité. Mais oui, c’est moins sensible que d’autres exemples.

      La cartographie de l’appartement me semble un des moins sensibles en fait. On peut te repérer mais pour ça il faut avoir l’information la plus sensible, qui est justement la cartographie. Ça n’a de l’intérêt que si on arrive à suivre la chose dans le temps, pour voir l’évolution de la cartographie ou suivre les usages. Même là, il y a plus gênant.

  2. Avatar de Éric
    Éric

    https://twitter.com/aeris22/status/1483123311819296774

    Fun fact DCP/not DCP du jour
    Le triplet genre/date de naissance/code postal est une donnée personnelle
    87% de ré-identification de l’individu…

    https://dataprivacylab.org/projects/identifiability/paper1.pdf

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *