Mon accroche quand on parle de DCP (données à caractère personnel) c’est de dire « si la base fuite, qu’est-ce qui va pouvoir être fait avec ? » et d’ajouter ensuite « quel est le risque ? »
Il y a forcément une dose d’interprétation et de subjectivité dans la réponse. Ça se verra particulièrement avec l’exemple 7. Je ne donne ici que mes propres interprétations, pas des vérités générales qui prétendraient s’appliquer de façon universelle.
1. prénom + nom + adresse postale
https://twitter.com/edasfr/status/1481614716913037323
Celui là est le plus facile. C’est évidemment une donnée à caractère personnelle puisqu’elle est nominative. Le risque associé est toutefois faible pour la plupart des gens.
Dans toute la liste c’est la seule qui est nominative mais c’est probablement aussi la moins sensible. C’était important pour moi de le montrer.
2. plaque d’immatriculation + heure de passage devant une caméra fixe
https://twitter.com/edasfr/status/1481614720541016064
La plaque d’immatriculation est une DCP en elle-même. Elle identifie le propriétaire du véhicule. Même si on parle du conducteur et pas du propriétaire, on se restreint à un très petit groupe de personnes avec un très fort niveau de probabilité. Ça suffit très largement à parler de DCP.
Cet exemple est important parce qu’il répertorie toutes vos allées et venues. On sait qui vous êtes, où vous êtes, et quand.
On peut savoir que vous vous trouvez tous les jours à l’hôpital, ou que vous passez en pleine journée dans un quartier résidentiel à une heure où vous devriez être au boulot, ou que depuis deux mois vous ne vous rendez plus au même endroit pour aller au travail, ou que vous êtes en isolement parce que sans déplacement cette semaine, ou en voyage parce qu’on vous a croisé sur le trajet vers l’aéroport puis plus rien pour quinze jours.
Tout ça dit des choses sur vous, beaucoup de choses, pas toujours neutres.
C’est d’autant plus important que le propriétaire d’une immatriculation n’est pas une donnée si privée que ça. Le fichier des cartes grises est vendu (les pubs sur le contrôle technique, ça vient de là) et accessible à pas mal de monde sous une forme ou une autre.
Quand vous voyez certains se battre contre la reconnaissance faciale ou reconnaissance de plaques d’immatriculation sur la voie publique, on parle exactement de ça : Attention danger si ces données sont conservées quelque part.
3. traces GPS des différentes sorties de footing
https://twitter.com/edasfr/status/1481614725603540999
Celui là a été étudié dans la presse en long et en large avec des exemples réels. Oui c’est une donnée à caractère personnel même s’il n’y a aucun identifiant d’utilisateur.
On peut individualiser des parcours, des habitudes, ou même simplement l’adresse de départ de la sortie. Sur certaines recherches la presse a pu identifier des bases militaires, des individus, et mêmes des agents dont on n’aurait pas dû savoir qu’ils travaillaient pour l’armée. Ça uniquement sur la base de traces GPS sportives.
C’est vrai de la même façon pour vous et moi. On sait que vous n’êtes pas chez vous et quand, que ce matin vous avez interrompu votre footing pour voir quelqu’un pendant deux heures, et à quelle adresse, si vous avez fait une halte en pharmacie ou si vous vous êtes arrêté devant la devanture de l’agent immobilier, si depuis deux semaines vous avez un problème de santé qui vous bloque à la maison, etc.
4. statistiques de visite d’un site web avec : adresse ip + adresse de la page visitée + horodatage
https://twitter.com/edasfr/status/1481614730292834305
L’adresse IP a une problématique similaire à celle de la plaque d’immatriculation de la voiture. La liste des pages visitées est l’équivalent numérique de la trace GPS. Oui c’est de la donnée à caractère personnel, et c’est sacrément sensible.
On sait ce que vous lisez, quand, vos habitudes et vos secrets, même les plus indiscrets. Un forum sur le cancer, l’organisation d’un diner, le programme de la télé… on fait quasiment tout par le web.
De façon générale tout ce qui est lié à une adresse IP est généralement à caractère personnel. Ça identifie généralement un foyer donc un groupe de personnes assez restreint. Il existe même des brokers en ligne qui à partir de l’adresse IP donnent contre quelques cents les nom, prénom et adresse des membres du foyer avec un bon niveau de confiance.
Vous n’êtes pas anonymes sur le web. Les sites qui vous imposent Google Analytics sans votre consentement posent de sérieux problèmes de vie privée. Ce n’est pas que théorique.
5. Tracking des taux de réponse à des publicités avec pour chaque publicité visionnée : identifiant unique aléatoire pour chaque utilisateur + information sur le clic ou non clic sur la publicité
https://twitter.com/edasfr/status/1481614730292834305
Jusque là il n’y avait pas débat. On entre dans l’interprétation un peu plus fine et ça se voit sur les réponses « non » qui montent à 25%.
Sur le principe, s’il y a un identifiant utilisateur, même s’il ne correspond à rien (donc tiré au sort), pour peu qu’il permette de lier des données dans le temps, c’est généralement une DCP.
Si c’est juste une poignée de publicités, sans marquage horaire ni adresse de la page, le risque d’identification est quasi nul et ne permet pas de savoir grand chose même si on y arrive.
Si c’est un identifiant stable sur vos visites de plein de sites, là c’est un grand « oui ». On commence à connaitre vos intérêts et à créer un profil. Parfois ça donne des informations que vous considérez « très privées » (santé, sexe, amours, achats).
Dans la réalité il y a un horodatage, l’adresse de la page et des informations de profilage, et ça devient un énorme « oui ».
Quand on se bat contre « les cookies » on se bat justement contre ça.
6. Envoi de statistiques par une balance connectée : poids mesuré + numéro de série de la balance
https://twitter.com/edasfr/status/1481614739243417600
J’aime beaucoup cet exemple parce que c’est un cas réel et « oui », c’est une DCP. Le numéro de série de la balance identifie avec suffisamment de précision une personne. Si on ajoute le poids, on a même généralement qui dans la famille.
Si la base fuite, n’importe qui passé chez vous peut tracer vos courbes de poids. Certains s’en foutent, d’autres pas du tout. Au niveau réglementaire, c’est de la donnée à caractère personnel. Certains parleront même de données de santé, donc sensible par nature.
Au niveau des objets connectés c’est malheureusement le far west.
7. Statistiques de visites et de comportement d’un site web avec : adresse de la page, temps de chargement, date sans heure, temps d’interaction avec la page, adresse du lien cliqué, mesures des déplacements de la souris, pays d’origine
https://twitter.com/edasfr/status/1481614742431088642
Là c’est… « non » pour moi. On récolte beaucoup de choses, énormément de choses, mais il n’y a rien pour lier les différentes visites d’un même utilisateur, ni pour l’identifier.
C’est intéressant parce que ça montre que :
- DCP ou non n’est pas uniquement lié à la quantité de données ou leur sensibilité, mais aussi comment on les lie ;
- On peut faire des stats web poussées sans avoir besoin de consentement.
Je note tout de même la réponse que m’a fait Aeris : Il y a un risque que vos habitudes de manipulation de souris puissent représenter une empreinte unique que vous reproduisez de visite en visite, et qu’un attaquant très poussé puisse lier vos données, donc les voir comme des DCP.
L’interprétation est là : Dans un cadre général c’est « non », pas de DCP, pas besoin de consentement. Si vous montez le nouveau wikileaks ou un outil d’anonymisation comme Tor, ça pourrait être « oui » parce que le risque est plus grand.
Parler données personnelles se fait aussi en fonction du contexte.
8. Statistiques anonymisées sur les achats de médicaments dans les pharmacies avec : identifiant anonymisé (*) de la pharmacie, ville de la pharmacie, médicament acheté, date sans heure, identifiant anonymisé (*) à partir de la carte vitale
https://twitter.com/edasfr/status/1481614746612871174
C’est un autre cas réel. Un coucou pas très amical à IQVIA qui fait exactement ça. Oui, vos achats en pharmacie sont tracés et enregistrés par un tiers privé pour son propre usage commercial.
La réalité c’est qu’ils parlent d’anonymisation (et j’ai donc repris leur vocabulaire) mais ce qui est explicité est de la pseudonymisation (on garde un identifiant stable par utilisateur) et ça fait toute la différence.
Oui les données, même sous pseudonyme, restent à caractère personnel vu qu’elles continuent à vous concerner vous et personne d’autre.
Combien de personnes en Savoie ont eu à la fois (des médicaments contre) un cancer en 2020 et (des médicaments contre) des champignons au pied en décembre en 2021 ? pas grand monde.
Si la base fuite, on pourrait identifier qui vous êtes à partir de vos habitudes, et connaitre tout ce qui manque sur vos autres achats : quelles pharmacies et donc où vous vous déplacez, quels achats et donc quelles affections de santé.
On pourrait aussi vous identifier en rejouant toute la chaîne de pseudonymisation (donc partir de vos identifiants publics jusqu’à créer l’entrée dans la base finale) et faire le lien ensuite. Des entités du niveau d’un État peuvent tout connaître de vous.
Pour finir l’histoire du cas réel, même si c’est le cas en théorie, en pratique vous n’avez malheureusement aucun moyen de savoir si la pharmacie participe à ce projet (plus d’une sur deux le fait) et aucun moyen d’accès pour voir après coup si vos données ont été envoyées. La CNIL a validé sur la base d’un devoir d’information qui n’est pas du tout présent dans la réalité et ça pose un vrai problème public.
9. Collecte statistique sur l’obésité avec : poids + taille + profession + ville + médecin traitant + date sans heure
https://twitter.com/edasfr/status/1481614752661094408
On pourrait même probablement retirer un des items sans changer le résultat : Ces données permettent de vous identifier avec une granularité raisonnable et ce sont des données à caractère personnel.
Rien que le médecin + date, c’est de l’ordre de la vingtaine de personnes. Si on ajoute la profession, la taille ou le poids, on tombe à la poignée de personnes.
Même sans la date, la somme des données peut individualiser assez peu de personnes pour un même médecin. La date permet de tracer votre fréquence de visite et vos jours de visite chez le médecin. On est dans les données de santé.
10. journaux d’activité d’un aspirateur connecté pour permettre l’amélioration et la correction des anomalies avec : cartographie spatiale de l’appartement, date de dernier passage, date de dernier passage avec succès, date de dernier échec à retrouver la base pour se charger
https://twitter.com/edasfr/status/1481614757614522374
La cartographie spatiale c’est un appartement et un seul, ou pas loin. Si on a le placement de la table du salon, ou la base de l’aspirateur, ou une date de passage, on peut vous individualiser et récupérer les autres données, qui peuvent dire des choses sur vous.
C’est assez peu sensible, il faut déjà bien vous connaitre pour vous identifier dans la base, et les informations annexes sont faibles, mais théoriquement on est bien dans la donnée à caractère personnel.
Les objets connectés sont de vrais cafteurs.
Laisser un commentaire