Auteur/autrice : Éric

  • DCP or not DCP ?

    https://twit­ter.com/edasfr/status/1481614710688600065

    Mon accroche quand on parle de DCP (données à carac­tère person­nel) c’est de dire « si la base fuite, qu’est-ce qui va pouvoir être fait avec ? » et d’ajou­ter ensuite « quel est le risque ? »

    Il y a forcé­ment une dose d’in­ter­pré­ta­tion et de subjec­ti­vité dans la réponse. Ça se verra parti­cu­liè­re­ment avec l’exemple 7. Je ne donne ici que mes propres inter­pré­ta­tions, pas des véri­tés géné­rales qui préten­draient s’ap­pliquer de façon univer­selle.

    1. prénom + nom + adresse postale

    https://twit­ter.com/edasfr/status/1481614716913037323

    Celui là est le plus facile. C’est évidem­ment une donnée à carac­tère person­nelle puisqu’elle est nomi­na­tive. Le risque asso­cié est toute­fois faible pour la plupart des gens.

    Dans toute la liste c’est la seule qui est nomi­na­tive mais c’est proba­ble­ment aussi la moins sensible. C’était impor­tant pour moi de le montrer.

    2. plaque d’im­ma­tri­cu­la­tion + heure de passage devant une caméra fixe

    https://twit­ter.com/edasfr/status/1481614720541016064

    La plaque d’im­ma­tri­cu­la­tion est une DCP en elle-même. Elle iden­ti­fie le proprié­taire du véhi­cule. Même si on parle du conduc­teur et pas du proprié­taire, on se restreint à un très petit groupe de personnes avec un très fort niveau de proba­bi­lité. Ça suffit très large­ment à parler de DCP.

    Cet exemple est impor­tant parce qu’il réper­to­rie toutes vos allées et venues. On sait qui vous êtes, où vous êtes, et quand.

    On peut savoir que vous vous trou­vez tous les jours à l’hô­pi­tal, ou que vous passez en pleine jour­née dans un quar­tier rési­den­tiel à une heure où vous devriez être au boulot, ou que depuis deux mois vous ne vous rendez plus au même endroit pour aller au travail, ou que vous êtes en isole­ment parce que sans dépla­ce­ment cette semaine, ou en voyage parce qu’on vous a croisé sur le trajet vers l’aé­ro­port puis plus rien pour quinze jours.

    Tout ça dit des choses sur vous, beau­coup de choses, pas toujours neutres.

    C’est d’au­tant plus impor­tant que le proprié­taire d’une imma­tri­cu­la­tion n’est pas une donnée si privée que ça. Le fichier des cartes grises est vendu (les pubs sur le contrôle tech­nique, ça vient de là) et acces­sible à pas mal de monde sous une forme ou une autre.

    Quand vous voyez certains se battre contre la recon­nais­sance faciale ou recon­nais­sance de plaques d’im­ma­tri­cu­la­tion sur la voie publique, on parle exac­te­ment de ça : Atten­tion danger si ces données sont conser­vées quelque part.

    3. traces GPS des diffé­rentes sorties de footing

    https://twit­ter.com/edasfr/status/1481614725603540999

    Celui là a été étudié dans la presse en long et en large avec des exemples réels. Oui c’est une donnée à carac­tère person­nel même s’il n’y a aucun iden­ti­fiant d’uti­li­sa­teur.

    On peut indi­vi­dua­li­ser des parcours, des habi­tudes, ou même simple­ment l’adresse de départ de la sortie. Sur certaines recherches la presse a pu iden­ti­fier des bases mili­taires, des indi­vi­dus, et mêmes des agents dont on n’au­rait pas dû savoir qu’ils travaillaient pour l’ar­mée. Ça unique­ment sur la base de traces GPS spor­tives.

    C’est vrai de la même façon pour vous et moi. On sait que vous n’êtes pas chez vous et quand, que ce matin vous avez inter­rompu votre footing pour voir quelqu’un pendant deux heures, et à quelle adresse, si vous avez fait une halte en phar­ma­cie ou si vous vous êtes arrêté devant la devan­ture de l’agent immo­bi­lier, si depuis deux semaines vous avez un problème de santé qui vous bloque à la maison, etc.

    4. statis­tiques de visite d’un site web avec : adresse ip + adresse de la page visi­tée + horo­da­tage

    https://twit­ter.com/edasfr/status/1481614730292834305

    L’adresse IP a une problé­ma­tique simi­laire à celle de la plaque d’im­ma­tri­cu­la­tion de la voiture. La liste des pages visi­tées est l’équi­valent numé­rique de la trace GPS. Oui c’est de la donnée à carac­tère person­nel, et c’est sacré­ment sensible.

    On sait ce que vous lisez, quand, vos habi­tudes et vos secrets, même les plus indis­crets. Un forum sur le cancer, l’or­ga­ni­sa­tion d’un diner, le programme de la télé… on fait quasi­ment tout par le web.

    De façon géné­rale tout ce qui est lié à une adresse IP est géné­ra­le­ment à carac­tère person­nel. Ça iden­ti­fie géné­ra­le­ment un foyer donc un groupe de personnes assez restreint. Il existe même des brokers en ligne qui à partir de l’adresse IP donnent contre quelques cents les nom, prénom et adresse des membres du foyer avec un bon niveau de confiance.

    Vous n’êtes pas anonymes sur le web. Les sites qui vous imposent Google Analy­tics sans votre consen­te­ment posent de sérieux problèmes de vie privée. Ce n’est pas que théo­rique.

    5. Tracking des taux de réponse à des publi­ci­tés avec pour chaque publi­cité vision­née : iden­ti­fiant unique aléa­toire pour chaque utili­sa­teur + infor­ma­tion sur le clic ou non clic sur la publi­cité

    https://twit­ter.com/edasfr/status/1481614730292834305

    Jusque là il n’y avait pas débat. On entre dans l’in­ter­pré­ta­tion un peu plus fine et ça se voit sur les réponses « non » qui montent à 25%.

    Sur le prin­cipe, s’il y a un iden­ti­fiant utili­sa­teur, même s’il ne corres­pond à rien (donc tiré au sort), pour peu qu’il permette de lier des données dans le temps, c’est géné­ra­le­ment une DCP.

    Si c’est juste une poignée de publi­ci­tés, sans marquage horaire ni adresse de la page, le risque d’iden­ti­fi­ca­tion est quasi nul et ne permet pas de savoir grand chose même si on y arrive.

    Si c’est un iden­ti­fiant stable sur vos visites de plein de sites, là c’est un grand « oui ». On commence à connaitre vos inté­rêts et à créer un profil. Parfois ça donne des infor­ma­tions que vous consi­dé­rez « très privées » (santé, sexe, amours, achats).

    Dans la réalité il y a un horo­da­tage, l’adresse de la page et des infor­ma­tions de profi­lage, et ça devient un énorme « oui ».
    Quand on se bat contre « les cookies » on se bat juste­ment contre ça.

    6. Envoi de statis­tiques par une balance connec­tée : poids mesuré + numéro de série de la balance

    https://twit­ter.com/edasfr/status/1481614739243417600

    J’aime beau­coup cet exemple parce que c’est un cas réel et « oui », c’est une DCP. Le numéro de série de la balance iden­ti­fie avec suffi­sam­ment de préci­sion une personne. Si on ajoute le poids, on a même géné­ra­le­ment qui dans la famille.

    Si la base fuite, n’im­porte qui passé chez vous peut tracer vos courbes de poids. Certains s’en foutent, d’autres pas du tout. Au niveau régle­men­taire, c’est de la donnée à carac­tère person­nel. Certains parle­ront même de données de santé, donc sensible par nature.

    Au niveau des objets connec­tés c’est malheu­reu­se­ment le far west.

    7. Statis­tiques de visites et de compor­te­ment d’un site web avec : adresse de la page, temps de char­ge­ment, date sans heure, temps d’in­te­rac­tion avec la page, adresse du lien cliqué, mesures des dépla­ce­ments de la souris, pays d’ori­gine

    https://twit­ter.com/edasfr/status/1481614742431088642

    Là c’est… « non » pour moi. On récolte beau­coup de choses, énor­mé­ment de choses, mais il n’y a rien pour lier les diffé­rentes visites d’un même utili­sa­teur, ni pour l’iden­ti­fier.

    C’est inté­res­sant parce que ça montre que :

    • DCP ou non n’est pas unique­ment lié à la quan­tité de données ou leur sensi­bi­lité, mais aussi comment on les lie ;
    • On peut faire des stats web pous­sées sans avoir besoin de consen­te­ment.

    Je note tout de même la réponse que m’a fait Aeris : Il y a un risque que vos habi­tudes de mani­pu­la­tion de souris puissent repré­sen­ter une empreinte unique que vous repro­dui­sez de visite en visite, et qu’un attaquant très poussé puisse lier vos données, donc les voir comme des DCP.

    L’in­ter­pré­ta­tion est là : Dans un cadre géné­ral c’est « non », pas de DCP, pas besoin de consen­te­ment. Si vous montez le nouveau wiki­leaks ou un outil d’ano­ny­mi­sa­tion comme Tor, ça pour­rait être « oui » parce que le risque est plus grand.

    Parler données person­nelles se fait aussi en fonc­tion du contexte.

    8. Statis­tiques anony­mi­sées sur les achats de médi­ca­ments dans les phar­ma­cies avec : iden­ti­fiant anony­misé (*) de la phar­ma­cie, ville de la phar­ma­cie, médi­ca­ment acheté, date sans heure, iden­ti­fiant anony­misé (*) à partir de la carte vitale

    https://twit­ter.com/edasfr/status/1481614746612871174

    C’est un autre cas réel. Un coucou pas très amical à IQVIA qui fait exac­te­ment ça. Oui, vos achats en phar­ma­cie sont tracés et enre­gis­trés par un tiers privé pour son propre usage commer­cial.

    La réalité c’est qu’ils parlent d’ano­ny­mi­sa­tion (et j’ai donc repris leur voca­bu­laire) mais ce qui est expli­cité est de la pseu­do­ny­mi­sa­tion (on garde un iden­ti­fiant stable par utili­sa­teur) et ça fait toute la diffé­rence.

    Oui les données, même sous pseu­do­nyme, restent à carac­tère person­nel vu qu’elles conti­nuent à vous concer­ner vous et personne d’autre.

    Combien de personnes en Savoie ont eu à la fois (des médi­ca­ments contre) un cancer en 2020 et (des médi­ca­ments contre) des cham­pi­gnons au pied en décembre en 2021 ? pas grand monde.

    Si la base fuite, on pour­rait iden­ti­fier qui vous êtes à partir de vos habi­tudes, et connaitre tout ce qui manque sur vos autres achats : quelles phar­ma­cies et donc où vous vous dépla­cez, quels achats et donc quelles affec­tions de santé.

    On pour­rait aussi vous iden­ti­fier en rejouant toute la chaîne de pseu­do­ny­mi­sa­tion (donc partir de vos iden­ti­fiants publics jusqu’à créer l’en­trée dans la base finale) et faire le lien ensuite. Des enti­tés du niveau d’un État peuvent tout connaître de vous.

    Pour finir l’his­toire du cas réel, même si c’est le cas en théo­rie, en pratique vous n’avez malheu­reu­se­ment aucun moyen de savoir si la phar­ma­cie parti­cipe à ce projet (plus d’une sur deux le fait) et aucun moyen d’ac­cès pour voir après coup si vos données ont été envoyées. La CNIL a validé sur la base d’un devoir d’in­for­ma­tion qui n’est pas du tout présent dans la réalité et ça pose un vrai problème public.

    9. Collecte statis­tique sur l’obé­sité avec : poids + taille + profes­sion + ville + méde­cin trai­tant + date sans heure

    https://twit­ter.com/edasfr/status/1481614752661094408

    On pour­rait même proba­ble­ment reti­rer un des items sans chan­ger le résul­tat : Ces données permettent de vous iden­ti­fier avec une granu­la­rité raison­nable et ce sont des données à carac­tère person­nel.

    Rien que le méde­cin + date, c’est de l’ordre de la ving­taine de personnes. Si on ajoute la profes­sion, la taille ou le poids, on tombe à la poignée de personnes.

    Même sans la date, la somme des données peut indi­vi­dua­li­ser assez peu de personnes pour un même méde­cin. La date permet de tracer votre fréquence de visite et vos jours de visite chez le méde­cin. On est dans les données de santé.

    10. jour­naux d’ac­ti­vité d’un aspi­ra­teur connecté pour permettre l’amé­lio­ra­tion et la correc­tion des anoma­lies avec : carto­gra­phie spatiale de l’ap­par­te­ment, date de dernier passage, date de dernier passage avec succès, date de dernier échec à retrou­ver la base pour se char­ger

    https://twit­ter.com/edasfr/status/1481614757614522374

    La carto­gra­phie spatiale c’est un appar­te­ment et un seul, ou pas loin. Si on a le place­ment de la table du salon, ou la base de l’as­pi­ra­teur, ou une date de passage, on peut vous indi­vi­dua­li­ser et récu­pé­rer les autres données, qui peuvent dire des choses sur vous.

    C’est assez peu sensible, il faut déjà bien vous connaitre pour vous iden­ti­fier dans la base, et les infor­ma­tions annexes sont faibles, mais théo­rique­ment on est bien dans la donnée à carac­tère person­nel.

    Les objets connec­tés sont de vrais cafteurs.

  • Le passé c’est le passé

    Le passé c’est le passé darling, ça para­site le présent

    Edna, Les Indes­truc­tibles

    Prendre ses déci­sions en fonc­tion du passé est un très mauvais réflexe. Peu importe les faits passés, ils sont passés.

    On prend les déci­sions en fonc­tion du présent, éven­tuel­le­ment en se servant de ce qu’on sait du passé pour imagi­ner ce que pour­rait être l’ave­nir.

    La distinc­tion est majeure mais elle demande une atten­tion de tous les jours quand l’émo­tion­nel et les juge­ments de valeur viennent s’en mêler.

  • Durée de vie des masques FFP2

    J’en­ten­dais circu­ler depuis un moment que les masques FFP2 sont réuti­li­sables tant qu’ils ne tombent pas en morceaux.

    Problème : Les boites expli­citent exac­te­ment l’op­posé et je ne crois pas à l’idée d’un complot des marchands de masques pour cacher une évidence.

    Bref, on peut réuti­li­ser un masque, c’est vrai aussi pour les chirur­gi­caux, mais leur protec­tion est-elle toujours valable ?

    Les auto­ri­tés françaises ont même par moment dit que les masques chirur­gi­caux peuvent être lavés en machine une dizaine de fois. D’autres sources parlent de les passer au four.

    Même si les auto­ri­tés gouver­ne­men­tales ont tendance à confir­mer l’idée d’une réuti­li­sa­tion, j’avoue être dubi­ta­tif parce le filtrage de ces masques utilise un filtre élec­tro­sta­tique (c’est aussi vrai pour les FFP2). Ce filtre serait très proba­ble­ment éliminé en machine. C’est d’ailleurs aussi en partie à cause de ce filtre que ces masques sont à reti­rer une fois humides.

    J’ai besoin d’une source scien­ti­fique avec des détails.

    C’est le maga­zine QueC­hoi­sir qui finit de confir­mer mes doutes alors que juste­ment ils disent qu’on peut les réuti­li­ser 10 lavages à 60° suivi d’un séchage au sèche cheveux, tests à l’ap­pui.

    Le tableau est éclai­rant. Ce que leur proto­cole raconte c’est qu’a­près 10 lavages, un masque FFP2 est au moins aussi effi­cace qu’un masque en tissu modèle grand public pour les parti­cules de plus de 3 µm.

    Bref, le FFP2 est lavable pour peu qu’on n’en attende rien de plus qu’un masque en tissu norme AFNOR grand public.

    Problème : Ce n’est pas ce qu’on demande à un masque FFP2, qui est censé filtrer les parti­cules jusqu’à 0,6 µm et ne pas avoir de fuite d’air.

    Plein de gens m’ont genti­ment pointé le test de QueC­hoi­sir quand j’ai initia­le­ment posé ma ques­tion. J’en déduis que le maga­zine a signi­fi­ca­ti­ve­ment dété­rioré le débat public avec une présen­ta­tion trom­peuse des infor­ma­tions. Pas très glorieux.

    Alors ?

    Non, personne n’a pu me poin­ter de source un mini­mum fiable ou perti­nente étayant l’ef­fi­ca­cité d’un masque FFP2 (ou même chirur­gi­cal) pour sa desti­na­tion initiale après un lavage ou un passage au four.

    Les éléments allant en ce sens réfé­rencent des usages très diffé­rents et qui n’offrent pas du tout la même protec­tion.

    On va s’en tenir aux préco­ni­sa­tions des fabri­cants : 8 heures maxi­mum, tant qu’il n’est pas humide, sans réuti­li­sa­tion (ou du moins modé­ré­ment).

  • En prévi­sion des crevai­sons vélo

    Trouvé dans une vidéo Décath­lon : Aligner l’ins­crip­tion sur le flanc du pneu avec la valve de la chambre à air.

    Quand on trouve et retire ce qui gêne dans le pneu, on peut iden­ti­fier rapi­de­ment l’en­droit corres­pon­dant dans la chambre à air qu’on vient de reti­rer sans avoir à explo­rer chaque centi­mètre de caou­tchouc.

  • Refu­ser

    Il y a un senti­ment de séré­nité indes­crip­tible à chaque fois que je refuse des contrats sur mon acti­vité de free­lance.

    Je suis peu solli­cité et je dis encore plus rare­ment oui. J’ai­me­rais bien déve­lop­per plus cette acti­vité mais dire « je ne suis pas la bonne personne », que ce soit au niveau tarifs, compa­ti­bi­lité de carac­tère ou valeur ajou­tée, me donne l’im­pres­sion de faire les choses bien.

    Ça me donne fina­le­ment bien plus de boost à l’égo que quand on me contacte pour quelque chose qui corres­pond parce que ça confirme mes valeurs et mon posi­tion­ne­ment.

  • Vidéos de We Love Speed

    Les vidéos de We Love Speed 2021 sont sorties sur Youtube.

    J’ai la tris­tesse de ne pas avoir pu y assis­ter. Je suis preneur de vos recom­man­da­tions sur quelles présen­ta­tions regar­der.

  • Délé­guer ses idées

    Passer un projet qu’on a en tête.
    Voir que la personne le trans­forme un peu et le conçoit autre­ment.
    Partir pour lui expliquer ce que je veux vrai­ment, lui dicter ce qu’il y a à faire.
    Se rete­nir, lâcher prise.

    Délé­guer c’est lâcher prise, accep­ter que les gens abordent le même objec­tif diffé­rem­ment, voire adaptent les objec­tifs à leur vision.

    Ne pas déci­der soi c’est la diffé­rence entre « délé­guer » et « faire exécu­ter ». Ça tombe sous le sens mais c’est aussi facile de l’ou­blier quand on a la tête dans le guidon.

  • Peri­text : A CRDT for Rich-Text Colla­bo­ra­tion

    Je me rappelle avoir fouillé Prose­mir­ror et les OT pour implé­men­ter l’édi­tion colla­bo­ra­tive de Cozy Notes.

    C’était une implé­men­ta­tion simpliste faite pour quelques auteurs simul­ta­nés sur un même docu­ment. Le vrai enjeu était de pouvoir gérer à la fois le colla­bo­ra­tif en ligne et la capa­cité de modi­fier un docu­ment hors ligne sur un temps long.

    C’est ce que tente Peri­text et c’est un problème bien plus complexe.

    In this article we present Peri­text, an algo­rithm for rich-text colla­bo­ra­tion that provides grea­ter flexi­bi­lity: it allows users to edit inde­pendent copies of a docu­ment, and it provides a mecha­nism for auto­ma­ti­cally merging those versions back toge­ther in a way that preserves the users’ intent as much as possible. Once the versions are merged, the algo­rithm guaran­tees that all users converge towards the same merged result.

    https://www.inkand­switch.com/peritext/

  • Today I lear­ned : Les meutes de loups

    Wolf packs don’t actually have alpha males and alpha females, the idea is based on a misun­ders­tan­ding
    […]

    Most wolf packs simply consist of two parents and their puppies. The group may also include one- to three-year-old offspring that have not yet headed out on their own.

    « The adults are simply in charge because they are the parents of the rest of the pack members. We don’t talk about the alpha male, the alpha female and the beta child in a human family, » Zimmer­mann said.

    https://phys.org/news/2021–04-wolf-dont-alpha-males-females.html

    La suite est aussi inté­res­sante. Les idées de mâles alpha et de hiérar­chie viennent d’ob­ser­va­tions en capti­vité où on force des loups adultes de familles diffé­rentes à coha­bi­ter dans des espaces réduits. Ce sont des compor­te­ments provoqués qui n’ont rien de ceux que choi­sissent les loups quand ils ont le choix.

    Et tout ça a des consé­quences :

    « Once the concept of the wolf and its strict hierar­chy was esta­bli­shed, trai­ners were more likely to use punish­ment. It wasn’t just that the dog was puni­shed when it did some­thing wrong, you had to show the dog that you were the alpha wolf all the time, » she said.

    Nous justi­fions nos propres horreurs avec des compor­te­ments que nous avons nous-même provoqués.

  • D’où vient cette &é’çà& de requête ?

    Astuce vue ce matin, je ne sais plus où :

    Ajou­ter un commen­taire dans chaque requête de base de données pour y mention­ner la loca­li­sa­tion de cette requête dans le code source (fichier, ligne).

    Objec­tif : Dans les jour­naux du SGBD, pouvoir tracer d’où vient la requête lente ou problé­ma­tique qu’on a en face de nous.

    Sur certains langages et cadres de travail ça peut même s’au­to­ma­ti­ser pour que ce soit fait auto­ma­tique­ment. En SQL c’est tout ce qui est après ‘-- ‘. En Mongo c’est dans $comment.