Auteur/autrice : Éric

  • [Inkto­ber] 7– Fourbu

    Couleur #333333 — Police a bebe­dera

  • [Inkto­ber] 6– Sali­ver

    Couleur #CCFFFF – Police Advert
  • [Inkto­ber] 5. Poulet

    Couleur #CC6600 — Police Kids Play
  • [Inkto­ber] 4. Incan­ta­tion

    Couleur #FFCC33 — Police Brooke Smith Script
  • [Inkto­ber] 3. rôti

    Couleur #996600 — Police Yaci­miento
  • [Inkto­ber] 2. Tranquille

    Couleur #66CCCC — Police Dream Only
  • [Inkto­ber] 1. Véné­neux

    Couleur #66900 — Police MB Think Twice
  • Une histoire de baga­gistes et de données person­nelles

    Une « étude » a été publiée, analy­sant l’ac­ti­vité Twit­ter autour de l’af­faire Benalla. L’étude tente de clas­ser et grou­per les acteurs, et donc leur attri­bue un couleur poli­tique. En fin d’étude, un peu de trans­pa­rence : Le site donne le lien vers deux fichiers avec les données quali­fiées.

    Problème : Ces fichiers sont donc des listes d’iden­ti­fiants auxquels on a asso­cié l’in­ten­sité de leur acti­vité poli­tique sur le sujet, et pour certains une quali­fi­ca­tion plus complète de proxi­mité avec certains médias ou types d’in­for­ma­tions/désin­for­ma­tions.

    Je me retrouve dans un des deux fichiers diffu­sés, évidem­ment contre mon gré. Résul­tat : Deux tweets. Un pour deman­der aux auteurs accès et infor­ma­tion sur le cadre de ce fichier. Un pour deman­der à la CNIL si tout cela est normal et quels sont mes moyens d’ac­tion (ce dernier sera doublé d’une demande papier, la CNIL ne répon­dant pas sur Twit­ter, mais ça permet de diffu­ser la demande publique­ment).

    Discus­sions

    Est-ce une donnée person­nelle ? Oui, il y a peu de doutes sur le sujet. Un iden­ti­fiant twit­ter est bien une donnée person­nelle. Il iden­ti­fie assez bien une personne, au même titre qu’un email, une adresse IP ou d’autres iden­ti­fiants de connexion. Le fait que ces iden­ti­fiants ne soient pas ratta­chés aux états civils des concer­nés ne leur retire en rien le quali­fi­ca­tif de donnée person­nelle. Voir la CNIL « qu’est-ce qu’une donnée person­nelle ».

    Sont-ce des données sensibles ? C’est moins évident pour moi. L’opi­nion poli­tique est une donnée dite « sensible » qui a un cadre parti­cu­lier et qui néces­site des consen­te­ments expli­cites. J’ai tendance à penser que l’ac­ti­vité poli­tique et son inten­sité est suffi­sam­ment lié à l’opi­nion poli­tique pour être sensibles, surtout quand c’est lié à un sujet précis, et que derrière l’étude fait des clas­se­ments où elle indique que sauf quelques rares cas, les acteurs signi­fi­ca­tifs sont tous clas­sés dans trois sphères poli­tiques d’op­po­si­tion et pas affi­liés LREM.
    On donne des indi­ca­tions poli­tiques ou de réac­tion à des infor­ma­tions poli­tiques, même si c’est en préjugé et pas exact à 100%, ça quali­fie à-priori pour être une donnée sensible.

    Mais c’est une infor­ma­tion publique, que tu diffuses volon­tai­re­ment ! Oui, et ça ne retire en rien le fait que ce soit une donnée person­nelle (Je cite la CNIL « Peu importe que ces infor­ma­tions soient confi­den­tielles ou publiques ») et le cadre qui s’y rattache.
    Pour enfon­cer l’évi­dence : Le fait que des adresses email soit publiées quelque part n’au­to­rise pas un tiers à les récol­ter pour en faire un fichier diffé­rent avec une fina­lité diffé­rente. La situa­tion est simi­laire avec d’autres iden­ti­fiants que les emails.

    Est-ce un fichier de données person­nelles ? La remarque m’a un peu abasourdi mais elle a été faite. Physique­ment il s’agit d’un fichier, qui contient des données person­nelles. Pour la défi­ni­tion légale, le CIL du CNRS répond aussi « tout ensemble struc­turé de données à carac­tère person­nel acces­sibles ». Et ici le trai­te­ment et la présen­ta­tion de données nomi­na­tives sous forme de liste pour leur accès direct est l’objet même du fichier. Si celui-ci n’en était pas un, pas grand chose serait consi­déré comme fichier.

    Les auteurs sont belges, ça ne concerne pas la CNIL française ! Peut-être. Je ne fais que deman­der à mon auto­rité locale quels sont mes moyens d’ac­tion. Une bonne partie des règle­men­ta­tions sont euro­péennes donc tout à fait appli­cables aux belges. Heureu­se­ment pour nous, les fron­tières euro­péennes ne blan­chissent pas l’uti­li­sa­tion de données person­nelles
    Je ne suis cepen­dant pas caté­go­rique. On a une étude qui concerne essen­tiel­le­ment des français, sur un sujet de poli­tique française, destiné à des français. Le fichier de données person­nelles est lui même hébergé sur un site français (dl.free.fr) avec des serveurs français et une entité légale française. Dire que la loi française est inap­pli­cable ici me semble aller un peu vite (mais quand bien même, l’au­to­rité française pourra bien me répondre sur comment exer­cer mes droits vis à vis d’au­teurs belges — la ques­tion posée est d’au­tant plus légi­time.

    Tu as aban­donné tous tes droits à Twit­ter, c’est un problème entre toi et Twit­ter ! Non. Quand bien même j’au­rais auto­risé Twit­ter à lui-même auto­ri­ser ses parte­naires à faire ça (plus sur le sujet plus bas), le droit d’ac­cès et d’in­for­ma­tion persiste pour tous ceux qui traitent mes données. J’exerce ce droit direc­te­ment vis à vis de ceux qui diffusent le fichier. Twit­ter est tota­le­ment étran­ger à la ques­tion (et pour l’avoir fait par le passé avant que ça ne devienne à la mode ou que le RGPD n’existe, Twit­ter, eux, répondent très sérieu­se­ment à ce type de requêtes).

    Ok, mais du coup les auteurs de l’étude ont bien le droit de faire ça parce que tu as tout cédé à Twit­ter ! Non. J’ai cédé certains droits. Un re-parcours récent des CGU et privacy policy de Twit­ter ne me montre rien qui auto­rise ce type de diffu­sion par les parte­naires de Twit­ter. Avec le RGPD ce devrait pour­tant être simple à trou­ver puisque les diffé­rents tiers doivent être listés avec l’in­té­gra­lité des fina­li­tés, une à une. Je ne m’avan­ce­rai pas à dire que ça n’est pas présent, mais je n’ai pas trouvé. Vous êtes les bien­ve­nus à me détrom­per (même si ça ne change rien à la légi­ti­mité de mes demandes d’in­for­ma­tion).
    À noter que l’ac­tua­lité est taquine puisque l’UFC a juste­ment gagné un procès contre Twit­ter pour faire quali­fier comme abusives certaines clauses, dont juste­ment le trai­te­ment et la diffu­sion de données person­nelles, et le fait de consi­dé­rer que ces données sont. « publiques » par défaut.
    Tout laisse à penser que les auteurs de l’étude ont juste utilisé l’API publique de recherche (ils donnent même leurs critères) et s’il n’est pas anor­mal qu’ils puissent récu­pé­rer les messages et faire des analyses statis­tiques dessus, ça ne les auto­rise pas à en tirer des fichiers de données person­nelles et encore moins à les diffu­ser.

    Mais c’est pour la recherche, l’ar­ticle 5b du RGPD auto­rise ces fina­li­tés ! J’avoue que je ne connais pas tout le cadre de cette auto­ri­sa­tion, mais le fait de trai­ter les données n’au­to­rise pas forcé­ment le fait de diffu­ser ensuite un fichier de données person­nelles alors que ce fichier ne repré­sente ni les données d’ori­gine (ie: les para­mètres de recherche, et éven­tuel­le­ment par exten­sion la sauve­garde des résul­tats de la recherche) ni les données de résul­tat (ie: les statis­tiques et éven­tuel­le­ment le nomi­na­tif des quelques comptes parti­cu­liers qui pour­raient être cités unitai­re­ment dans l’étude).
    La fina­lité de recherche est au moins enca­dré par l’ar­ticle 89 qui dit préci­sé­ment cela. Il aurait au mini­mum fallu anony­mi­ser les données (ce qui leur aurait fait perdre le quali­fi­ca­tif de données person­nelles), et ce qui n’a pas été fait.

    D’autres études font cela ! Je n’en suis pas si certain. Je suis curieux sur d’autres études euro­péennes récentes (post-RGPD) qui diffu­se­raient ainsi publique­ment des fichiers de données person­nelles (non anony­mi­sées) avec des infor­ma­tions sensibles, et ça sans l’ac­cord des concer­nés.
    Et quand bien même, si l’ar­gu­ment « d’autres le font » était légi­time, nos tribu­naux pour­raient immé­dia­te­ment fermer.

    Mais c’est une étude sérieuse ! En fait non. Au point qu’ils ont quali­fié dans leurs sources de désin­for­ma­tions une infor­ma­tion réelle et recon­nue comme telle (oui la voiture avait des giro­phares). Les critères pris et leur sélec­tion, les inter­pré­ta­tions faites, tout semble du travail rapide et sans grande valeur. Ne parlons même pas de revue par des pairs.
    Il y a surtout une « étude » qui est desti­née à faire la une pour servir de vitrine média­tique et deman­der des subven­tions, avec des choses qui buzzent un peu comme « les russes ». Mis à part pour l’uti­li­sa­tion du logi­ciel qui traite les données ensuite, il n’y a pas grand chose.
    Les études sérieuses font d’ailleurs à priori très atten­tion aux ques­tions d’ano­ny­mi­sa­tion, parce que ça fait partie du métier. Pas ici.
    Et quand bien même, ça n’au­to­rise pas tout, et ça ne délé­gi­time certai­ne­ment pas une demande d’in­for­ma­tion.

  • [Voca­bu­laire] le mentor et le …

    Comment nommer l’in­ter­lo­cu­teur du mentor ?

    Je voulais éviter les termes élève ou appre­nant qui me semblaient trop scolaires. Le mentor n’est pas un forma­teur mais un accom­pa­gna­teur. J’aime l’idée qu’on est en appren­tis­sage perma­nent mais je sais aussi bien l’image que ces termes vont donner chez des gens qui n’ont pas ce recul.

    Plus géné­ra­le­ment, je voulais éviter les termes qui laissent penser à un faible niveau de compé­tence pour la personne en face du mentor. Dans mon esprit un expert tech­nique reconnu inter­na­tio­na­le­ment peut tout à fait avoir un mentor (et pas forcé­ment un plus expert d’ailleurs). Les termes d’apprenti ou de stagiaire me gênent à ce niveau.

    Je veux aussi abso­lu­ment éviter les termes qui induisent une rela­tion de subor­di­na­tion forte. Ce n’est pas ma vision de la chose. Le terme de disciple me fait immé­dia­te­ment penser à la bande dessi­née Léor­nard avec le génie et son disciple proche de l’es­clave. Acolyte n’est que légè­re­ment mieux. 
    Protégé
    est mieux mais on risque d’en­trer dans le pater­na­lisme qui n’est pas forcé­ment de bon aloi, avec le risque de carré­ment infan­ti­li­ser sans le vouloir.


    Pour l’ins­tant il me reste pada­wan, qui doit être compris de tout le monde dans le métier mais j’avoue que j’au­rais aimé me sépa­rer des envi­ron­ne­ments de ninjas, rocks­tars et autres jedi. En être réduit à prendre un terme à partir d’une fiction de guerre des étoiles me semble hallu­ci­nant.

    On me propose mentoré, un peu par défaut. Je me vois bien utili­ser ce terme dans une thèse ou un article scien­ti­fique, proba­ble­ment moins dans le langage de tous les jours, et pas quand la personne est proche. Quitte à utili­ser ce type de formu­la­tion, on me propose accom­pa­gné qui est peut-être plus joli car plus usuel.

    Il y a aussi condis­ciple et compa­gnon. Même si on perd la notion de mento­rat, compa­gnon est encore ce que j’ai trouvé de mieux, sans que cela ne me convienne vrai­ment (et puis, ça se fémi­nise comment compa­gnon ?). Il y a une notion de commu­nauté, j’y colle (peut-être à tort) une image d’entre-aide et d’ap­pren­tis­sage perma­nent quand c’est dans un contexte profes­sion­nel arti­san.

    Quitte à rester dans cette méta­phore, affi­lié pour­rait éven­tuel­le­ment conve­nir. Dans le compa­gno­nage c’est celui qui a fini son appren­tis­sage et qui est inté­gré à la commu­nauté mais toujours consi­déré comme en perfec­tion­ne­ment. On a une proxi­mité avec la notion de filia­tion profes­sion­nelle qui ne me déplait pas. Il reste que l’affi­lié n’est pas un compa­gnon à part entière, donc je garde­rai donc proba­ble­ment compa­gnon rien que pour ça.

    Avez-vous d’autres propo­si­tions ? (je mettrai à jour le billet)

  • Fire­fox, « anonyme par défaut »

    J’ai­me­rais avoir un Fire­fox confi­guré en « anonyme par défaut ». Ça veut dire deux choses :

    1. Un site ne doit pas pouvoir parta­ger ou croi­ser les données avec un autre ;
    2. Un site ne doit pas pouvoir faire persis­ter des données plus long­temps que la session en cours.

    Si je veux garder une authen­ti­fi­ca­tion perma­nente ou auto­ri­ser des croi­se­ments (par exemple pour des SSO), c’est à moi de le deman­der expli­ci­te­ment.

    Ça pour­rait être fait par une double préfé­rence liée à chaque domaine, quelque chose du type « auto­ri­ser le domaine X à stocker des données persis­tantes dans ce contexte » et « ne pas isoler le domaine X en fonc­tion de l’ori­gine de la page prin­ci­pale ».


    Un site ne doit pas pouvoir parta­ger ou croi­ser les données avec un autre

    Ce premier point est rela­ti­ve­ment bien couvert. L’ex­ten­sion first party isola­tion fait exac­te­ment ça. En gros tout le stockage (cookies, local­sto­rage, indexeddb) est segmenté par l’ori­gine de la page prin­ci­pale dans l’on­glet.

    Le compo­sant Face­book inclut dans les pages de LeMonde ne parta­gera aucune données avec celui inclut dans les pages du Figaro. Il restera l’adresse IP et diverses tech­niques de finger­prin­ting, mais ça va un peu limi­ter.

    Je navigue avec depuis des mois, plutôt avec succès. Il y a encore du boulot. Il faut le désac­ti­ver tempo­rai­re­ment pour faire la confi­gu­ra­tion initiale de Pocket dans Fire­fox, ou pour le SSO « se connec­ter avec google » de quelques sites (pas tous, d’autres fontionnent bien) mais globa­le­ment ça passe très bien.

    Une fois corri­gées les anoma­lies et ajou­tée une façon de désac­ti­ver l’iso­la­tion site par site, ça sera parfait.


    Un site ne doit pas pouvoir faire persis­ter des données plus long­temps que la session en cours

    Ce second point est plus compliqué.

    J’ai tenté initia­le­ment d’uti­li­ser les conte­neurs de Fire­fox pour ça mais tout ce que je peux faire c’est isoler des sites les uns des autres. Au final je me retrouve avec un conte­neur par défaut qui contient la majo­rité du trafic et qui conti­nue à garder mes traces de session en session.

    Il y a peu j’ai trouvé l’ex­ten­sion tempo­rary contai­ners. L’idée c’est que, par défaut, le navi­ga­teur charge un nouveau conte­neur tempo­raire dédié à chaque fois qu’on navigue vers un nouveau domaine. Ce conte­neur et ses données sont détruits dès qu’on ferme l’on­glet.

    Globa­le­ment ça fonc­tionne mais il y a quelques soucis de perfor­mance ressen­tie (au moins des ferme­ture/réou­ver­ture visibles d’on­glet lors des navi­ga­tions) et si on affecte un site à un conte­neur fixe pour éviter de se retrou­ver à chaque fois sur une page non authen­ti­fiée, on perd la capa­cité de l’uti­li­ser en paral­lèle dans plusieurs conte­neurs diffé­rents.

    J’ai globa­le­ment l’im­pres­sion d’abu­ser des conte­neurs pour quelque chose qui n’est pas fait pour.

    L’ex­ten­sion cookie auto­de­lete a une autre approche. On garde le fonc­tion­ne­ment normal des conte­neurs mais, par défaut, l’ex­ten­sion supprime les cookies d’un site dès qu’on ferme tous les onglets qui y mènent. Charge à l’uti­li­sa­teur de faire des excep­tions expli­cites site par site. Globa­le­ment ça fait le job mais ça n’ef­face ni le local­sto­rage ni l’in­dexeddb, ne parlons même pas du tracking par cache HTTP.

    Je trouve ça dommage. Intui­ti­ve­ment j’au­rais pensé que suppri­mer des données était plus facile à faire pour le navi­ga­teur que créer une isola­tion supplé­men­taire entre les sites.

    Suis-je le seul à cher­cher un tel niveau d’iso­la­tion ?