Auteur/autrice : Éric
-
[Inktober] 7– Fourbu
Couleur #333333 — Police a bebedera -
[Inktober] 6– Saliver
Couleur #CCFFFF – Police Advert -
[Inktober] 5. Poulet
Couleur #CC6600 — Police Kids Play -
[Inktober] 4. Incantation
Couleur #FFCC33 — Police Brooke Smith Script -
[Inktober] 3. rôti
Couleur #996600 — Police Yacimiento -
[Inktober] 2. Tranquille
Couleur #66CCCC — Police Dream Only -
[Inktober] 1. Vénéneux
Couleur #66900 — Police MB Think Twice -
Une histoire de bagagistes et de données personnelles
Une « étude » a été publiée, analysant l’activité Twitter autour de l’affaire Benalla. L’étude tente de classer et grouper les acteurs, et donc leur attribue un couleur politique. En fin d’étude, un peu de transparence : Le site donne le lien vers deux fichiers avec les données qualifiées.
Problème : Ces fichiers sont donc des listes d’identifiants auxquels on a associé l’intensité de leur activité politique sur le sujet, et pour certains une qualification plus complète de proximité avec certains médias ou types d’informations/désinformations.
Je me retrouve dans un des deux fichiers diffusés, évidemment contre mon gré. Résultat : Deux tweets. Un pour demander aux auteurs accès et information sur le cadre de ce fichier. Un pour demander à la CNIL si tout cela est normal et quels sont mes moyens d’action (ce dernier sera doublé d’une demande papier, la CNIL ne répondant pas sur Twitter, mais ça permet de diffuser la demande publiquement).
Discussions
Est-ce une donnée personnelle ? Oui, il y a peu de doutes sur le sujet. Un identifiant twitter est bien une donnée personnelle. Il identifie assez bien une personne, au même titre qu’un email, une adresse IP ou d’autres identifiants de connexion. Le fait que ces identifiants ne soient pas rattachés aux états civils des concernés ne leur retire en rien le qualificatif de donnée personnelle. Voir la CNIL « qu’est-ce qu’une donnée personnelle ».
Sont-ce des données sensibles ? C’est moins évident pour moi. L’opinion politique est une donnée dite « sensible » qui a un cadre particulier et qui nécessite des consentements explicites. J’ai tendance à penser que l’activité politique et son intensité est suffisamment lié à l’opinion politique pour être sensibles, surtout quand c’est lié à un sujet précis, et que derrière l’étude fait des classements où elle indique que sauf quelques rares cas, les acteurs significatifs sont tous classés dans trois sphères politiques d’opposition et pas affiliés LREM.
On donne des indications politiques ou de réaction à des informations politiques, même si c’est en préjugé et pas exact à 100%, ça qualifie à-priori pour être une donnée sensible.Mais c’est une information publique, que tu diffuses volontairement ! Oui, et ça ne retire en rien le fait que ce soit une donnée personnelle (Je cite la CNIL « Peu importe que ces informations soient confidentielles ou publiques ») et le cadre qui s’y rattache.
Pour enfoncer l’évidence : Le fait que des adresses email soit publiées quelque part n’autorise pas un tiers à les récolter pour en faire un fichier différent avec une finalité différente. La situation est similaire avec d’autres identifiants que les emails.Est-ce un fichier de données personnelles ? La remarque m’a un peu abasourdi mais elle a été faite. Physiquement il s’agit d’un fichier, qui contient des données personnelles. Pour la définition légale, le CIL du CNRS répond aussi « tout ensemble structuré de données à caractère personnel accessibles ». Et ici le traitement et la présentation de données nominatives sous forme de liste pour leur accès direct est l’objet même du fichier. Si celui-ci n’en était pas un, pas grand chose serait considéré comme fichier.
Les auteurs sont belges, ça ne concerne pas la CNIL française ! Peut-être. Je ne fais que demander à mon autorité locale quels sont mes moyens d’action. Une bonne partie des règlementations sont européennes donc tout à fait applicables aux belges. Heureusement pour nous, les frontières européennes ne blanchissent pas l’utilisation de données personnelles
Je ne suis cependant pas catégorique. On a une étude qui concerne essentiellement des français, sur un sujet de politique française, destiné à des français. Le fichier de données personnelles est lui même hébergé sur un site français (dl.free.fr) avec des serveurs français et une entité légale française. Dire que la loi française est inapplicable ici me semble aller un peu vite (mais quand bien même, l’autorité française pourra bien me répondre sur comment exercer mes droits vis à vis d’auteurs belges — la question posée est d’autant plus légitime.Tu as abandonné tous tes droits à Twitter, c’est un problème entre toi et Twitter ! Non. Quand bien même j’aurais autorisé Twitter à lui-même autoriser ses partenaires à faire ça (plus sur le sujet plus bas), le droit d’accès et d’information persiste pour tous ceux qui traitent mes données. J’exerce ce droit directement vis à vis de ceux qui diffusent le fichier. Twitter est totalement étranger à la question (et pour l’avoir fait par le passé avant que ça ne devienne à la mode ou que le RGPD n’existe, Twitter, eux, répondent très sérieusement à ce type de requêtes).
Ok, mais du coup les auteurs de l’étude ont bien le droit de faire ça parce que tu as tout cédé à Twitter ! Non. J’ai cédé certains droits. Un re-parcours récent des CGU et privacy policy de Twitter ne me montre rien qui autorise ce type de diffusion par les partenaires de Twitter. Avec le RGPD ce devrait pourtant être simple à trouver puisque les différents tiers doivent être listés avec l’intégralité des finalités, une à une. Je ne m’avancerai pas à dire que ça n’est pas présent, mais je n’ai pas trouvé. Vous êtes les bienvenus à me détromper (même si ça ne change rien à la légitimité de mes demandes d’information).
À noter que l’actualité est taquine puisque l’UFC a justement gagné un procès contre Twitter pour faire qualifier comme abusives certaines clauses, dont justement le traitement et la diffusion de données personnelles, et le fait de considérer que ces données sont. « publiques » par défaut.
Tout laisse à penser que les auteurs de l’étude ont juste utilisé l’API publique de recherche (ils donnent même leurs critères) et s’il n’est pas anormal qu’ils puissent récupérer les messages et faire des analyses statistiques dessus, ça ne les autorise pas à en tirer des fichiers de données personnelles et encore moins à les diffuser.Mais c’est pour la recherche, l’article 5b du RGPD autorise ces finalités ! J’avoue que je ne connais pas tout le cadre de cette autorisation, mais le fait de traiter les données n’autorise pas forcément le fait de diffuser ensuite un fichier de données personnelles alors que ce fichier ne représente ni les données d’origine (ie: les paramètres de recherche, et éventuellement par extension la sauvegarde des résultats de la recherche) ni les données de résultat (ie: les statistiques et éventuellement le nominatif des quelques comptes particuliers qui pourraient être cités unitairement dans l’étude).
La finalité de recherche est au moins encadré par l’article 89 qui dit précisément cela. Il aurait au minimum fallu anonymiser les données (ce qui leur aurait fait perdre le qualificatif de données personnelles), et ce qui n’a pas été fait.D’autres études font cela ! Je n’en suis pas si certain. Je suis curieux sur d’autres études européennes récentes (post-RGPD) qui diffuseraient ainsi publiquement des fichiers de données personnelles (non anonymisées) avec des informations sensibles, et ça sans l’accord des concernés.
Et quand bien même, si l’argument « d’autres le font » était légitime, nos tribunaux pourraient immédiatement fermer.Mais c’est une étude sérieuse ! En fait non. Au point qu’ils ont qualifié dans leurs sources de désinformations une information réelle et reconnue comme telle (oui la voiture avait des girophares). Les critères pris et leur sélection, les interprétations faites, tout semble du travail rapide et sans grande valeur. Ne parlons même pas de revue par des pairs.
Il y a surtout une « étude » qui est destinée à faire la une pour servir de vitrine médiatique et demander des subventions, avec des choses qui buzzent un peu comme « les russes ». Mis à part pour l’utilisation du logiciel qui traite les données ensuite, il n’y a pas grand chose.
Les études sérieuses font d’ailleurs à priori très attention aux questions d’anonymisation, parce que ça fait partie du métier. Pas ici.
Et quand bien même, ça n’autorise pas tout, et ça ne délégitime certainement pas une demande d’information. -
[Vocabulaire] le mentor et le …
Comment nommer l’interlocuteur du mentor ?
Je voulais éviter les termes élève ou apprenant qui me semblaient trop scolaires. Le mentor n’est pas un formateur mais un accompagnateur. J’aime l’idée qu’on est en apprentissage permanent mais je sais aussi bien l’image que ces termes vont donner chez des gens qui n’ont pas ce recul.
Plus généralement, je voulais éviter les termes qui laissent penser à un faible niveau de compétence pour la personne en face du mentor. Dans mon esprit un expert technique reconnu internationalement peut tout à fait avoir un mentor (et pas forcément un plus expert d’ailleurs). Les termes d’apprenti ou de stagiaire me gênent à ce niveau.
Je veux aussi absolument éviter les termes qui induisent une relation de subordination forte. Ce n’est pas ma vision de la chose. Le terme de disciple me fait immédiatement penser à la bande dessinée Léornard avec le génie et son disciple proche de l’esclave. Acolyte n’est que légèrement mieux.
Protégé est mieux mais on risque d’entrer dans le paternalisme qui n’est pas forcément de bon aloi, avec le risque de carrément infantiliser sans le vouloir.
Pour l’instant il me reste padawan, qui doit être compris de tout le monde dans le métier mais j’avoue que j’aurais aimé me séparer des environnements de ninjas, rockstars et autres jedi. En être réduit à prendre un terme à partir d’une fiction de guerre des étoiles me semble hallucinant.
On me propose mentoré, un peu par défaut. Je me vois bien utiliser ce terme dans une thèse ou un article scientifique, probablement moins dans le langage de tous les jours, et pas quand la personne est proche. Quitte à utiliser ce type de formulation, on me propose accompagné qui est peut-être plus joli car plus usuel.
Il y a aussi condisciple et compagnon. Même si on perd la notion de mentorat, compagnon est encore ce que j’ai trouvé de mieux, sans que cela ne me convienne vraiment (et puis, ça se féminise comment compagnon ?). Il y a une notion de communauté, j’y colle (peut-être à tort) une image d’entre-aide et d’apprentissage permanent quand c’est dans un contexte professionnel artisan.
Quitte à rester dans cette métaphore, affilié pourrait éventuellement convenir. Dans le compagnonage c’est celui qui a fini son apprentissage et qui est intégré à la communauté mais toujours considéré comme en perfectionnement. On a une proximité avec la notion de filiation professionnelle qui ne me déplait pas. Il reste que l’affilié n’est pas un compagnon à part entière, donc je garderai donc probablement compagnon rien que pour ça.
Avez-vous d’autres propositions ? (je mettrai à jour le billet)
-
Firefox, « anonyme par défaut »
J’aimerais avoir un Firefox configuré en « anonyme par défaut ». Ça veut dire deux choses :
- Un site ne doit pas pouvoir partager ou croiser les données avec un autre ;
- Un site ne doit pas pouvoir faire persister des données plus longtemps que la session en cours.
Si je veux garder une authentification permanente ou autoriser des croisements (par exemple pour des SSO), c’est à moi de le demander explicitement.
Ça pourrait être fait par une double préférence liée à chaque domaine, quelque chose du type « autoriser le domaine X à stocker des données persistantes dans ce contexte » et « ne pas isoler le domaine X en fonction de l’origine de la page principale ».
Un site ne doit pas pouvoir partager ou croiser les données avec un autre
Ce premier point est relativement bien couvert. L’extension first party isolation fait exactement ça. En gros tout le stockage (cookies, localstorage, indexeddb) est segmenté par l’origine de la page principale dans l’onglet.
Le composant Facebook inclut dans les pages de LeMonde ne partagera aucune données avec celui inclut dans les pages du Figaro. Il restera l’adresse IP et diverses techniques de fingerprinting, mais ça va un peu limiter.
Je navigue avec depuis des mois, plutôt avec succès. Il y a encore du boulot. Il faut le désactiver temporairement pour faire la configuration initiale de Pocket dans Firefox, ou pour le SSO « se connecter avec google » de quelques sites (pas tous, d’autres fontionnent bien) mais globalement ça passe très bien.
Une fois corrigées les anomalies et ajoutée une façon de désactiver l’isolation site par site, ça sera parfait.
Un site ne doit pas pouvoir faire persister des données plus longtemps que la session en cours
Ce second point est plus compliqué.
J’ai tenté initialement d’utiliser les conteneurs de Firefox pour ça mais tout ce que je peux faire c’est isoler des sites les uns des autres. Au final je me retrouve avec un conteneur par défaut qui contient la majorité du trafic et qui continue à garder mes traces de session en session.
Il y a peu j’ai trouvé l’extension temporary containers. L’idée c’est que, par défaut, le navigateur charge un nouveau conteneur temporaire dédié à chaque fois qu’on navigue vers un nouveau domaine. Ce conteneur et ses données sont détruits dès qu’on ferme l’onglet.
Globalement ça fonctionne mais il y a quelques soucis de performance ressentie (au moins des fermeture/réouverture visibles d’onglet lors des navigations) et si on affecte un site à un conteneur fixe pour éviter de se retrouver à chaque fois sur une page non authentifiée, on perd la capacité de l’utiliser en parallèle dans plusieurs conteneurs différents.
J’ai globalement l’impression d’abuser des conteneurs pour quelque chose qui n’est pas fait pour.
L’extension cookie autodelete a une autre approche. On garde le fonctionnement normal des conteneurs mais, par défaut, l’extension supprime les cookies d’un site dès qu’on ferme tous les onglets qui y mènent. Charge à l’utilisateur de faire des exceptions explicites site par site. Globalement ça fait le job mais ça n’efface ni le localstorage ni l’indexeddb, ne parlons même pas du tracking par cache HTTP.
Je trouve ça dommage. Intuitivement j’aurais pensé que supprimer des données était plus facile à faire pour le navigateur que créer une isolation supplémentaire entre les sites.
Suis-je le seul à chercher un tel niveau d’isolation ?
- Un site ne doit pas pouvoir partager ou croiser les données avec un autre ;