Une histoire de baga­gistes et de données person­nelles

Une « étude » a été publiée, analy­sant l’ac­ti­vité Twit­ter autour de l’af­faire Benalla. L’étude tente de clas­ser et grou­per les acteurs, et donc leur attri­bue un couleur poli­tique. En fin d’étude, un peu de trans­pa­rence : Le site donne le lien vers deux fichiers avec les données quali­fiées.

Problème : Ces fichiers sont donc des listes d’iden­ti­fiants auxquels on a asso­cié l’in­ten­sité de leur acti­vité poli­tique sur le sujet, et pour certains une quali­fi­ca­tion plus complète de proxi­mité avec certains médias ou types d’in­for­ma­tions/désin­for­ma­tions.

Je me retrouve dans un des deux fichiers diffu­sés, évidem­ment contre mon gré. Résul­tat : Deux tweets. Un pour deman­der aux auteurs accès et infor­ma­tion sur le cadre de ce fichier. Un pour deman­der à la CNIL si tout cela est normal et quels sont mes moyens d’ac­tion (ce dernier sera doublé d’une demande papier, la CNIL ne répon­dant pas sur Twit­ter, mais ça permet de diffu­ser la demande publique­ment).

Discus­sions

Est-ce une donnée person­nelle ? Oui, il y a peu de doutes sur le sujet. Un iden­ti­fiant twit­ter est bien une donnée person­nelle. Il iden­ti­fie assez bien une personne, au même titre qu’un email, une adresse IP ou d’autres iden­ti­fiants de connexion. Le fait que ces iden­ti­fiants ne soient pas ratta­chés aux états civils des concer­nés ne leur retire en rien le quali­fi­ca­tif de donnée person­nelle. Voir la CNIL « qu’est-ce qu’une donnée person­nelle ».

Sont-ce des données sensibles ? C’est moins évident pour moi. L’opi­nion poli­tique est une donnée dite « sensible » qui a un cadre parti­cu­lier et qui néces­site des consen­te­ments expli­cites. J’ai tendance à penser que l’ac­ti­vité poli­tique et son inten­sité est suffi­sam­ment lié à l’opi­nion poli­tique pour être sensibles, surtout quand c’est lié à un sujet précis, et que derrière l’étude fait des clas­se­ments où elle indique que sauf quelques rares cas, les acteurs signi­fi­ca­tifs sont tous clas­sés dans trois sphères poli­tiques d’op­po­si­tion et pas affi­liés LREM.
On donne des indi­ca­tions poli­tiques ou de réac­tion à des infor­ma­tions poli­tiques, même si c’est en préjugé et pas exact à 100%, ça quali­fie à-priori pour être une donnée sensible.

Mais c’est une infor­ma­tion publique, que tu diffuses volon­tai­re­ment ! Oui, et ça ne retire en rien le fait que ce soit une donnée person­nelle (Je cite la CNIL « Peu importe que ces infor­ma­tions soient confi­den­tielles ou publiques ») et le cadre qui s’y rattache.
Pour enfon­cer l’évi­dence : Le fait que des adresses email soit publiées quelque part n’au­to­rise pas un tiers à les récol­ter pour en faire un fichier diffé­rent avec une fina­lité diffé­rente. La situa­tion est simi­laire avec d’autres iden­ti­fiants que les emails.

Est-ce un fichier de données person­nelles ? La remarque m’a un peu abasourdi mais elle a été faite. Physique­ment il s’agit d’un fichier, qui contient des données person­nelles. Pour la défi­ni­tion légale, le CIL du CNRS répond aussi « tout ensemble struc­turé de données à carac­tère person­nel acces­sibles ». Et ici le trai­te­ment et la présen­ta­tion de données nomi­na­tives sous forme de liste pour leur accès direct est l’objet même du fichier. Si celui-ci n’en était pas un, pas grand chose serait consi­déré comme fichier.

Les auteurs sont belges, ça ne concerne pas la CNIL française ! Peut-être. Je ne fais que deman­der à mon auto­rité locale quels sont mes moyens d’ac­tion. Une bonne partie des règle­men­ta­tions sont euro­péennes donc tout à fait appli­cables aux belges. Heureu­se­ment pour nous, les fron­tières euro­péennes ne blan­chissent pas l’uti­li­sa­tion de données person­nelles
Je ne suis cepen­dant pas caté­go­rique. On a une étude qui concerne essen­tiel­le­ment des français, sur un sujet de poli­tique française, destiné à des français. Le fichier de données person­nelles est lui même hébergé sur un site français (dl.free.fr) avec des serveurs français et une entité légale française. Dire que la loi française est inap­pli­cable ici me semble aller un peu vite (mais quand bien même, l’au­to­rité française pourra bien me répondre sur comment exer­cer mes droits vis à vis d’au­teurs belges — la ques­tion posée est d’au­tant plus légi­time.

Tu as aban­donné tous tes droits à Twit­ter, c’est un problème entre toi et Twit­ter ! Non. Quand bien même j’au­rais auto­risé Twit­ter à lui-même auto­ri­ser ses parte­naires à faire ça (plus sur le sujet plus bas), le droit d’ac­cès et d’in­for­ma­tion persiste pour tous ceux qui traitent mes données. J’exerce ce droit direc­te­ment vis à vis de ceux qui diffusent le fichier. Twit­ter est tota­le­ment étran­ger à la ques­tion (et pour l’avoir fait par le passé avant que ça ne devienne à la mode ou que le RGPD n’existe, Twit­ter, eux, répondent très sérieu­se­ment à ce type de requêtes).

Ok, mais du coup les auteurs de l’étude ont bien le droit de faire ça parce que tu as tout cédé à Twit­ter ! Non. J’ai cédé certains droits. Un re-parcours récent des CGU et privacy policy de Twit­ter ne me montre rien qui auto­rise ce type de diffu­sion par les parte­naires de Twit­ter. Avec le RGPD ce devrait pour­tant être simple à trou­ver puisque les diffé­rents tiers doivent être listés avec l’in­té­gra­lité des fina­li­tés, une à une. Je ne m’avan­ce­rai pas à dire que ça n’est pas présent, mais je n’ai pas trouvé. Vous êtes les bien­ve­nus à me détrom­per (même si ça ne change rien à la légi­ti­mité de mes demandes d’in­for­ma­tion).
À noter que l’ac­tua­lité est taquine puisque l’UFC a juste­ment gagné un procès contre Twit­ter pour faire quali­fier comme abusives certaines clauses, dont juste­ment le trai­te­ment et la diffu­sion de données person­nelles, et le fait de consi­dé­rer que ces données sont. « publiques » par défaut.
Tout laisse à penser que les auteurs de l’étude ont juste utilisé l’API publique de recherche (ils donnent même leurs critères) et s’il n’est pas anor­mal qu’ils puissent récu­pé­rer les messages et faire des analyses statis­tiques dessus, ça ne les auto­rise pas à en tirer des fichiers de données person­nelles et encore moins à les diffu­ser.

Mais c’est pour la recherche, l’ar­ticle 5b du RGPD auto­rise ces fina­li­tés ! J’avoue que je ne connais pas tout le cadre de cette auto­ri­sa­tion, mais le fait de trai­ter les données n’au­to­rise pas forcé­ment le fait de diffu­ser ensuite un fichier de données person­nelles alors que ce fichier ne repré­sente ni les données d’ori­gine (ie: les para­mètres de recherche, et éven­tuel­le­ment par exten­sion la sauve­garde des résul­tats de la recherche) ni les données de résul­tat (ie: les statis­tiques et éven­tuel­le­ment le nomi­na­tif des quelques comptes parti­cu­liers qui pour­raient être cités unitai­re­ment dans l’étude).
La fina­lité de recherche est au moins enca­dré par l’ar­ticle 89 qui dit préci­sé­ment cela. Il aurait au mini­mum fallu anony­mi­ser les données (ce qui leur aurait fait perdre le quali­fi­ca­tif de données person­nelles), et ce qui n’a pas été fait.

D’autres études font cela ! Je n’en suis pas si certain. Je suis curieux sur d’autres études euro­péennes récentes (post-RGPD) qui diffu­se­raient ainsi publique­ment des fichiers de données person­nelles (non anony­mi­sées) avec des infor­ma­tions sensibles, et ça sans l’ac­cord des concer­nés.
Et quand bien même, si l’ar­gu­ment « d’autres le font » était légi­time, nos tribu­naux pour­raient immé­dia­te­ment fermer.

Mais c’est une étude sérieuse ! En fait non. Au point qu’ils ont quali­fié dans leurs sources de désin­for­ma­tions une infor­ma­tion réelle et recon­nue comme telle (oui la voiture avait des giro­phares). Les critères pris et leur sélec­tion, les inter­pré­ta­tions faites, tout semble du travail rapide et sans grande valeur. Ne parlons même pas de revue par des pairs.
Il y a surtout une « étude » qui est desti­née à faire la une pour servir de vitrine média­tique et deman­der des subven­tions, avec des choses qui buzzent un peu comme « les russes ». Mis à part pour l’uti­li­sa­tion du logi­ciel qui traite les données ensuite, il n’y a pas grand chose.
Les études sérieuses font d’ailleurs à priori très atten­tion aux ques­tions d’ano­ny­mi­sa­tion, parce que ça fait partie du métier. Pas ici.
Et quand bien même, ça n’au­to­rise pas tout, et ça ne délé­gi­time certai­ne­ment pas une demande d’in­for­ma­tion.


Publié

dans

par

Étiquettes :

Commentaires

Une réponse à “Une histoire de baga­gistes et de données person­nelles”

  1. Avatar de padawan

    Quelques compléments d’information :

    – il semble exister une coopération entre organismes de type CNIL au niveau EU. cf. https://twitter.com/furvent_/status/1027527211677569024

    – l’autorité Belge est l’Autorité de Protection des Données : https://twitter.com/APD_GBA sur Twitter et https://www.autoriteprotectiondonnees.be sur le web

    – l’UFC Que Choisir a obtenu la condamnation de Twitter pour ses CGU abusives (1è instance, ils peuvent faire appel) : https://www.zdnet.fr/actualites/donnees-personnelles-et-cgu-l-ufc-que-choisir-fait-plier-twitter-39872211.htm — notamment sur « « considérer les données personnelles comme des données « publiques » par défaut ; ». Ce point est important pour répondre aux « oui mais t’as tout autorisé en validant les CGU de Twitter »

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *