ADE 4 vous espionne (ou pas…)

On vient de se rendre compte que le logiciel Adobe Digital Editions 4 envoie un volume d’informations important à un serveur en ligne. Il cafte les livres que vous lisez, les pages que vous tournez, etc. (exemple)

Scandaleux ! mais…

Construction produit

Vous faites une application de lecture, qui a pour rôle de gérer des DRM. Votre métier est très sensible vu que le système contrôle de fait une grosse partie de l’édition numérique.

Vous avancez, mais les yeux bandés. Assez rapidement vous avez envie de voir ce qu’il se passe. Pour ça une solution est de mettre en place de la télémétrie… des statistiques quoi :

Pour ça rien de plus simple. Il suffit que le logiciel retienne quand certains événements surviennent, puis envoie de temps en temps en ligne un paquet avec l’ensemble des événements passés.

De votre côté vous faites des agrégations et des statistiques. Vous saurez ce qui est utilisé ou non, si les gens se servent de votre outil uniquement pour les DRM ou aussi pour lire des livres tiers, s’ils arrivent à lire jusqu’au bout ou abandonnent avant la fin, si les performances sont assez bonnes.

Vous pourriez faire des tests utilisateur en labo mais en réalité rien ne vaut les résultats réels. C’est juste indispensable.

Que tracer ? On va regarder à chaque fois qu’on ouvre un livre, quelques données sur le livre au cas où on repère une anomalie significative, quand l’utilisateur tourne les pages pour mesurer une progression approximative, et quand l’utilisateur ferme le livre. On va aussi tracer les licences DRM de chaque fichier, mais ça c’est le rôle même du logiciel.

Si on a le temps, plus tard, une analyse dans cet énorme volume de données permettrait d’avoir une meilleure connaissance du marché, par exemple savoir si les gens lisent en moyenne des gros ou des petits livres, sur combien de temps. En réalité vu la masse de données ça ne se fera probablement pas, d’autant que les données n’ont pas été structurées pour ça (donc que ça nécessiterait de retenir dans la durée chaque événement individuel et de faire des calculs non négligeables pour en tirer des conclusions).

Devinez quoi ?

C’est exactement ce à quoi ressemble le cas d’ADE 4. Le logiciel trace l’ouverture du fichier, quelques informations sur le fichier, la licence DRM éventuelle, les changements de page avec une position très approximative, et la clôture du fichier.

Les informations sont stockées séquentiellement, et ça manque cruellement des identifiants qui permettraient de jouer facilement à Big Brother. Pour exemple l’événement « je tourne une page » ne contient pas l’identifiant du livre pour lequel on a tourné la page.

Bref, je ne suis pas parano. Faire de la télémétrie est l’état de l’art de toute construction de produit aux États Unis. Une bonne startup fait même peut être plus de télémétrie que de construction produit. Pas pour récolter des profils utilisateurs à la Google ou revendre les données, mais bêtement pour comprendre ce qu’il se passe, de façon anonyme et agrégée, et améliorer le produit comme sa connaissance du marché.

Alors ?

Alors on n’en sait pas plus. Techniquement ils pourraient effectivement jouer à big brother s’ils voulaient (comme les données sont séquentielles, il suffit de regarder les métadonnées du dernier événement d’ouverture de livre pour savoir dans lequel on a tourné une page). Les données ne semblent simplement pas faciliter cet usage et ce serait donc étonnant que ce soit la finalité recherchée. Maintenant c’est possible, tout est possible.

Le problème n’est pas tant là en fait. Le problème c’est d’une part que tout ça est envoyé en clair, que cette télémétrie n’est pas annoncée (suffisamment) explicitement, et qu’on ne peut pas savoir ce qui en est réellement fait ensuite. Mozilla en fait aussi sur Firefox, mais vous propose d’y souscrire explicitement avant, et chiffre tout ça.

Reste un dernier point : Si c’est une petite startup en devenir ça passe encore mais Adobe a une taille monstre, et ces données permettent effectivement des traitements massifs très dangereux pour les libertés publiques si elles arrivent dans de mauvaises mains, par exemple un état totalitaire. Avec des traitements, on peut en effet savoir qui lit quoi et quand. Oups.

Ce n’est pas tant ce que fait Adobe qui est scandaleux, mais de le faire aux USA aujourd’hui, sans prévenir suffisamment explicitement l’utilisateur, avec ce qu’on connait des révélations de Snowden, en clair sur le réseau, avec un logiciel qui est à ce point central dans la lecture de livre hors Amazon.

8 réponses sur “ADE 4 vous espionne (ou pas…)”

  1. Ca se comprend évidemment. Mais est-ce « excusable » pour autant ? Est-ce clairement exprimé dans les CGU ? Dans le manuel ? Est-ce débrayable ?

    Nombre d’applications enregistrent et transmettent des informations sur leur usage, mais le plus souvent c’est débrayable, et indiqué clairement (par exemple au premier lancement).

    1. Pour les CGU ou le débrayable, je te laisse chercher.
      Pour l’information explicite, vues les réactions, ce n’était clairement pas assez explicite même si ça a été indiqué.

  2. Je ne suis pas, mais alors pas du tout d’accord avec cela. Adobe fournit un logiciel pour gérer des livres numériques, et ce que les gens font avec (et pire, ce qu’ils font sans, puisque ce logiciel va jusqu’à collecter des données sur des livres qu’il ne gère pas !) ne les regarde pas.

    Ceci étant, je me suis prémuni de ce genre de problème, et il est donc plutôt amusant d’assister en observateur extérieur à ce qu’on ne pouvait que prévoir.

    1. Sur les livres qu’il ne gère pas, je n’ai pas fouillé mais je tiens pour probable que ce soit un scan suite au démarrage ou une action utilisateur, de façon à proposer ces livres à l’utilisateur. Sauf que pour ça il les ouvre (au moins pour récupérer titre et couverture) et ça se retrouve donc dans le log.

      Récupérer des stats sur l’utilisation, c’est vraiment l’état de l’art du logiciel en ce moment. Même les éditeurs les plus « libres » type Debian ou Mozilla ont des systèmes de télémétrie pour savoir ce qu’il se passe (autant pour améliorer les produits que pour détecter et prévenir des dysfonctionnements majeurs). La différence tient essentiellement dans comment c’est fait.

      Pour Mozilla il y a un bandeau non intrusif qui propose d’activer la télémétrie en expliquant à quoi ça sert + un écran qui permet de voir ce qui est envoyé ; si tu ne dis pas « oui » ça n’envoie rien. Ailleurs c’est parfois plus automatique, prévu dans les CGU avec un opt-out, généralement ça veut dire que les données collectées servent à des statistiques anonymes. Certains produits Adobe le proposent pendant l’installation (je ne sais plus si c’est coché ou non).

      J’étais justement en train de discuter des annotations sur liseuse e-ink en parallèle. C’est toujours une galère sur quasiment tous les matériels. Pour moi c’est plus un gadget fourni à titre gracieux qu’une fonctionnalité de base. Visiblement c’est important pour certain. C’est typiquement là que la télémétrie est utile : Savoir si les gens essaient d’utiliser la fonction, dans quelle proportion, avec quels échecs ou réussite, et s’ils continuent ou abandonnent après leurs premiers essais, et pour faire quoi (histoire de faire une ergonomie adaptée)

  3. Via The Digital Reader (Nate Hoffelder)

    « All information collected from the user is collected solely for purposes such as license validation and to facilitate the implementation of different licensing models by publishers »

    Donc bien pour du contrôle d’accès, et pas exclusivement pour de l’étude d’usage ou l’implémentation de fonctionnalités.

    1. Ce qui serait tout à fait correct si c’était vrai (le soft sert essentiellement à gérer les fichiers sous DRM, à vérifier les licences, les droits, etc. – et il explicite qu’il fait des connexions réseau pou cela lors des autorisations).

      Mais c’est certainement de la foutaise vues les informations collectées. Entre autres à cause du fait que les informations sont collectées sur tous les fichiers, qu’ils aient des DRM ou non, qu’ils fonctionnent avec des droits/facturations complexes ou non, etc.

      Puis en distributeur numérique ayant des serveurs Adobe, je n’ai pas cherché spécifiquement à le faire – donc j’ai pu passer à côté – mais je ne crois vraiment rien avoir vu comme API ou système pour faire de la facturation à la durée ou au volume lu. Donc à priori ces données restent chez Adobe.

      J’ai du mal aussi à voir pourquoi ils collecteraient les métadonnées des livres (le distributeur/revendeur n’en a pas besoin, il les connait déjà, et les titres sous format texte ne servent à rien comme identifiant de toutes façons)

  4. Hypothèses et remarques :

    1. les numéros de page sont loggés (et le tout a été développé par un gros porc) pour synchronisation d’ADE entre différents appareils/plate-formes (pas encore en place*). Je ne peux pas en dire plus mais si vous réfléchissez bien, il y a une annonce cachée là-dedans.

    2. les numéros de page sont loggés de cette manière pour d’autres modèles économiques (pas encore en place*), mais ça a été annoncé de longue date par Datalogics/Adobe, sur souscription magazine par exemple, mais pas que.

    * « Du coup, aussi, on en a rien à battre pour l’instant, pas d’encryptage sur les données, on verra plus tard ! » se dit un mec paumé chez Adobe Inde, Adobe Roumanie ou chez un sous-traitant chinois…

    3. Le fait qu’ADE aille sniffer partout dans le disque dur n’a pu être confirmé pour le moment — du coup, ça cherche des raisons sur MobileRead, comme par exemple la présence de plugins qui « déplombent » dans Calibre ou un scan de bibliothèque qui n’avait pu aboutir dans la précédente version par exemple. On n’en sait pas plus pour le moment.

    4. le truc est vraiment bien à part de l’authentification. Il semblerait même qu’il ne log pas à l’utilisation si tu n’es pas authentifié.

    5. il est tellement facile d’accéder aux ressources de l’app sous OS X (Clic droit > Afficher le contenu du paquet) que tu peux violer par accident la licence que tu acceptes en installant l’app (et qui ne renvoie jamais à l’EULA et à la Privacy Policy). En fait, il n’y a aucun lien vers ces deux docus dans ADE. Pas de lien spécifiquement présenté lors du DL d’ADE non plus donc il semble qu’ils partent du principe que tu acceptes ces deux trucs au DL (notons que les liens sont présents dans le footer, en 10 pixels, tout en bas de la page donc potentiellement hors de portée en fonction de la taille de ta fenêtre).

    6. Si tu es un énorme maladroit, tu pourrais tout à fait ouvrir, fort malencontreusement et par le plus énorme des hasards, des lib d’ADE avec xCode, sous OS X encore une fois. Sachant que les mecs te laissent souvent des commentaires à la con dans tout ce qui est accessible par ailleurs (voir début point 5), il pourrait tout à fait être possible de tomber sur des infos parce que ô misère, tu pensais lire un EPUB dans ADE 4 et que tu scrollais comme un con en pensant lire de la littérature expérimentale à base d’Objective-C.

  5. Update :

    ADE va chercher sur liseuses branchées en USB lorsqu’elle est branchée lors de l’utilisation de l’app (et non pas sur le DD). Ça vient d’être confirmé par d’autre.

    À savoir que les liseuse n’a même pas besoin d’être authentifiée/synchronisée sous ADE pour que les logs se fassent.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

J'utilise encore les commentaires mais je ne garantis pas qu'ils seront en ligne de façon permanente.

Vous êtes incités à lier et commenter ce billet depuis votre propre espace. Si votre outil gère les Web mentions votre publication sera automatiquement référencée ici au bout d'un moment. À défaut, vous pouvez poser le lien ci-dessous.