ADE 4 vous espionne (ou pas…)

On vient de se rendre compte que le logi­ciel Adobe Digi­tal Editions 4 envoie un volume d’in­for­ma­tions impor­tant à un serveur en ligne. Il cafte les livres que vous lisez, les pages que vous tour­nez, etc. (exemple)

Scan­da­leux ! mais…

Cons­truc­tion produit

Vous faites une appli­ca­tion de lecture, qui a pour rôle de gérer des DRM. Votre métier est très sensible vu que le système contrôle de fait une grosse partie de l’édi­tion numé­rique.

Vous avan­cez, mais les yeux bandés. Assez rapi­de­ment vous avez envie de voir ce qu’il se passe. Pour ça une solu­tion est de mettre en place de la télé­mé­trie… des statis­tiques quoi :

Pour ça rien de plus simple. Il suffit que le logi­ciel retienne quand certains événe­ments surviennent, puis envoie de temps en temps en ligne un paquet avec l’en­semble des événe­ments passés.

De votre côté vous faites des agré­ga­tions et des statis­tiques. Vous saurez ce qui est utilisé ou non, si les gens se servent de votre outil unique­ment pour les DRM ou aussi pour lire des livres tiers, s’ils arrivent à lire jusqu’au bout ou aban­donnent avant la fin, si les perfor­mances sont assez bonnes.

Vous pour­riez faire des tests utili­sa­teur en labo mais en réalité rien ne vaut les résul­tats réels. C’est juste indis­pen­sable.

Que tracer ? On va regar­der à chaque fois qu’on ouvre un livre, quelques données sur le livre au cas où on repère une anoma­lie signi­fi­ca­tive, quand l’uti­li­sa­teur tourne les pages pour mesu­rer une progres­sion approxi­ma­tive, et quand l’uti­li­sa­teur ferme le livre. On va aussi tracer les licences DRM de chaque fichier, mais ça c’est le rôle même du logi­ciel.

Si on a le temps, plus tard, une analyse dans cet énorme volume de données permet­trait d’avoir une meilleure connais­sance du marché, par exemple savoir si les gens lisent en moyenne des gros ou des petits livres, sur combien de temps. En réalité vu la masse de données ça ne se fera proba­ble­ment pas, d’au­tant que les données n’ont pas été struc­tu­rées pour ça (donc que ça néces­si­te­rait de rete­nir dans la durée chaque événe­ment indi­vi­duel et de faire des calculs non négli­geables pour en tirer des conclu­sions).

Devi­nez quoi ?

C’est exac­te­ment ce à quoi ressemble le cas d’ADE 4. Le logi­ciel trace l’ou­ver­ture du fichier, quelques infor­ma­tions sur le fichier, la licence DRM éven­tuelle, les chan­ge­ments de page avec une posi­tion très approxi­ma­tive, et la clôture du fichier.

Les infor­ma­tions sont stockées séquen­tiel­le­ment, et ça manque cruel­le­ment des iden­ti­fiants qui permet­traient de jouer faci­le­ment à Big Brother. Pour exemple l’évé­ne­ment « je tourne une page » ne contient pas l’iden­ti­fiant du livre pour lequel on a tourné la page.

Bref, je ne suis pas parano. Faire de la télé­mé­trie est l’état de l’art de toute construc­tion de produit aux États Unis. Une bonne star­tup fait même peut être plus de télé­mé­trie que de construc­tion produit. Pas pour récol­ter des profils utili­sa­teurs à la Google ou revendre les données, mais bête­ment pour comprendre ce qu’il se passe, de façon anonyme et agré­gée, et amélio­rer le produit comme sa connais­sance du marché.

Alors ?

Alors on n’en sait pas plus. Tech­nique­ment ils pour­raient effec­ti­ve­ment jouer à big brother s’ils voulaient (comme les données sont séquen­tielles, il suffit de regar­der les méta­don­nées du dernier événe­ment d’ou­ver­ture de livre pour savoir dans lequel on a tourné une page). Les données ne semblent simple­ment pas faci­li­ter cet usage et ce serait donc éton­nant que ce soit la fina­lité recher­chée. Main­te­nant c’est possible, tout est possible.

Le problème n’est pas tant là en fait. Le problème c’est d’une part que tout ça est envoyé en clair, que cette télé­mé­trie n’est pas annon­cée (suffi­sam­ment) expli­ci­te­ment, et qu’on ne peut pas savoir ce qui en est réel­le­ment fait ensuite. Mozilla en fait aussi sur Fire­fox, mais vous propose d’y sous­crire expli­ci­te­ment avant, et chiffre tout ça.

Reste un dernier point : Si c’est une petite star­tup en deve­nir ça passe encore mais Adobe a une taille monstre, et ces données permettent effec­ti­ve­ment des trai­te­ments massifs très dange­reux pour les liber­tés publiques si elles arrivent dans de mauvaises mains, par exemple un état tota­li­taire. Avec des trai­te­ments, on peut en effet savoir qui lit quoi et quand. Oups.

Ce n’est pas tant ce que fait Adobe qui est scan­da­leux, mais de le faire aux USA aujourd’­hui, sans préve­nir suffi­sam­ment expli­ci­te­ment l’uti­li­sa­teur, avec ce qu’on connait des révé­la­tions de Snow­den, en clair sur le réseau, avec un logi­ciel qui est à ce point central dans la lecture de livre hors Amazon.

Rejoindre la conversation

8 commentaires

  1. Ca se comprend évidemment. Mais est-ce « excusable » pour autant ? Est-ce clairement exprimé dans les CGU ? Dans le manuel ? Est-ce débrayable ?

    Nombre d’applications enregistrent et transmettent des informations sur leur usage, mais le plus souvent c’est débrayable, et indiqué clairement (par exemple au premier lancement).

    1. Pour les CGU ou le débrayable, je te laisse chercher.
      Pour l’information explicite, vues les réactions, ce n’était clairement pas assez explicite même si ça a été indiqué.

  2. Je ne suis pas, mais alors pas du tout d’accord avec cela. Adobe fournit un logiciel pour gérer des livres numériques, et ce que les gens font avec (et pire, ce qu’ils font sans, puisque ce logiciel va jusqu’à collecter des données sur des livres qu’il ne gère pas !) ne les regarde pas.

    Ceci étant, je me suis prémuni de ce genre de problème, et il est donc plutôt amusant d’assister en observateur extérieur à ce qu’on ne pouvait que prévoir.

    1. Sur les livres qu’il ne gère pas, je n’ai pas fouillé mais je tiens pour probable que ce soit un scan suite au démarrage ou une action utilisateur, de façon à proposer ces livres à l’utilisateur. Sauf que pour ça il les ouvre (au moins pour récupérer titre et couverture) et ça se retrouve donc dans le log.

      Récupérer des stats sur l’utilisation, c’est vraiment l’état de l’art du logiciel en ce moment. Même les éditeurs les plus « libres » type Debian ou Mozilla ont des systèmes de télémétrie pour savoir ce qu’il se passe (autant pour améliorer les produits que pour détecter et prévenir des dysfonctionnements majeurs). La différence tient essentiellement dans comment c’est fait.

      Pour Mozilla il y a un bandeau non intrusif qui propose d’activer la télémétrie en expliquant à quoi ça sert + un écran qui permet de voir ce qui est envoyé ; si tu ne dis pas « oui » ça n’envoie rien. Ailleurs c’est parfois plus automatique, prévu dans les CGU avec un opt-out, généralement ça veut dire que les données collectées servent à des statistiques anonymes. Certains produits Adobe le proposent pendant l’installation (je ne sais plus si c’est coché ou non).

      J’étais justement en train de discuter des annotations sur liseuse e-ink en parallèle. C’est toujours une galère sur quasiment tous les matériels. Pour moi c’est plus un gadget fourni à titre gracieux qu’une fonctionnalité de base. Visiblement c’est important pour certain. C’est typiquement là que la télémétrie est utile : Savoir si les gens essaient d’utiliser la fonction, dans quelle proportion, avec quels échecs ou réussite, et s’ils continuent ou abandonnent après leurs premiers essais, et pour faire quoi (histoire de faire une ergonomie adaptée)

  3. Via The Digital Reader (Nate Hoffelder)

    « All information collected from the user is collected solely for purposes such as license validation and to facilitate the implementation of different licensing models by publishers »

    Donc bien pour du contrôle d’accès, et pas exclusivement pour de l’étude d’usage ou l’implémentation de fonctionnalités.

    1. Ce qui serait tout à fait correct si c’était vrai (le soft sert essentiellement à gérer les fichiers sous DRM, à vérifier les licences, les droits, etc. – et il explicite qu’il fait des connexions réseau pou cela lors des autorisations).

      Mais c’est certainement de la foutaise vues les informations collectées. Entre autres à cause du fait que les informations sont collectées sur tous les fichiers, qu’ils aient des DRM ou non, qu’ils fonctionnent avec des droits/facturations complexes ou non, etc.

      Puis en distributeur numérique ayant des serveurs Adobe, je n’ai pas cherché spécifiquement à le faire – donc j’ai pu passer à côté – mais je ne crois vraiment rien avoir vu comme API ou système pour faire de la facturation à la durée ou au volume lu. Donc à priori ces données restent chez Adobe.

      J’ai du mal aussi à voir pourquoi ils collecteraient les métadonnées des livres (le distributeur/revendeur n’en a pas besoin, il les connait déjà, et les titres sous format texte ne servent à rien comme identifiant de toutes façons)

  4. Hypothèses et remarques :

    1. les numéros de page sont loggés (et le tout a été développé par un gros porc) pour synchronisation d’ADE entre différents appareils/plate-formes (pas encore en place*). Je ne peux pas en dire plus mais si vous réfléchissez bien, il y a une annonce cachée là-dedans.

    2. les numéros de page sont loggés de cette manière pour d’autres modèles économiques (pas encore en place*), mais ça a été annoncé de longue date par Datalogics/Adobe, sur souscription magazine par exemple, mais pas que.

    * « Du coup, aussi, on en a rien à battre pour l’instant, pas d’encryptage sur les données, on verra plus tard ! » se dit un mec paumé chez Adobe Inde, Adobe Roumanie ou chez un sous-traitant chinois…

    3. Le fait qu’ADE aille sniffer partout dans le disque dur n’a pu être confirmé pour le moment — du coup, ça cherche des raisons sur MobileRead, comme par exemple la présence de plugins qui « déplombent » dans Calibre ou un scan de bibliothèque qui n’avait pu aboutir dans la précédente version par exemple. On n’en sait pas plus pour le moment.

    4. le truc est vraiment bien à part de l’authentification. Il semblerait même qu’il ne log pas à l’utilisation si tu n’es pas authentifié.

    5. il est tellement facile d’accéder aux ressources de l’app sous OS X (Clic droit > Afficher le contenu du paquet) que tu peux violer par accident la licence que tu acceptes en installant l’app (et qui ne renvoie jamais à l’EULA et à la Privacy Policy). En fait, il n’y a aucun lien vers ces deux docus dans ADE. Pas de lien spécifiquement présenté lors du DL d’ADE non plus donc il semble qu’ils partent du principe que tu acceptes ces deux trucs au DL (notons que les liens sont présents dans le footer, en 10 pixels, tout en bas de la page donc potentiellement hors de portée en fonction de la taille de ta fenêtre).

    6. Si tu es un énorme maladroit, tu pourrais tout à fait ouvrir, fort malencontreusement et par le plus énorme des hasards, des lib d’ADE avec xCode, sous OS X encore une fois. Sachant que les mecs te laissent souvent des commentaires à la con dans tout ce qui est accessible par ailleurs (voir début point 5), il pourrait tout à fait être possible de tomber sur des infos parce que ô misère, tu pensais lire un EPUB dans ADE 4 et que tu scrollais comme un con en pensant lire de la littérature expérimentale à base d’Objective-C.

  5. Update :

    ADE va chercher sur liseuses branchées en USB lorsqu’elle est branchée lors de l’utilisation de l’app (et non pas sur le DD). Ça vient d’être confirmé par d’autre.

    À savoir que les liseuse n’a même pas besoin d’être authentifiée/synchronisée sous ADE pour que les logs se fassent.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

À propos de ce site, du contenu, de l'auteur
Je poste parfois ici des humeurs ou des pensées. Parfois je change, parfois je me trompe, parfois j'apprends, et souvent le contexte lui-même évolue avec le temps. Les contenus ne sont représentatifs que de l'instant où ils ont été écrits. J'efface peu les contenus de ce site, merci de prendre du recul quand les textes sont anciens. Merci

À toutes fins utiles, ce site est hébergé par Scaleway, ONLINE SAS, joignable par téléphone au +33 (0)1 84 13 00 00 et joignable par courrier à l'adresse BP 438 - 75366 Paris Cedex 08.