Sauvegardes – Carnet de notes

Sauvegarde photos, juin 2025

J’arrive enfin à la fin de mes aventures de sauvegardes. J’ai une série de scripts qui récupère toutes mes données sur un disque, puis un script qui fait de la sauvegarde incrémental.

Malheureusement arrive ce que je craignais : Le temps de tout boucler j’ai quelque chose qui tombe en panne et qui nécessite que je m’y penche de nouveau.

Aujourd’hui nos appareils Android synchronisent leurs photos avec Google Photos. On s’en sert aussi pour des albums partagés entre nous.

J’utilisais rclone pour récupérer tout ça en local ensuite.

Google a malheureusement changé et bridé ses APIs pour Google Photos. Les outils externes comme rclone ne peuvent plus accéder qu’aux photos qu’ils ont créé eux-mêmes, ce qui perd tout intérêt pour de la sauvegarde.

Il va falloir trouver autre chose, soit en utilisant un outil qui mime les accès web, soit remplacer Google Photos par quelque chose de plus pertinent sur tous nos téléphones Android.

Dites-moi si vous avez des idées.

Note : J’aime beaucoup Nexcloud mais je ne souhaite pas forcément mettre un serveur ouvert sur Internet aujourd’hui chez moi.

Mes critères :

Sauvegarde des photos prises avec les smartphones Android
Ne consomme pas excessivement la batterie des smartphones
Possibilité de sauvegarde incrémentale par un script externe
Gratuit ou vraiment vraiment pas cher (en séparant les comptes de la famille)
Idéalement, quelque chose d’open source avec la possibilité de l’auto-héberger un jour (mais pas aujourd’hui)

Vous les synchronisez où vos photos vous ?

31 mai 2025

Sauvegarde distante avec Borg

J’en suis à la dernière étape de mes sauvegardes. Le plus long a été de trouver ou développer des scripts pour rapatrier toutes mes données d’internet en local. Ce ne sera jamais fini mais j’ai quand même le principal¹.

Maintenant il faut que j’ajoute une copie en ligne histoire que ce ne soit pas que sur mon disque personnel.

Outils

Il y a plein d’outils, Borg est celui qui m’a semblé le plus pertinent pour mon usage du fait de son économie en bande passante.

Pour éviter de longues lignes de commandes, je passe par Borgmatic. J’ai un petit jeu de fichiers yaml qui décrivent mes options, mes répertoires sources et mes répertoires destination.

Configuration

Je n’ai rien de spécifique là dedans si ce n’est ce qui suit :

Configurer healthchecks (nativement supporté par borgmatic) pour être averti quand mon script de sauvegarde ne tourne pas (ou mal)
Retirer des fichiers à sauvegarder les node_modules, .DS_Store, les fichiers spécifiques .Apple* et les caches Lightroom *.lrdata.
Ajouter une limite de bande passante à 100 Mb/s pour ne pas saturer ma ligne Internet par rapport à mes usages domestiques.
Paramétrer une rétention excessivement large (18 daily, 18 weekly, 18 monthly, 18 3monthly, et une infinité de yearly) — mes données changeant peu, ça ne me coûte pas très cher.

Dépôts

J’ai par contre fait le choix de démultiplier les dépôts. J’ai un dépôt pour les calendriers, un pour les contacts, un pour les emails, un pour les docs administratifs, etc. Le plus petit doit faire quelques Ko, le plus gros fait dans les 1.5 To, pour un total de 2.5 To.

Diviser me permet d’éviter des temps longs pour éventuellement réparer ou relancer une archive qui a un problème. Je ne pense pas avoir de duplication de fichiers dans mes différents dépôts donc je ne vois pas le bénéfice à tout rassembler de toutes façons.

Hébergement

Tout ça part sur une storage box Hetzner. BorgBase me justifier de payer deux à trois fois plus cher.

J’avoue que je suis extrêmement content.

Je ne sais pas quel est la limite de débit mais j’ai limité mon envoi à 100 Mb/s et il tient 100 Mb/s sans broncher. En comptant la compression ça fait 1 Go d’envoyé par minute, moins de deux jours pour initialiser la totalité de mes 2,5 To. Je n’en demande pas plus.

Ça va remplacer Crashplan, qui devenait lourdingue, envoyait des mauvais signaux sur leur capacité réelle à soutenir mes volumes, et dont le débit était tellement famélique que ça perdait tout sens.

Je suis certain d’en oublier plein mais pour l’instant ce que j’ai noté à faire un jour : Impôts, Ameli/CPAM, Mutuelle, Doctolib, Banques, Indy, EDF, SNCF, Amazon, Spotify, Netflix, Prime, Slack, Telegram, Silence, Signal, NewPipe, Bluesky, Mastodon, LeBonCoin, Decathlon, Free Internet, Free Mobile, Sosh, Google Apps, Notion, Trainline ↩︎

31 mai 2025

Healthchecks

Je continue mes sauvegardes et je redécouvre healthchecks.io.

Un système pour envoyer un ping lors d’événements comme les sauvegardes et qui peut ensuite nous alerter si un événement prend plus de temps que prévu ou s’il n’a pas fait de ping depuis trop longtemps.

C’est la pièce essentielle pour les sauvegardes : être alerté quand ça part en erreur.

Ils proposent 10 projets dans la version gratuite, plus qu’il ne m’en faut.

31 mai 2025

Cozy, Woobs et le reste

Je tente d’automatiser pas à pas le rapatriement de tout ce que j’ai mais c’est long, pénible, et ce n’est que les données majeures. Il manque tous les petits trucs, genre le justificatif de domicile et les factures EDF.

J’ai toujours dans un coin de ma tête le fantasme d’un système de reprise de contrôle des données en ligne.

J’aimerais une app qui se connecte partout avec mes mots de passe et récupère toutes les qui n’ont pas encore été téléchargées en local ou qui ont été mises à jour depuis le dernier passage.

Il me semble indispensable que cette app soit opensource et que le développement, l’installation ou la mise à jour de nouveaux connecteurs soit des plus simples.

Parce que je n’imagine pas de laisser trainer tous mes mots de passe en clair en plusieurs exemplaires, il me semble indispensable que l’app se connecte elle-même à mon gestionnaire de mots de passe (et donc que je dois déverrouiller manuellement le coffre de mots de passe à chaque exécution de l’app).

Ce n’est pas simple. Rien que pour les factures d’énergie, ça demande des connecteurs vers une dizaine de fournisseurs différents par pays.

Parfois il suffit de mimer le navigateur ou l’app mobile. Parfois le système d’authentification est trop complexe pour être reproduit facilement et il faut se résoudre à réellement piloter un navigateur Web caché.

Les services en ligne n’aiment pas trop les robots et il faut composer avec des captcha. Certains sont simples mais d’autres demandent de vraies interactions humaines.

Même quand on réussit à faire tout ça, il faut le maintenir à jour à chaque changement du site web ou de l’api, et gérer de multiples cas particuliers qu’on ne peut déboguer qu’avec les identifiants des utilisateurs.

Bref, maintenir même la centaine de connecteurs des services essentiels demande une vraie force de travail.

Je ne suis pas le seul à imaginer tout ça.

Les deux projets les plus proches que j’ai en tête sont Woob (web outside of browsers) et Cozy Cloud (dont l’avenir me semble incertain depuis la récupération par Linagora pour l’intégration dans Twake).

Cozy j’y ai participé en mon temps, après la bascule vers le B2B. Cette orientation B2B rendait difficile d’investir l’effort nécessaire sur les connecteurs, moins pertinents pour cette cible. Je vois qu’ils ont tout de même créé un moteur d’exécution côté client pour permettre de passer les authentifications complexes et les captchas.

Ils l’ont fait sur mobile. Ça a du sens pour du SaaS avec un stockage serveur qu’on cherche à monétiser. C’est plus litigieux pour un système personnel.

Le projet à été repris par Linagora, qui risque de surtout d’ utiliser le drive et ce qui peut s’intégrer dans une suite office en ligne. Je ne sais pas bien ce que vont devenir les connecteurs, qui étaient déjà trop peu développés. J’ai peu d’espoir.

En face il y a Woob (web outside of browsers), vieux projet à base de python. L’effort est ancien, communautaire, et il y a une bibliothèque de connecteurs assez fournie. .

Malheureusement pour l’instant c’est moyen pour les geeks d’accéder à leurs données depuis une ligne de commande interactive plus qu’une application de récupération des données.

On peut lister les documents mais rien n’est téléchargé ou sauvegardé par défaut. Il faut lister les factures d’EDF via une ligne de commande interactive et demander à les télécharger une à une. Il n’y a pas les évidences comme les attestations de domiciliation.

Même chose, il y a ce qu’il faut pour récupérer les mots de passe d’un gestionnaire de mots de passe, mais rien n’est fourni par défaut.

Je trouvais Cozy plus adapté à mon objectif. Il faudrait croiser les deux. C’est du domaine du possible mais je ne sais pas s’il y aura assez de personnes ressentant le besoin pour ça.

20 mai 2025

Sauvegarder Inoreader

Inoreader a déjà tout préparé.

Le service sauvegarde heure par heure l’OPML de toutes les souscriptions. Il est capable d’envoyer cette sauvegarde tout seul via Google Drive ou Dropbox. Ça me suffit pour l’instant puisque je sauvegarde déjà le contenu de Google Drive.

C’est surtout à cette information (la liste de mes flux) que je tiens. Je n’utilise pas les tags et les favoris, que je préfère centraliser sur Pocket. Le cas échéant, Inoreader propose un lien JSON ou RSS pour suivre chaque dossier particulier.

20 mai 2025

Sauvegarder les favoris et l’historique Firefox

Je continue mes sauvegardes. Je n’utilise pas mon navigateur directement sur le serveur de sauvegarde donc je ne peux pas aller chercher manuellement dans les fichiers de profil Firefox.

Je suis toutefois connecté à mon profil Firefox en ligne et y synchronise mes données. J’ai trouvé un client en go assez simple à utiliser et installable via Homebrew.

ffsclient login <login> <password> --device-name=my-backup --sessionfile=ffs-session.json

puis

ffsclient bookmarks list --format=json --sessionfile=ffs-session.json --output=bookmarks.json

On peut ainsi récupérer toutes les collections synchronisées : addons, adresses, favoris, formulaires, historique, mots de passe, préférences, tabs ouverts, etc. Je vais me contenter des favoris pour l’instant et considérer que le reste est volatile.

20 mai 2025

Sauvegarder Pocket

Je suis toujours dans mes sauvegardes. Je veux avoir une copie de tout dans mes sauvegarde, données des services en ligne incluses.

Je pensais faire ça facilement avec Pocket. Ils ont une API, assez simple.

En pratique je me retrouve à faire essentiellement de l’ingénierie inverse. La documentation indique des choses qui n’existent pas ou ne fonctionnent pas, et ne donne aucune information sur des éléments essentiels qu’on reçoit (genre la gestion des erreurs).

Authentification

Contrairement aux mécanismes OAuth habituels, leur authorize ne renvoie pas de code temporaire à échanger. Pour récupérer l’access_token, il faut le demander avec le request_token obtenu lors de l’échange serveur à serveur initial.

Ce request_token semble ne pas avoir de durée de vie. Il n’a en tout cas pas de refresh_token associé.

Mécanisme de régulation

L’API indique des limitations à 320 appels par heure. C’est d’autant plus important que pour télécharger mes plus de 29 000¹ items par pages de 30 maximum, je vais forcément dépasser le nombre de requêtes que je peux faire en une heure.

Il y a un mécanisme automatique prévu pour la régulation mais le serveur n’envoie pas les entêtes prévues pour ça. Je sais juste qu’au bout d’un moment j’obtiens des erreurs 403 et que ça semble venir de là.

Je vais devoir gérer ça à la main. Pour l’instant je note l’heure de chaque requête dans un tableau. Quand mon tableau fait 320 éléments, je retire le premier élément et attend l’heure de cet élément + 1 heure avant de continuer.

Pagination

Le mécanisme pour la pagination est assez famélique : 30 items maximum par requête, plus un offset pour passer à la page suivante. C’est une mauvaise méthode pour itérer à travers des milliers d’items et ça ne trompe pas : Les requêtes sont effectivement de plus en plus lentes au fur et à mesure des pages. C’est visible et c’est pénible.

Le serveur prévoit de renvoyer un champ total qui permet de savoir s’il reste encore des éléments. Les réponses du serveur ne me renvoient malheureusement pas ce champ alors je vais juste itérer jusqu’à obtenir une réponse vide sans erreur.

Il y a aussi un champ since qui permet de limiter la recherche aux éléments plus récents qu’une certaine date. J’imaginais pouvoir me baser là dessus pour la pagination : Parcourir du plus vieux au plus récent, identifier la date du plus récent et repartir de là à la prochaine itération. C’est d’ailleurs la procédure recommandée pour beaucoup de services qui veulent éviter les problèmes que pose le parcours par offset. Malheureusement ça n’est pas utilisable pour la pagination : les items retournés ne sont correctement ordonnés ni par date d’ajout ni par date de modification.

Étrangement, il semble que la limite de 30 items par page ne soit pas forcée. Il semble que ça fonctionne avec beaucoup plus, mais que ça génère aussi plus d’erreurs. Le meilleur compromis semble effectivement dans les 25 à 30 items par page.

Dernière spécificité, j’ai l’impression de temps de réponse plus longs et d’erreurs plus fréquentes quand je vais du plus vieux au plus récent. Je n’ai pas vérifié cette impression avec des chiffres mais autant rester sur l’ordre par défaut : du plus récent au plus vieux.

Documentation incomplète

J’ai dit qu’il me manquait les entêtes de régulation et le champ total à la racine de la réponse. À l’opposé, j’ai quelques champs qui ne sont pas dans la documentation.

Le status semble être un entier avec, 0 pour une erreur, 1 pour OK, 2 quand il n’y a rien à afficher depuis une mise à jour. Quand status est à 0, le champ error contient le message d’erreur.

Il y a aussi un maxActions, dont je ne connais pas le sens.

Données irrécupérables sur le serveur

Pour une raison ou une autre, certaines de mes données semblent corrompues ou irrécupérables sur leur serveur (comme quoi la sauvegarde est utile ;-)..

J’ai 20 items qui provoquent systématiquement une erreur 504. Je peux récupérer ceux avant, ceux après, mais pas ceux là². C’est vrai peu importe le sens de parcours (mais les offset ne sont logiquement pas les mêmes dans les deux sens).

Je n’ai pas plus d’explication. Je ne peux même pas connaitre les identifiants concernés pour demander leur suppression.

Potentiellement ce sont des données qui ne peuvent plus être réhydratées sur leurs serveurs, soient qu’il manque des informations essentielles, soit que leurs composants ne savent pas compléter ce qui manque (le serveur du lien sauvegardé qui répond bizarrement ?).

Erreurs aléatoires

Même avec une pagination basique, dans l’ordre par défaut, j’ai des erreurs fréquentes, aléatoires.

La plupart des 403 semblent liées à la limitation du nombre de requêtes, mais pas forcément toutes.

La plupart des 504 semblent liées à mes données irrécupérables mais il est arrivé que ça finisse pas passer quand même.

Les 502, en général il suffit de relancer la même requête, mais parfois l’erreur semble persister un moment.

Automatisation

Je parcours finalement tout par page de 30 et je mets à jour à chaque page le fichier de sauvegarde (pour les données récupérées) et le fichier de configuration (pour le nouvel offset de la prochaine requête). Si j’ai des erreurs inattendues, je pourrai relancer de là où j’en étais.

Si j’ai une page en erreur, je reprends tous les items de la page mais en allant les chercher mais 1 par 1 à partir de leur offset respectif. Parfois je ne retrouve pas l’erreur et ça permet de récupérer tout. Parfois l’erreur persiste sur un des éléments. Dans ce dernier cas l’idée c’est de pouvoir récupérer tous les bons items de la page et d’ignorer l’unique qui est en erreur.

Ça n’est pas parfait — si j’ai une erreur répétée mais temporaire sur un item, il sera ignoré silencieusement dans la sauvegarde — mais je n’ai pas mieux.

Une fois le parcours totalement fait une fois, je peux utiliser le since pour faire du différentiel.

Le code est sur https://github.com/edas/pocket-backup

RGPD à la rescousse

J’ai quand même prévu de faire une requête RGPD pour demander un export de mes données. On verra s’ils arrivent à me récupérer les 20 items qui sont en erreur permanente.

Si oui, je tenterai de les effacer pour reprendre un fonctionnement sans erreur. Sinon, je tenterai peut-être de réinitialiser le compte ou migrer ailleurs.

Oui, tout ça. J’en suis moi-même étonné. J’ai tracé des usages depuis au moins fin 2010 mais je me demande si je ne l’utilisais pas au début de mon passage à Yahoo! en 2007–2008 du temps où ça s’appelait Read It Later. Ça fait une moyenne de 4 à 6 items par jour suivant la date retenue. ↩︎
Je me les note pour moi-même : aujourd’hui ce sont les offset 14053, 14481, 17689, 18291, 18629, 19389, 20363, 20815, 20996, 20999, 21512, 21923, 22275, 22283, 22346, 23386, 23841, 24189, 24414, 27441. ↩︎

28 mars 2025

Tout sauvegarder – mars 2025

Nettoyer les écuries d’Augias c’est de la nioniotte à côté du projet de rapatrier toutes mes données en local pour les sauvegarder.

Ce que j’ai déjà

Ce qui manque encore

Je vais étendre la liste au fur et à mesure. Il me manque encore pas mal de choses, et pas le plus simple. Au moins :

Les abonnements, listes et peut-être messages Mastodon
Les abonnements, listes et peut-être messages Bluesky
Abonnements et messages Instagram
Les messages Telegram
Les messages Whatsapp
Les messages Signal
Mes abonnements Newpipe (local Android)
Mon historique et documents Doctolib
Mes contacts Linkedin, peut-être les messages aussi
Mes historiques Spotify, Netflix, etc.
Les discussions privées Slack
Les factures et historiques d’un peu partout (boutiques en ligne, abonnements divers, edf, sncf, hôtel, internet, téléphone, etc.)
Les relevés sécu et mutuelle
Les relevés banque

Je regrette qu’on n’ait pas un vrai gros projet Open Source dont l’objectif est d’avoir des connecteurs pour tous les services en ligne de façon à rapatrier toutes nos données en local.

Cozy Cloud aurait pu faire ça mais la direction prise ne se centrait pas sur les connecteurs et le projet commercial n’a pas pu trouver sa place.

Automatisation en trois niveaux

Probablement qu’il me faudra faire évoluer mes outils. Je ne peux pas laisser les mots de passe de tout et n’importe quoi en clair.

J’imagine trois niveaux :

Les sauvegardes automatiques. J’ai des token Oauth voire des mots de passe en clair dans les fichiers de configuration. C’est valable quand les données ne sont pas sensibles et que je tiens à ce que ça sauvegarde « sans moi »
Les sauvegardes que je lancerai à la main, quand les données ou les mots de passe sont sensibles. Je pense faire des programmes qui s’interfacent directement avec le coffre Bitwarden, que je déverrouillerai dans la session pour l’occasion.
Ce qui va être une énorme galère à coder : les service en ligne sans API ouverte avec de l’offuscation sur l’authentification, ainsi que les services en ligne derrière un 2FA non automatisable ou un captcha complexe à mimer. Là j’imagine une extension navigateur qui sauvegarde ce dont j’ai besoin quand je passe sur le site.

Copie en ligne

Bon, chaque chose en son temps.

Avant tout ça il faudra déjà que je branche BorgBase ou BackBlaze pour avoir une copie chiffrée en ligne, parce que pour l’instant ça ne fait que recopier en local.

Avec dans les 3 To, ça me prendra bien un bon mois pour faire la première synchronisation. Je sais envoyer plus vite mais je doute qu’on me libère des Gb/s pour moi tout seul.

23 mars 2025

Sauvegarder Bitwarden

Je continue mes sauvegardes.

Le coffre avec tous mes mots de passe est particulier. J’ai fait le choix de le stocker en ligne pour synchroniser tous mes appareils mais perdre tous mes mots de passe n’est pas une option.

Bitwarden a effectivement une copie locale sur tous les appareils mais ça ne me couvre pas si quelque chose est supprimé sur le serveur et que la suppression se réplique alors sur tous mes appareils.

J’ai besoin d’une vraie copie locale, à moi.

Je n’ai cependant pas besoin que la copie soit en clair. Plus exactement, les données sont trop sensibles et je préfère n’avoir que la copie chiffrée. Je sais que je trouverais comment la déchiffrer à la main en cas de besoin (je l’ai déjà fait par le passé).

Je pourrais utiliser la ligne de commande officielle et synchroniser le coffre avec une clé d’API. Il n’y a pas besoin du mot de passe maitre pour ça. Je ne maitrise cependant pas où il stocke le coffre et j’avais moyennement envie de ça sur des tâches de sauvegarde.

J’ai réimplémenté ça à la main avec un programme généré par IA. Il télécharge les paramètres de login, le profil utilisateur et le coffre (chiffré).

C’est du Rust parce que j’espérais utiliser le SDK officiel. Malheureusement ils n’exportent pas les appels bas niveau que je souhaite. J’ai perdu bien trop longtemps à le comprendre et à batailler. J’ai fini par faire mon implémentation à la main.

Si j’avais su que je finirais avec juste quelques appels HTTP, ça ne serait pas en Rust. Tant pis.

23 mars 2025

Sauvegarder les contacts Google

Je continue mes sauvegardes mais je n’ai pas trouvé d’outil adapté pour aller télécharger les contacts google. J’en suis même étonné.

Je suis passé quelques minutes par IA et j’ai pu récupérer ce qui m’intéressait avec https://github.com/edas/google-contacts-backup

Le programme récupère le format brut en provenance de Google, avec juste une sauvegarde en base64 des images en lien.

J’aurais préféré un outil plus abouti qui sache ne retélécharge que ce qui a changé. On verra une prochaine fois.

Si toutefois vous connaissez un outil un peu smart, glissez-moi le nom en commentaire.

23 mars 2025

Catégorie : Sauvegardes

Outils

Confi­gu­ra­tion

Dépôts

Héber­ge­ment

Authen­ti­fi­ca­tion

Méca­nisme de régu­la­tion

Pagi­na­tion

Docu­men­ta­tion incom­plète

Données irré­cu­pé­rables sur le serveur

Erreurs aléa­toires

Auto­ma­ti­sa­tion

RGPD à la rescousse

Ce que j’ai déjà

Ce qui manque encore

Auto­ma­ti­sa­tion en trois niveaux

Copie en ligne

Configuration

Hébergement

Authentification

Mécanisme de régulation

Pagination

Documentation incomplète

Données irrécupérables sur le serveur

Erreurs aléatoires

Automatisation

Automatisation en trois niveaux