Carnet de notes

Catégorie : Sauvegardes

Sauvegarder les calendriers Google
Je continue mes sauvegardes.

Les calendriers Google c’est finalement plus simple que le reste. Dans les paramètres de chaque calendrier, tout à la fin, il y a une adresse ics privée.

Je peux me contenter de faire un appel régulièrement et sauvegarder ça.
```
/opt/homebrew/bin/wget -nv -O /path/to/target.ics https://calendar.google.com/calendar/ical/xxxxx/private-xxxxx/basic.ics
```
Le plus gros calendrier fait tout juste 2 Mo. Il change tous les jours mais ça reste encore un poids acceptable.

Il faut juste bien penser à le faire pour chaque calendrier, y compris ceux que je créerai dans le futur. Ça doit pouvoir s’automatiser via les API Google Calendar mais je ne suis pas certain que ça vaille le coup pour l’instant.
23 mars 2025
Sauvegarder Standard Notes
Je continue mes sauvegardes.

Standard Notes j’ai beaucoup de choses dessus, surtout que j’y ai rapatrier mes anciennes notes de nvalt puis de Simple Note.

Il y a un mécanisme spécifique de backup dans Standard Notes, donc un qui permet d’envoyer une archive par email toutes les semaines. Chez moi ça envoyait en plusieurs exemplaires, et sans retirer le chiffrement.

Il y en a un autre qui permet de garder une trace locale. Je pourrais l’activer sur mon poste quotidien et faire en sorte que cette trace locale soit ensuite récupérée par Google Drive ou Tresorit. En pratique j’ai toujours eu des ennuis dès que je chaîne les outils de synchronisation. Je préfère éviter.

J’ai trouvé sn-cli, qui fait ce que j’espérais.
```
#!/bin/sh
APP=$1
OUT=$2
EMAIL=xxxx
PASS='xxxx'

SN_EMAIL=$EMAIL SN_PASSWORD=$PASS $APP get items > $OUT/standardnotes.items.json
SN_EMAIL=$EMAIL SN_PASSWORD=$PASS $APP get notes > $OUT/standardnotes.notes.json
SN_EMAIL=$EMAIL SN_PASSWORD=$PASS $APP get tags > $OUT/standardnotes.tags.json
```
Ça me demande de laisser mon mot de passe en clair sur le disque de sauvegarde (qui lui est chiffré). Pas idéal mais ce n’est pas un jeu de données très sensible alors ça peut passer.

Plus tard je segmenterai probablement deux types de sauvegardes, une automatique et une que je lancerai à la main qui utilisera la CLI bitwarden avec une session uniquement le temps de la sauvegarde. Ce jour là ça basculera peut-être dans mes sauvegardes à la main. Ça reste acceptable entre temps.
23 mars 2025
Sauvegarder mes sites web

Toujours dans mes sauvegardes.

J’en ai profité pour passer quelques sites statiques basiques directement sur Github. Ils seront sauvegardés avec Github.

C’est moins évident pour les wordpress et ce qui a une base de données. Là j’ai fait un sous-répertoire « data » pour chaque projet avec un script cron qui y fait un dump quotidien.

J’ai ensuite un rsync qui va chercher régulièrement les données qui sont censées bouger (fichiers téléchargés, dump de base de données).

J’ai enfin un script cron qui sauvegarde la configuration du serveur web (nginx, php) sur le serveur lui-même, et là aussi un rsync pour la rapatrier en local.

C’est fait à la main mais c’est probablement suffisant;

23 mars 2025
Sauvegarder Github
Bon, pas tout Github, juste les projets auxquels je participe.

Il y a moyen de faire ça manuellement avec git clone --mirror. Je voulais quelque chose qui aille au moins lister mes projets pour les synchroniser automatiquement sans que j’ai besoin de les ajouter manuellement à mes scripts de sauvegarde.

J’ai trouvé git-sync (attention, il y a beaucoup d’outils du même nom) qui fait exactement ce que je veux.

La configuration
```
# Repository settings
include_forks: true # Include forked repositories
include_wiki: true # Include wiki's
include_repos: [] # Include specific repositories
exclude_repos: [] # Exclude specific repositories
include_orgs: [] # Include repositories from specific organizations
exclude_orgs: [] # Exclude repositories from specific organizations
raw_git_urls: [] # Raw valid git URLs

# Authentication
username: username
tokens: [xxxxxx]

# Server settings
backup_dir: /path/to/backup-dir
clone_type: mirror # Default: bare
concurrency: 5
retry:
  count: 3
  delay: 10 # in seconds
platform: github
server:
  domain: github.com
  protocol: https
notification:
  enabled: false
```
Et pour lancer git-sync --config /path/to/config.yaml

Au premier essai ça a synchronisé énormément de choses. Ça liste tous les dépôts où vous êtes membres, donc aussi tous les dépôts privés qui vous ont été partagés. Je me suis rendu compte qu’il y en avait un paquet pour moi, et j’ai pu faire un peu de ménage. Ça m’a aussi permis de marquer comme archives un paquet de vieux dépôts inutilisés, et de supprimer des trucs vides ou à peine commencés.

Je n’ai pas besoin de sauvegarder tout ça très fréquemment. Une fois par semaine devrait suffire. Maintenant, comme ça ne télécharge que ce qui change, j’exécuterai peut-être en quotidien.
23 mars 2025
Sauvegarder Google Drive et Google Photos
Je continue toujours sur mes sauvegardes.

Pour Google Drive j’aurais pu utiliser le client officiel mais j’ai besoin qu’il synchronise même quand je n’ai pas de session ouverte. J’aimerais aussi pouvoir gérer plusieurs utilisateurs facilement.

J’ai fouillé et trouvé rclone qui fait ça pour moi.

La procédure pour créer ses propres clés d’API est un peu pénible mais le reste fonctionne assez facilement. J’ai créé une clé d’API pour chaque compte. Rétrospectivement je ne suis pas certain que ça valait le coup.

L’outil est disponible sous homebrew
```
brew install rclone
```
Ma config
```
[gdrive-x]
type = drive
client_id = xxx.apps.googleusercontent.com
client_secret = xxx
scope = drive
token = {"access_token":"xxxx","token_type":"Bearer","refresh_token":"xxx","expiry":"xxx"}
team_drive = 

[gphotos-x]
type = gphotos
client_id = xxxx.apps.googleusercontent.com
client_secret = xxxx
include_archived = true
read_only = true
start_year = 1970
token = {"access_token":"xxxx","token_type":"Bearer","refresh_token":"xxx","expiry":"xxx"}
```
Et mon script de lancement
```
/opt/homebrew/bin/rclone --config=/path/to/rclone.conf --log-level NOTICE --fast-list --drive-skip-shortcuts sync gdrive-x: /path/to/gdrive-x/

/opt/homebrew/bin/rclone --config=/path/to/rclone.conf --retries-sleep 10s --log-level NOTICE --fast-list --exclude /media/all/** --exclude /media/by-year/** --exclude /media/by-day/** --exclude /upload/** sync gphotos-survol: /path/to/gphotos-x/
```
Le fonctionnement par défaut sur Google Photos implique beaucoup de doublons. La même image est sauvegardée dans les albums où elle est, plus dans /media/all, dans l’année concernée de /media/by-year, dans le mois concerné de /media/by-month et dans le jour concerné dans /media/by-day.

On peut facilement exclure une partie de ces répertoires (j’ai gardé la répartition par mois, ils déconseillent de garder celle par jour qui impose trop d’appels à Google Photos). Toutes les images ne sont pas toutefois dans des albums donc soit on a des doublons, soit on perd la notion d’albums.

Il faut penser à exclure /upload aussi pour ne pas avoir d’erreur inutiles. Ce répertoire ne sert que pour envoyer des images à Google.

La partie Photo est longue. Il est facile d’outrepasser les quotas qui sont assez réduit sur ce produit, même avec sa propre clé d’API. En cas de difficultés on peut faire une première passe avec les options suivantes : --tpslimit 0.3 --tpslimit-burst 10 --low-level-retries 1 --retries 1 --transfers 1 --checkers 1. Attention, dans ce cas ça va réellement durer des plombes.

Je vais faire lancer ça entre une fois par jour et une fois par semaine, ça suffira très bien pour juste un filet de sécurité.
23 mars 2025
Améliorer ma sauvegarde Gmail
J’ai détaillé la sauvegarde Gmail mais je me suis retrouvé avec un énorme maildir de plus de 30 Go.

J’ai finalement préféré faire une boite par année. J’arrive à des tailles plus raisonnables, de quelques centaines de Mo à 4 Go pour la plus grosse.

Pour ça j’ai utilisé un script généré pour l’occasion : Lire chaque email, récupérer l’année, le déposer dans un maildir spécifique à cette année.

Par dessus j’ai aussi utilisé fdupes. J’ai l’impression que soit Getmail a téléchargé quelques doublons, soit (plus probablement) j’ai créé des doublons dans ma boite Gmail quand j’ai bidouillé par le passé.
```
fdupes -n -f -d -N -p -r by-year
```
23 mars 2025
Un petit programme par l’IA
J’avance sur mes outils de sauvegarde mais aussi sur mes explorations IA.

J’ai eu besoin d’un second programme qui va lire tous les emails d’une boite au format maildir, regarder l’année du mail, et le déplacer dans une boite maildir spécifique à cette année là.

J’aurais pu le faire en Javascript ou en Ruby mais vu ce que m’a fait l’IA en quelques minutes précédemment, je me suis dit que j’allais continuer et refaire un script Go (je n’ai jamais codé une seule ligne de Go).

Voici le résultat : github.com/edas/split-maildir-by-year.

Les 300 lignes de Go ont analysé l’intégralité de mon archive Gmail (537 000 emails quand même).
- Je ne crois pas avoir touché le code source à la main
- Le code a toujours compilé du premier coup
- Le code a toujours fait ce que je souhaitais, sans erreur
Le code est correctement structuré, des fonctions ont été créées au fur et à mesure des besoins quand le code a évolué. Quand une fonction est un peu longue, il sépare en blocs et ajoute une ligne de commentaire pour dire ce que fait le bloc, ce qui me permet de ne pas avoir à décoder un code dans un langage que je ne connais pas.

10 demandes courtes pour avoir le programme et le faire évoluer vers mes besoins, questions de relecture incluses. 17 ajouts par la suite pour traiter des cas spécifiques rencontrés.

Je n’aurais pas fait plus vite moi-même, ni en Go ni dans un langage que je connais très bien. Peut-être que ça aurait été un peu plus difficile pour un non-développeur, mais je vois mal ce que j’aurais eu à y gagner à le coder à la main.

À chaque modification j’ai le diff à valider mais aussi une bonne explication de l’IA sur ce qui a été modifié, comment et pourquoi. Ma relecture s’est souvent faite en diagonale sur la base des commentaires de code. L’IA a su répondre à mes questions quand j’ai rencontré des éléments moins évide

Plutôt que lister les étapes, je copie directement mes prompts.
```
I have hundreds thousands of files in the "maildir/new" directory. Each file contains a raw email with headers.

I want a program which reads all emails one by one, look for the "Date" header, return an error in the header doesn't exists or is unreadable, and otherwise move the email file in the directory "by-year/{year}/new" where {year} is the year in the Date header.
```
Je relis parce que ça va toucher des données réelles et que j’ai la flemme de faire des données de tests.

Je vois qu’il retourne toujours une date même quand il y a une erreur. Inhabitué de Go, j’ai peur de certaines erreurs de débutants en PHP ou en JS, où on utilise une date du jour plutôt que gérer l’erreur. Je pose ma question et je suis rassuré par sa réponse (que je trouve logique après coup vu le fonctionnement des erreurs en Go)
```
can the parseEmailDate return nil when it doesn't find a Date header ?
```
Je vois aussi un mkdir sans test d’existence préalable. Dans d’autres langages ça jette une erreur si le répertoire existe. Je pose la question et là aussi je suis rassuré par sa réponse.
```
what if the directory already exists line 63 ?
```
Je demande une adaptation, non strictement nécessaire, pour que chaque répertoire soit bien une boite maildir avec les 3 répertoires obligatoires. Ce n’est pas nécessaire à ma sauvegarde mais je préfère, au cas où ça m’évite des erreurs un jour.

Oui, j’ai parfois basculé en français. Je ne sais ni pourquoi j’ai du français ici, ni pourquoi j’ai mis de l’anglais avant. L’IA est configurée pour toujours me répondre en français. Le code est toujours commenté en anglais. Je pense que propres entrées dépendent ce sur quoi mon attention était à ce moment là (code, page web, etc.)
```
Si le répertoire "by-year/{year}" n'existe pas, il faut aussi créer "by-year/{year}/cur" et "by-year/{year}/tmp", même si nous ne nous en servons pas
```
Seconde adaptation : L’IA m’a dit plus haut qu’elle avait un code de gestion de conflit. Je vois le commentaire dans le code qui dit qu’en cas de conflit le code ajoute un suffixe avec le timestamp du moment pour éviter d’écraser un fichier existant. Normalement ça ne devrait jamais arriver mais un suffixe risquerait de casser le format de nommage des fichiers maildir donc je préfère qu’on s’arrête avec une erreur et que j’avise.
```
if there is a conflict, to not append a timestamp to make it unique. Return an error.
```
Troisième adaptation. Je traite un demi-million de fichiers. Je préfère que ça traite les fichiers au fil de l’eau plutôt qu’avoir la liste d’un demi-million de fichiers en mémoire.

Au départ c’est d’abord une question. Je ne sais pas si Go retourne un tableau ou un itérateur (oui, j’ai été flemmard jusqu’à ne même pas faire attention au typage). Je m’attendais à demander la correction dans le premier cas. Au final il modifie de lui-même le code à partir de la seconde question pour faire des itérations par lots 100 fichiers, sans que je ne le demande explicitement.

En réalité c’est du script maison, qui sera lancé juste une poignée de fois. L’optimisation est totalement inutile mais je n’ai pas encore appris à totalement lâcher prise vis-a-vis de ce que j’aurais codé moi-même.
```
What does return ReadDir in line 88 ?
```
```
Si le répertoire contient des millions de fichiers, est-ce que la variable files ligne 88 va tout avoir en mémoire ?
```
Je vais jouer avec de vraies données. Je veux voir les erreurs et m’arrêter pour corriger, pas que ça continue et que j’ai à remonter voir s’il y a eu des erreurs.
```
The programm should stop at the first error, not continue with the next file
```
Et, parce que je n’y avais pas pensé avant :
```
Le programme doit aussi prendre un chemin en argument. C'est là que se trouveront les différents répertoires prévus.
```
La première phase est faite. Je passe au test en conditions réelles, sur le demi-million d’email de mon archive. Chaque fois que j’ai une erreur, je lui indique et j’avance.

C’est là que je vois que chaque client email fait bien ce qu’il veut avec les entêtes. J’ai croisé un nombre inattendu de formats différents et d’erreurs dans les entêtes. Chaque fois le programme m’affiche l’erreur, je copie-colle la date problématique, l’IA corrige, et je relance jusqu’à l’erreur suivante.
```
We should also parse the format for "Mon, 21 Aug 2006 16:47:08 +0200 (CEST)"
```
```
We should also parse the date "Mon, 1 Dec 2008 10:57:10 UT"
```
Sur une erreur étrange, j’ouvre l’email et je me rends compte qu’il prend en compte la continuation d’une entête Received comme si c’était une date, parce qu’il ne prend pas en compte les espaces avant le mot clé Date.
```
TrimSpave at line 30 should only trim right space, not left space
```
Particularité Gmail, quand il récupère un email d’une boite tierce (via POP3 ou IMAP), il crée des entêtes à lui, saute une ligne et après pose le vrai email. Rétrospectivement je pense que j’aurais dû retirer la section ajoutée par Gmail pour retrouver un email normal. Je le ferais peut-être plus tard. Là je me suis contenté de lui faire contourner le problème.
```
When we find the header "X-Gmail-fetch-Info", we should ignore the blank line following if it exists
```
Encore des questions de dates…
```
We should be able to parse the Date "Tuesday 29 May 2007, 16:03"
```
```
We should also parse "Wed, 03 Mar 2010 22:36:13 +0100 CET"
```
```
We should also parse "Thu, 22 Jul 2010 23:02:50"
```
```
We should also parse "Mon, 30 Mar 2009 20:11:22 +0100"
```
Ce coup-ci ça ne corrige pas mon problème. Rétrospectivement j’aurais pu le comprendre parce que le message d’erreur n’était pas exactement le même, mais je le laisse trouver seul. Le mot clé DATE était en majuscules, c’était la première fois.
```
pourtant le script fait une erreur sur la ligne "DATE: Mon, 30 Mar 2009 20:11:22 +0100". Pourquoi ?
```
Le code qu’il me génère imbrique quatre fonctions de manipulation de texte sur une seule ligne. Je ne trouve pas ça lisible. Je pose la question.
```
que fait la ligne 49 ?
```
Ça semble redondant avec la ligne suivante, pré-existante. Effectivement, quand je pose la question il identifie le doublon et le supprime.

Il faut penser à relire (même si l’erreur aurait juste était du code inutile). Cursor me fait valider chaque changement sous forme de diff donc c’est assez rapide et facile à faire.
```
que fait la ligne 50 ?
```
Encore des formats de date…
```
Encore un format : "mon, 10 jul 2006 01:02:08 gmt"
```
```
encore un : "wed, 23 jun 2004 01:19:32 cest"
```
```
encore un "mon, 22 mar 2010 14:20:15 +0100 +0100". C'est probablement une erreur d'écriture mais il faut la prendre en compte
```
```
"wen, 16 jul 2008 22:09:05 +0200"
```
Les deux derniers cas sont forcément des erreurs de la part de clients emails. Pour la première erreur il choisit d’ignorer toutes les répétitions du décalage horaire.

La seconde erreur est intéressante parce que « wen » est probablement là pour « wed » (wednesday). Il identifie l’erreur et ajoute un code qui remplace toute une liste d’erreurs de frappes habituelles pour les code courts de jour de la semaine. Parfait.
```
"wed, 19 apr 2006 12:15 -0800"
```
J’ai mon premier cas d’email sans entête « Date ». Je ne sais pas si c’est autorisé ou non mais peu importe. Je lui dis de fouiller les entêtes « Received » à la place. Je sais que ces entêtes peuvent être sur plusieurs lignes.

L’IA va plus loin que moi, sait que la date est en seconde position dans ces entêtes, et regarde uniquement après le premier point virgule. Elle sais aussi comment s’appellent ses entêtes sur plusieurs lignes (lignes de continuation). Mieux que ce que j’aurais fait.

Je note que je tape vite, avec des erreurs de frappe, un guillemet en trop, etc. Peu importe, c’est destiné à l’IA. Me relire est superflu : je peux revenir en arrière si c’est mal compris.
```
If you don't find any Date header, try again to look if you can find a date somewhere in a "Received" header (theere may be multiple "Received" headers") or in the lines begining with a space and following a "Received" header
```
23 mars 2025
Disque de sauvegarde
J’ai un SSD de 8 To dédié à ça. L’idée c’est de me donner un peu de mou sachant que j’en utilise au moins 3 To.

Je l’ai branché sur un Mac mini, qui est la seule machine fixe chez moi et je n’ai pas envie d’aller acheter un NAS en plus.

Le tout sera aussi sauvegardé en ligne au cas où le disque fait défaillance (mauvaise manipulation, panne, vol, incendie, dégât des eaux) mais j’ai besoin que ce soit d’abord en local et pas uniquement dépendant d’un service en ligne.

Outre la défiance vis-a-vis des services en ligne, ça me permettra de tout remonter sans attendre des jours à tout télécharger.

Montage du disque

C’est une machine partagée, donc il faut des droits d’accès. Macos monte par défaut tous les disques USB avec un paramètre noowners qui fait que tout le monde a les mêmes droits sur tous les fichiers.

Pour corriger ça il faut l’empêcher de monter le disque automatiquement et le faire à la main avec l’option owners. Je ne sais pas si c’est redondant mais j’ai eu des succès en ajoutant la commande diskutil enableOwnership avec l’identifiant du disque;

C’est un disque de sauvegarde, je fais déjà écrire beaucoup dessus en permanence, il faut bien penser à ajouter le noatime pour éviter de générer des écritures inutiles.

Au final :
```
# GUID du disque, les /dev/disk* ne sont pas stables
GUID="xxxxx"
# Point de montage
DIR="/Volumes/data"
mkdir -m 0750 $DIR 2> /dev/null
diskutil mount -mountOptions noauto,nosuid,nodev,noatime,nobrowse,owners -mountPoint $DIR $GUID && diskutil enableOwnership $GUID
```
On chiffre

Le disque est chiffré. Pour moi c’est indispensable en cas de vol. C’est aussi nécessaire si le disque semble avoir des défaillance, que je ne peux l’effacer mais que quelqu’un risque de réussir à relire quand même. Je ne veux ni ne peux me permettre que tout se balade n’importe où.

Je pourrais enregistrer la clé de chiffrement dans le gestionnaire natif de Macos comme il m’invite à le faire mais je vais avoir besoin plus tard que le montage se fasse au démarrage du disque, hors de toute session utilisateur.

Je me permets donc de mettre en clair le mot de passe du disque. Tant que le script en question n’est accessible que par root, ça me va.
```
# GUID du disque, les /dev/disk* ne sont pas stables
GUID="xxxxx"
# Point de montage
DIR="/Volumes/data"
# Mot de passe du système de fichier
PASS="xxxxxx"
diskutil apfs unlockVolume $GUID -passphrase $PASS -nomount
mkdir -m 0750 $DIR 2> /dev/null
diskutil mount -mountOptions noauto,nosuid,nodev,noatime,nobrowse,owners -mountPoint $DIR $GUID && diskutil enableOwnership $GUID
RES=$?
sudo chgrp Famille $DIR
sudo chmod 750 $DIR
```
On garde actif

Par défaut Macos démonte tous les disques USB quand on ferme la session utilisateur. C’est aussi vrai pour les partitions chiffrées, y compris celles qu’on aurait montées à la main.

Bref, il suffit que n’importe qui utilise le poste et se déconnecte pour que mon disque de sauvegarde soit aux abonnés absents, impossible à remonter vu que seul root peut accéder au mot de passe du disque.

J’ai ajouté en fin de script une petite boucle qui « occupe » le disque et empêche qu’il soit démonté. Ça a l’air de fonctionner.
```
cd $DIR
while true; do
   sleep 10;
done
```
Il faut quand même pouvoir arrêter le système, donc le script doit savoir réagir à un signal d’interruption.
```
trap 'bye' SIGINT SIGTERM SIGKILL
function bye() {
 cd /Volumes
 exit 1;
}
```
Lancement au démarrage

Je n’ai pas trouvé d’autres méthodes qu’un fichier plist dans /Library/LaunchDaemons.
```
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE plist PUBLIC "-//Apple Computer//DTD PLIST 1.0//EN" "http://www.apple.com/DTDs/PropertyList-1.0.dtd">
<plist version="1.0">
<dict>
  <key>Label</key>
  <string>xxxx.backup-disk</string>
  <key>OnDemand</key>
  <false/>
  <key>UserName</key>
  <string>root</string>
  <key>GroupName</key>
  <string>wheel</string>
  <key>ProgramArguments</key>
  <array>
    <string>/usr/local/sbin/mount-data.sh</string>
  </array>
  <key>RunAtLoad</key>
  <true />
  <key>KeepAlive</key>
  <false/>
  <key>LaunchOnlyOnce</key>
  <true/>
</dict>
</plist>
```
Le script de montage complet est dans /usr/local/sbin, en lecture uniquement pour root.
```
#!/bin/sh
# GUID du disque, les /dev/disk* ne sont pas stables
GUID="xxxxx"
# Point de montage
DIR="/Volumes/data"
# Mot de passe du système de fichier
PASS="xxxxxx"
trap 'bye' SIGINT SIGTERM SIGKILL
function bye() {
 cd /Volumes
 exit 1;
}
diskutil apfs unlockVolume $GUID -passphrase $PASS -nomount
mkdir -m 0750 $DIR 2> /dev/null
diskutil mount -mountOptions noauto,nosuid,nodev,noatime,nobrowse,owners -mountPoint $DIR $GUID && diskutil enableOwnership $GUID
RES=$?
sudo chgrp Famille $DIR
sudo chmod 750 $DIR
cd $DIR
while true; do
   sleep 10;
done
```
23 mars 2025
Sauvegarder Gmail
J’ai un historique de 25 ans d’emails et j’y tiens. Il m’arrive encore régulièrement d’aller fouiller pour retrouver trace de contacts ou d’échanges d’il y a 10 ans. Je l’ai fait encore ce matin.

Je tiens donc à assurer la pérennité de tout ça. J’ai confiance en Google¹ mais j’ai déjà lu les récits de personnes qui se sont vus clôturer leur compte sans préavis ni possibilité de récupération. Je ne suis pas non plus à l’abri de faire moi-même des bêtises dans mon compte.

J’ai déjà utilisé Getmail par le passé pour télécharger un à un tous mes emails en provenance de Google. Il n’a cependant pas été mis à jour pour Python3. Getmail6 semble avoir pris le relai et il a la bonne idée d’être disponible sous macos via homebrew.

POP3

Mon compte dépasse le demi-million d’emails archivés. La synchronisation IMAP semble prendre des années à balayer tous les emails pour savoir lesquels sont nouveaux depuis la dernière fois. C’est jouable si vous avez juste quelques dizaines de milliers d’emails. Au-delà il faut utiliser le bon vieux POP3.
1. Activer POP3 dans les options de Gmail
2. S’assurer de le configurer pour récupérer tous les emails et pas uniquement ceux qui arrivent à partir d’aujourd’hui.
Si vous aviez déjà utiliser POP3 par le passé, il faut lui demander de réactiver le téléchargement de tous les emails, y compris ceux qui ont déjà été téléchargés.

Si vous avez déjà un client email qui se connecte en POP3, passez-le en IMAP. Ils se feraient concurrence. Vous auriez une partie des emails d’un côté et une partie de l’autre.

Configuration

Ma configuration getmailrc ressemble à ça :
```
[retriever]
type = SimplePOP3SSLRetriever
server = pop.gmail.com
username = xxxx@xxxxx.xxx
password = xxxxxxxxxx

[destination]
type = Maildir
path = /xxxxxxx/maildir/
user = xxx
filemode = 0600

[options]
read_all = true
received = false
delivered_to = false
verbose = 0
message_log = /xxxxx/pop.log
```
L’utilisateur est l’adresse email complète. N’utilisez pas votre mot de passe Google et créez un mot de passe d’application dédié, ça vous permettra de le révoquer un jour. Pensez à protéger ce fichier de configuration parce que celui qui y aura accès aura aussi accès à votre compte Google.

Le paramètre received assure que Getmail récupère le message tel quel, sans ajouter d’entête.

Erreurs de synchronisation

Google envoie tous les emails par groupes de 200 à 1000 non téléchargés à chaque appel POP3. Si le paramètre read_all est à false, Getmail ne télécharge pas les emails qu’il a déjà vu.

Pour une raison ou une autre, ça peut partir en boucle si Getmail pense avoir déjà vu un email que Google pense pourtant ne pas être déjà téléchargé : L’email va être reproposé à chaque fois. Si ça fait ça sur plusieurs centaines d’emails, vous prenez le risque que vous restiez bloqué sur le même groupe d’emails indéfiniment à chaque appel.

Vérifiez bien que le read_all est à true. Si le problème persiste, une solution est de passer par le type BrokenUIDLPOP3SSLRetriever plutôt que SimplePOP3SSLRetriever. Getmail télécharge alors systématiquement les messages sans se préoccuper de ce qu’il a déjà lu ou non.

Quota

Gmail a des quota sur ses APIs. Pour initialiser mon demi-million d’emails j’ai lancé Getmail en boucle et je suis tombé sur des erreurs 403. Si vous devez comme moi initialiser plusieurs dizaines de Go, ça demande un peu de surveillance.

Le quota semble toutefois très très large. En rythme de croisière je compte probablement synchroniser 1 à 2 fois par jours mais on peut sans problèmes faire plusieurs synchronisation par heures si ça vous semble indispensable.

Maildir

Il y a deux formats, mbox et maildir. Mbox c’est un unique gros fichier, un peu comme une archive tar. Maildir c’est un répertoire avec un fichier par email, ce qui me semble plus adapté pour des sauvegardes avec de nouveaux emails tous les jours.

Initialiser un maildir c’est juste un répertoire qui contient un sous-répertoire tmp, un new, et un cur. Tous les emails envoyés par Getmail iront dans new.

Il reste que pour mon demi-million d’emails ça commence à faire beaucoup de fichiers dans un seul répertoire. J’ai fait un petit script qui parcourt l’intégralité des emails, lit la date², et les répartit dans des maildir spécifiques par année. Ça facilitera aussi la sauvegarde et me permettra éventuellement de faire un zip pour les vieilles années.

Emails envoyés

Le problème du POP3 c’est que ça ne télécharge que les emails reçus, pas les emails envoyés. J’ai donc dû ajouter une seconde synchronisation IMAP sur le dossier des emails envoyés. Là j’ai dans les 30 000 emails. C’est long à parcourir mais encore jouable tant que je ne lance pas la récupération toutes les deux minutes.

J’ai donc deux fichiers getmailrc, un pop.getmailrc (emails reçus) et un imap.getmailrc (emails envoyés). Je dois donc manuellement spécifier les paramètres –rcfile= quand j’appelle Getmail. On peut spécifier plusieurs fois le paramètre, les synchronisations sont alors lancées l’une après l’autre.
```
[retriever]
type = SimpleIMAPSSLRetriever
server = imap.gmail.com
username = xxxx@xxxxx.xxxx
password = xxxxxx
mailboxes = ("[Gmail]/Sent Mail",)

[destination]
type = Maildir
path = /xxxxxx/maildir/
user = xxxx
filemode = 0600

[options]
read_all = false
received = false
delivered_to = false
verbose = 0
message_log = /xxxxxx/imap.log
```
J’envois ça vers le même dossier maildir, puis fais la même répartition par année.

Enregistrer en tâche planifiée

Sous Linux il suffit probablement de faire une entrée dans le cron.

Sous Macos, si je veux que la synchronisation s’exécute même quand je ne suis pas connecté, il faut enregistrer le script dans /Library/LaunchDaemons.

Comme le répertoire destination de mes sauvegarde est hors de mon disque principal, Macos impose aussi que le programme lancé ait la permission spéciale « full disk access ». Getmail n’est qu’un script Python et je n’ai pas voulu donner des droits larges à tout Python. J’ai dû faire un programme natif qui lance mon script Getmail et donner les droits sur le disque à ce script là.

Je ferai probablement un billet dédié à tout ça.

Entre temps j’ai presque 40 Go d’historique email à synchroniser depuis Google par batch de 200 à 1000 mails. Ça va me prendre un peu de temps.
1. Oui, j’utilise Google. J’ai soupesé plein de fois les alternatives mais toutes auraient demandé un compromis significatif et je ne suis pas encore passé à l’action. Ça viendra. J’ai besoin de trouver le bon équilibre et de ne pas perdre la recherche dans le passé. ↩︎
2. Je ferais un billet spécifique, ça s’est révélé bien moins évident que je ne l’imaginais naïvement. ↩︎
18 mars 2025
Organisation des sauvegardes

Je me suis remis à mes sauvegardes. Le dernier épisode était en septembre et ça commence à faire presque deux ans que rien n’est finalisé.

Je reste sur mon plan précédent. J’ai juste abandonné l’idée d’utiliser Crashplan. Ça part de messages sur des forums où ils disent explicitement qu’ils ne pouvaient pas garantir le bon fonctionnement quand on dépasse quelques To de sauvegarde. Derrière j’ai exploré plus et les débits faméliques rendent de toutes façons illusoire une restauration complète sur des volumes de cet ordre de grandeur en cas de défaillance disque.

J’irai chez BorgBase ou Hetzner, probablement Hetzner parce que même en coupant l’inutile j’ai quand même au moins 3 To aujourd’hui et que va commencer à faire cher chez BorgBase avec l’augmentation naturelle.

Disque externe – Disque interne

Le vrai sujet de ce week-end, c’est comment monter une partition chiffrée depuis un disque externe. C’était déjà mon problème en septembre.

Macos considère que les disques externes sont comme des clés usb, lisibles par tous les utilisateurs, sans droits d’accès, et démontées dès qu’on se déconnecte de sa session.

Passer à un système chiffré empêche qu’il soit montable par tout le monde tant qu’on n’ajoute pas la clé de chiffrement dans le trousseau.

Si c’est monté manuellement, on peut ajouter le paramètre owners pour faire en sorte que le système respecte les permissions sur les fichiers et n’ouvre pas tout à tout le monde.

J’ai pu faire monter le disque au démarrage en ajoutant un plist dans /Library/LaunchDeamons et en le chargeant avec un launchctl load. Le plist exécute un script au démarrage qui déverrouille le disque et le monte avec les bonnes options. Ça veut dire que la clé de chiffrement est en clair dans un fichier du disque interne. Le disque interne est chiffré lui aussi, le fichier n’est lisible que par root. Ce n’est pas parfait mais suffisant pour mon usage.

Ça reste visible comme un disque externe, donc tout le monde peut demander à l’éjecter. J’ai palier au problème ajoutant un petit code dans le script de démarrage qui entre dans le disque et attend indéfiniment. Le disque étant occupé, personne ne peut l’éjecter.

J’ai l’impression de batailler à faire du bricolage sur ce qui m’aurait pris quelques minutes sous Linux mais ça fonctionne.

L’étape suivante ça va être de s’assurer que tous les fichiers se retrouvent sur le disque prévu pour, en synchronisant tous les comptes Google Drive et Tresorit. Ensuite je vais installer un getmail pour archiver en temps réel les boites email, probablement un script pour archiver le Github. La dernière étape sera de brancher Borg pour envoyer le backup en ligne et d’attendre un bon mois qu’il finisse la synchronisation initiale.

24 février 2025