J’avais tenté de récolter un peu de donnée sérieuse sur la consommation énergétique des LLMs. C’est laborieux, et je n’ai pas trouvé le consensus que je cherchais.
Les données ne sont pas publiques, si tant est qu’elles soient connues, et tout n’est qu’estimation à base d’hypothèses.
Il y a à la fois profusion d’information et de chiffres lancés, et en même temps pas tant d’études récentes qui détaillent tout ça. Celles qui existent donnent des résultats parfois extrêmement différents les unes des autres, sur des hypothèses elles-aussi différentes et parfois discutables.
Le tout est aussi dépendant de la taille comme de la génération du modèle utilisé. Certains demandent du calcul parallèle sur plusieurs GPU dédiés, d’autres sont assez petits pour tourner directement sur le téléphone. La consommation énergétique est en fonction.
Bref, plein de choses à lire, sans qu’on puisse facilement en déterminer la fiabilité des estimations ou la pertinence des hypothèses. Chacun trouvera son bonheur en fonction des biais qu’il aura au départ.
Je n’ai toutefois pas été le seul à faire ces recherches, et il y a des réponses intéressantes.
Si je ne devais donner qu’un lien pour commencer, c’est Andy Masley, qui a tenté l’exercice de tout fouiller pour tirer ses conclusions et qui a ensuite itéré avec les réactions qu’il a eu, liant plein de sources et de réactions sur le web, avec tendance à remettre ses chiffres et conclusions en cause quand c’est pertinent (attitude qui me donne confiance). Vous pouvez commencer par le dernier épisode et suivre lien à lien.
Note : Ce qui suit ne porte pas de jugement de valeur. Je ne dis pas si c’est bien, grave, ou quoi que ce soit. Tirez-en vous-mêmes vos conclusions.
Elle est de combien cette consommation énergétique alors ?
Les études sérieuses récentes parlent d’entre 0.3 et 2.9Wh par requête ChatGPT, en faisant référence à des générations différentes1, et certaines avec des hypothèses d’entrée/sortie d’un ordre de grandeur plus grand que la requête moyenne. On trouve aussi du 0,2Wh pour LLaMA-65B. HuggingFace donne une estimation énergétique de chaque requête, et j’obtiens plutôt du 0,18Wh pour Qwen 2.5 en 72B.
Les pessimistes prendront 3Wh, les optimistes 0.3Wh2. Les deux sont crédibles.
Malheureusement ça veut aussi dire que toute conclusion tient en équilibre sur une donnée dont on ne connait même pas l’ordre de grandeur réel.
Si en plus on ajoute les modèles de taille inférieure comme les chatGPT-nano et les modèles 5B dans l’équation, on peut certainement encore divider par 5 ou 103 les estimations optimistes. Si on ajoute les modèles thinking, on peut multuplier par 2 à 5 les estimations pessimistes.
Andy Masley utilise la vision conservatrice du 3Wh comme ordre de grandeur en se disant que « ça sera en dessous » et que donc c’est un coût maximum. Je suis mitigé sur l’approche, parce que du coup les discussions se focalisent sur ce chiffre qui peut (ou pas) être encore un voire deux ordres de grandeur trop grand suivant ce à quoi on fait référence.
Ça veut dire combien en équivalent CO2 ?
Une grosse partie des datacenters sont aux USA. Les USA ont une moyenne de 365 g d’eqCO2 par kWh mais ça reste très hétérogène. La Californie qui concentre une bonne partie de l’activité fait moitié moins.
Tout n’est d’ailleurs pas non plus aux USA. Si vous utilisez un LLM hébergé en France, les émissions tombent à 56 g d’eqCO2 par kWh, soit 6 fois mois.
Il est dans tous les cas difficile de lier les datacenters à la moyenne d’émission de leur région vu leurs efforts pour se lier à des sources d’énergie à faibles émissions plutôt au mix général.
Bref, là aussi, même l’ordre de grandeur n’est pas une évidence.
Malheureusement ça se multiplie : Si l’estimation énergétique fait une fourchette d’un ordre de grandeur, que l’estimation d’émission fait une fourchette d’un ordre de grandeur, le résultat c’est qu’on a une incertitude de deux ordres de grandeur à la fin, et prendre « au milieu » n’a aucun sens.
Bien entendu, si on ne se fixe pas sur une taille de modèle précise, on peut ajouter encore un ordre de grandeur d’incertitude à tout ça.
La fourchette finale est comme vous dire « c’est quelque chose entre le Paris-Versailles aller-retour et le tour de la terre complet ». Difficile de raisonner avec ça.
Donne nous un chiffre !
Va savoir… vu les estimations avec des ordres de grandeurs quasiment inconnus, ma seule conclusion est « je ne sais pas ».
Je vais quand même reprendre l’idée d’Andy Masley avec quelques hypothèses.
ChatGPT ou équivalent 70B, borne pessimiste, datacenter en Californie | 0,550 gr d’éqCO2 par requête |
ChatGPT ou équivalent 70B, borne optimiste, datacenter en Californie | 0,055 gr d’éqCO2 par requête |
ChatGPT-nano ou équiv. 5B, borne pessimiste, datacenter en Californie | 0,055 gr d’éqCO2 par requête |
ChatGPT-nano ou équiv. 5B, borne optimiste, datacenter en Californie | 0,005 gr d’éqCO2 par requête |
ChatGPT-nano ou équiv. 5B, borne optimiste, datacenter en France | 0,0017 gr d’éqCO2 par requête |
Rentabilité
Un ordinateur fixe avec son écran externe consomme dans les 60 watts4, donc 1 Wh par minute d’utilisation. Avec nos chiffres plus haut, une requête LLM devient rentable énergétiquement si elle évite entre 2 secondes et 3 minutes de travail5.
On trouve aussi qu’une requête de recherche Google consomme 10 fois moins qu’une requête ChatGPT6. Tourné autrement, la requête au LLM est rentable si elle vous épargne 10 recherches Google. Si vous utilisez un modèle nano, on devrait être au même ordre de grandeur qu’une requête Google.
Si on mélange les deux (pendant l’utilisation de votre ordinateur vous allez faire des recherches, pendant vos recherches vous allez utiliser l’ordinateur, et faire tourner d’autres serveurs web), l’équivalence énergétique semble atteignable rapidement.
Ok, mais c’est beaucoup quand même, non ?
Je vais éviter l’opinion subjective. Le mieux est de prendre quelques exemples à partir du comparateur de l’Ademe :
- Une simple tartine de beurre sans confiture le matin7 c’est l’équivalent d’entre 144 requêtes et 39 500 requêtes LLM dans la journée.
- Prendre 100 grammes de crevettes8 au repas une fois dans l’année, c’est l’équivalent de faire au travail toute l’année entre plus de 2 requêtes par jour et plus d’1 requête par minute.
- Si vous décidez de remplacer la vieille armoire de mamie qui commence à lâcher plutôt que de faire un rafistolage bien moche avec clous et planches, c’est l’équivalent de faire entre une requête toutes les 16 minutes et 17 requêtes par minute sur toute votre vie à partir de vos 6 ans, 16 heures par jour9 .
Si certains parlent d’interdire les IAs pour des raisons énergétiques, ce que je trouve comme chiffre rend toutefois bien plus efficace et pertinent d’interdire de jeter des meubles ou de manger des crevettes ou des raclettes10, à la fois sur l’ordre de grandeur et sur le service rendu.
Ce que je ne dis pas
Parce que je sais que je vais avoir pas mal de réactions :
- Je ne nie pas l’impact environnemental
- Je ne dis pas que c’est rien. Ce n’est pas rien.
- Je ne sais pas mesurer à quel point on risque d’utiliser ces outils dans le futur, et donc le potentiel effet de masse
- Je ne dis rien ici de la pertinence, de l’utilité ou de la dangerosité de ces outils hors des questions énergétiques
- Je ne dis pas oui ou non à un usage ou un autre, je me contente de donner les chiffres et l’incertitude que j’ai trouvés
C’est un état de réflexion, pas une conclusion
Bien évidemment, si j’ai fait une quelconque erreur, ce qui est loin d’être impossible, vous êtes les bienvenus à me le signaler.
Même chose si vous avez des liens à ajouter au débat. Je ne les ai pas forcément lu, et ça peut évidemment changer mon texte.
- Sans avoir de données publiques, les prix des différentes générations crédibilisent que la consommation énergétique a tendance à bien baisser avec le temps ↩︎
- C’est potentiellement 30% de plus si on prend en compte l’entrainement des modèles. J’ai fait le choix de ne pas le prendre en compte parce que justement on parle d’un futur où on aurait un usage massif des LLMs (les émissions d’aujourd’hui sont peu signifiantes). Dans ce futur, si on répartit le coût d’entrainement sur la totalité des usages, on a des chances que ça ne soit pas si significatif que ça. Dans tous les cas, même 30% ne change pas les ordres de grandeur de la suite. ↩︎
- Je me base sur la différence de prix entre ChatGPT-4.1 et ChatGPT-4.1-nano ↩︎
- On peut diviser par deux pour un ordinateur portable ↩︎
- Suivant qu’on est sur un équivalent ChatGPT avec un scénario de consommation pessimiste ou un équivalent équivalent ChatGPT-nano hébergé en France avec un scénario de consommation optimiste ↩︎
- Là aussi, il semble que ce soit une borne haute, probablement basée sur la borne haute de la consommation énergétique de ChatGPT ↩︎
- 10 grammes de beurre par tartine, à 7,9 kg d’eqCO2 par kg de beurre, donc 79 grammes d’eqCO2 par tartine. ↩︎
- 100 grammes de crevettes, à 20 kg d’eqCO2 par kg de crevettes, donc 2 kg d’eqCO2 la portion de crevettes. ↩︎
- 16 heures par jour parce que bon, à faire ça toute votre vie on peut quand même vous laisser 8 heures par jour pour dormir, manger, prendre une douche, vous déplacer, etc. ↩︎
- Ce n’est pas juste une remarque amusante ou du whataboutisme. Je suis en fait sacrément sérieux. L’alimentation de source animale est un des éléments majeur de nos émissions, bien bien au-delà de ce que pourrait devenir l’IA dans les scénarios pessimistes sur le futur. Mettre une taxe carbone voire des interdictions ne me parait pas totalement déconnant.
Oui, j’en suis là sur mon rapport au réchauffement climatique, c’est dire à quel point je ne prends pas la chose à la légère et à quel point je serais prêt à bannir l’IA si j’avais l’impression que ce serait le problème. ↩︎
Laisser un commentaire