Méthodologie v1

Notations

$\# T$ est le nombre de tokens ($\#T_{out}$ est le nombre de tokens générés)
$P$ est le nombre de paramètres d’un modèle en milliards
$Q$ est le nombre de bits utilisés pour représenter un paramètre d’un modèle
$M$ est la quantité de mémoire en GB
$\Delta T$ est la latence d’une requête
$W$ est une puissance exprimée en Watt
$E$ est une énergie en Wh
$I$ est un impact avec $I^u$ pour la phase d’utilisation et $I^e$ pour la phase de fabrication
$IF$ est un facteur d’impact
$\Delta L$ est la durée de vie d’un équipement
$\#GPU$ est le nombre de GPU
$PUE$ Power Usage Effectiveness du data center

Estimation de l’impact d’une requête

$$ \begin{equation*} \begin{split} I_{request}&=I_{request}^u + I_{request}^e \\ &= E_{request}*IF_{em}+\frac{\Delta T}{\Delta L}I_{server}^e \end{split} \end{equation} $$

Avec :

$E_{request}$ étant l’énergie consommée en Wh pour la requête
$IF_{em}$ l’impact de la consommation d’électricité en fonction du pays