Notations
- $\# T$ est le nombre de tokens ($\#T_{out}$ est le nombre de tokens générés)
- $P$ est le nombre de paramètres d’un modèle en milliards
- $Q$ est le nombre de bits utilisés pour représenter un paramètre d’un modèle
- $M$ est la quantité de mémoire en GB
- $\Delta T$ est la latence d’une requête
- $W$ est une puissance exprimée en Watt
- $E$ est une énergie en Wh
- $I$ est un impact avec $I^u$ pour la phase d’utilisation et $I^e$ pour la phase de fabrication
- $IF$ est un facteur d’impact
- $\Delta L$ est la durée de vie d’un équipement
- $\#GPU$ est le nombre de GPU
- $PUE$ Power Usage Effectiveness du data center
Estimation de l’impact d’une requête
$$
\begin{equation*}
\begin{split}
I_{request}&=I_{request}^u + I_{request}^e \\
&= E_{request}*IF_{em}+\frac{\Delta T}{\Delta L}I_{server}^e
\end{split}
\end{equation}
$$
Avec :
- $E_{request}$ étant l’énergie consommée en Wh pour la requête
- $IF_{em}$ l’impact de la consommation d’électricité en fonction du pays