Weekly general lundi 18-19h Weekly sensibilisation mardi 12h30-13h Weekly methodologie mercredi 13h30-14h
Différence de comportements en fonction des gpu :
A40 est le GPU qui consomme le plus (moins adapté aux LLM) A100 est le plus efficace après 5B V100 est le plus ancien et moins efficace après 5B
Le nombre de paramètres est très corrélé à la conso par token Corrélation très négative avec le throughput
(En cours) Data analyse : étude de l’influence du hardware (GPU) (En cours) Partenariats machines et tech Point de contact pour llm-perf
Étude en fonction des paramètres disponibles Hardware (GPU) Méthode de quantisation Backend Incertitudes
Documentation pour l’outil
Périmètre test bench Triton + vllm ? (tutorial)