🔗 Liens

Rappels

Weekly general lundi 18-19h Weekly sensibilisation mardi 12h30-13h Weekly methodologie mercredi 13h30-14h

Différence de comportements en fonction des gpu :

A40 est le GPU qui consomme le plus (moins adapté aux LLM) A100 est le plus efficace après 5B V100 est le plus ancien et moins efficace après 5B

Le nombre de paramètres est très corrélé à la conso par token Corrélation très négative avec le throughput

(En cours) Data analyse : étude de l’influence du hardware (GPU) (En cours) Partenariats machines et tech Point de contact pour llm-perf

Étude en fonction des paramètres disponibles Hardware (GPU) Méthode de quantisation Backend Incertitudes

Documentation pour l’outil

Périmètre test bench Triton + vllm ? (tutorial)