🔗 Liens

Rappels

Weekly general lundi 18-19h Weekly sensibilisation mardi 12h30-13h Weekly methodologie mercredi 13h30-14h

MĂ©thodologie

Travail sur sensibilité

Différence de comportements en fonction des gpu :

A40 est le GPU qui consomme le plus (moins adapté aux LLM) A100 est le plus efficace après 5B V100 est le plus ancien et moins efficace après 5B

Travail sur corrélation

Le nombre de paramètres est très corrélé à la conso par token Corrélation très négative avec le throughput

Review Sprint 2:

(En cours) Data analyse : étude de l’influence du hardware (GPU) (En cours) Partenariats machines et tech Point de contact pour llm-perf

Sprint 3:

Étude en fonction des paramètres disponibles Hardware (GPU) Méthode de quantisation Backend Incertitudes

Documentation pour l’outil

Périmètre test bench Triton + vllm ? (tutorial)

Sensibilisation

Choix du chantier