Record : https://drive.google.com/file/d/1jRJLlvLMduBJYIQ2qdgdqX12AjYObojO/view?usp=drive_link
Agenda
- Analyse Fabrice / Ryane
- Suite : update methodo par GPU ?
- Test bench : Tutorial Triton + vllm
- Client envoie plein de requêtes (perf analyser)
Notes
-
Analyse
- Étude de corrélation
- energy vs parameter
- négatif energy vs throughput
- latency = temps génération de la réponse
- A100 et A40 même archi
- V100 plus vielle
- Distribution bi-modale a40, v100 ?
- Diff entre llm-perf et ml.energy
- Coquille dans les paramètres de llm-perf ? → utiliser la colonne avec pytorch+cuda+…
- Ajout des nombres de paramètres à la main sur les modèles manquants
-
Test avec Triton + vllm
- Énergie GPU dispo avec les métriques (nvidia)
- Perf-analyser pour tester et optimiser des modèles
- Différence entre triton + vllm vs optimum-benchmark / llm-perf
- Documentation dispo dans la page “Benchmark”