Record : https://drive.google.com/file/d/1jRJLlvLMduBJYIQ2qdgdqX12AjYObojO/view?usp=drive_link

Agenda

Analyse Fabrice / Ryane
- Suite : update methodo par GPU ?
Test bench : Tutorial Triton + vllm
- Client envoie plein de requêtes (perf analyser)

Notes

Analyse
- Étude de corrélation
  - energy vs parameter
  - négatif energy vs throughput
  - latency = temps génération de la réponse
  - A100 et A40 même archi
  - V100 plus vielle
- Distribution bi-modale a40, v100 ?
- Diff entre llm-perf et ml.energy
- Coquille dans les paramètres de llm-perf ? → utiliser la colonne avec pytorch+cuda+…
- Ajout des nombres de paramètres à la main sur les modèles manquants
Test avec Triton + vllm
- Énergie GPU dispo avec les métriques (nvidia)
- Perf-analyser pour tester et optimiser des modèles
  - Tuner au mieux un modèle
- Différence entre triton + vllm vs optimum-benchmark / llm-perf
- Documentation dispo dans la page “Benchmark”