For TGI
http://github.com/philschmid/model-recommender.git
https://huggingface.co/spaces/philschmid/Can-i-run-tgi
defaults:
- benchmark
- scenario: inference
- launcher: process
- backend: py-txi
- _base_
- _self_
name: tgi_llama
launcher:
device_isolation: true
device_isolation_action: warn
backend:
gpus: all
no_weights: true
model: mistralai/Mistral-7B-v0.1
scenario:
energy: true
memory: true
input_shapes:
batch_size: 4
sequence_length: 256
generate_kwargs:
max_new_tokens: 100
min_new_tokens: 100
Le serveur d’inférence Triton est un logiciel open-source qui standardise le déploiement et l’exécution des modèles de deep learning.
Il permet l’optimisation de l’utilisation des ressources avec des fonctionnalités de batching dynamique et d’exécution simultanée.
Il contient aussi des outils de benchmark et de monitoring. C’est une solution largement utilisé dans l’industrie et elle pourrait nous permettre d’obtenir des mesures de consommation plus proche de l’implémentation des LLM dans le cadre des API publiques.
Nous pouvons remarquer que, dans les datasets utilisés dans la v0 de la méthodologie, les modèles ne sont pas particulièrement configurés pour représenter une implémentation réaliste mais au contraire pour garder certains paramètres constants entre les mesures (batching à 1, toujours une seule instance d’un modèle par GPU, etc…). Cela dans la logique de comparer les modèles entre eux. Essayer de déployer des modèles avec triton serveur et avec les paramètres les plus optimaux pourrait nous permettre de savoir si la différence de consommation de resources est significative et mérite d’être prise en compte dans notre méthodologie de calcul.
Petite mention à VLLM quand même qui est un équivalent de triton mais avec une compatibilité plus large (pas restreint aux GPU NVIDIA).
February 21, 2024 - @Samuel Rince et @Flavien Henrion travaille sur une monté en compétence sur le déploiement de LLM avec triton serveur.
https://github.com/ELS-RD/transformer-deploy
Tutorial compilation Llama to TensorRT-LLM