Setup

For TGI

http://github.com/philschmid/model-recommender.git

https://huggingface.co/spaces/philschmid/Can-i-run-tgi

defaults:
  - benchmark
  - scenario: inference
  - launcher: process
  - backend: py-txi
  - _base_
  - _self_

name: tgi_llama

launcher:
  device_isolation: true
  device_isolation_action: warn

backend:
  gpus: all
  no_weights: true
  model: mistralai/Mistral-7B-v0.1

scenario:
  energy: true
  memory: true
  input_shapes:
    batch_size: 4
    sequence_length: 256
  generate_kwargs:
    max_new_tokens: 100
    min_new_tokens: 100

outils

Serveur d’inférence NVIDIA Triton

Le serveur d’inférence Triton est un logiciel open-source qui standardise le déploiement et l’exécution des modèles de deep learning.

Il permet l’optimisation de l’utilisation des ressources avec des fonctionnalités de batching dynamique et d’exécution simultanée.

Il contient aussi des outils de benchmark et de monitoring. C’est une solution largement utilisé dans l’industrie et elle pourrait nous permettre d’obtenir des mesures de consommation plus proche de l’implémentation des LLM dans le cadre des API publiques.

Nous pouvons remarquer que, dans les datasets utilisés dans la v0 de la méthodologie, les modèles ne sont pas particulièrement configurés pour représenter une implémentation réaliste mais au contraire pour garder certains paramètres constants entre les mesures (batching à 1, toujours une seule instance d’un modèle par GPU, etc…). Cela dans la logique de comparer les modèles entre eux. Essayer de déployer des modèles avec triton serveur et avec les paramètres les plus optimaux pourrait nous permettre de savoir si la différence de consommation de resources est significative et mérite d’être prise en compte dans notre méthodologie de calcul.

VLLM

Petite mention à VLLM quand même qui est un équivalent de triton mais avec une compatibilité plus large (pas restreint aux GPU NVIDIA).

suivi

February 21, 2024 - @Samuel Rince et @Flavien Henrion travaille sur une monté en compétence sur le déploiement de LLM avec triton serveur.

https://github.com/ELS-RD/transformer-deploy

Tutorial compilation Llama to TensorRT-LLM