Zum Hauptinhalt springen

Triton Inference Server

LiteLLM unterstĂĽtzt Embedding-Modelle auf Triton Inference Servern

EigenschaftDetails
BeschreibungNVIDIA Triton Inference Server
Provider-Routing in LiteLLMtriton/
UnterstĂĽtzte Operationen/chat/completion, /completion, /embedding
UnterstĂĽtzte Triton-Endpunkte/infer, /generate, /embeddings
Link zur AnbieterdokumentationTriton Inference Server ↗

Triton /generate - Chat Completion​

Verwenden Sie das Präfix triton/, um an den Triton-Server weiterzuleiten

from litellm import completion
response = completion(
model="triton/llama-3-8b-instruct",
messages=[{"role": "user", "content": "who are u?"}],
max_tokens=10,
api_base="https://:8000/generate",
)

Triton /infer - Chat Completion​

Verwenden Sie das Präfix triton/, um an den Triton-Server weiterzuleiten

from litellm import completion


response = completion(
model="triton/llama-3-8b-instruct",
messages=[{"role": "user", "content": "who are u?"}],
max_tokens=10,
api_base="https://:8000/infer",
)

Triton /embeddings - Embedding​

Verwenden Sie das Präfix triton/, um an den Triton-Server weiterzuleiten

from litellm import embedding
import os

response = await litellm.aembedding(
model="triton/<your-triton-model>",
api_base="https://your-triton-api-base/triton/embeddings", # /embeddings endpoint you want litellm to call on your server
input=["good morning from litellm"],
)