Zum Hauptinhalt springen

Schnellstart

Schneller Start CLI, Konfiguration, Docker

LiteLLM Server (LLM Gateway) verwaltet

$ pip install 'litellm[proxy]'

Schneller Start - LiteLLM Proxy CLI

Führen Sie den folgenden Befehl aus, um den litellm proxy zu starten

$ litellm --model huggingface/bigcode/starcoder

#INFO: Proxy running on http://0.0.0.0:4000
Info

Führen Sie mit --detailed_debug aus, wenn Sie detaillierte Debug-Logs benötigen

$ litellm --model huggingface/bigcode/starcoder --detailed_debug

Testen

Führen Sie in einem neuen Terminal aus. Dies wird eine openai.chat.completions Anfrage machen. Stellen Sie sicher, dass Sie OpenAI v1.0.0+ verwenden.

litellm --test

Dies leitet nun automatisch alle Anfragen für gpt-3.5-turbo an bigcode starcoder weiter, das auf Huggingface Inference Endpoints gehostet wird.

Unterstützte LLMs

Alle von LiteLLM unterstützten LLMs werden vom Proxy unterstützt. Sehen Sie alle unterstützten LLMs

$ export AWS_ACCESS_KEY_ID=
$ export AWS_REGION_NAME=
$ export AWS_SECRET_ACCESS_KEY=
$ litellm --model bedrock/anthropic.claude-v2

Schneller Start - LiteLLM Proxy + Config.yaml

Die Konfiguration ermöglicht es Ihnen, eine Modellliste zu erstellen und api_base, max_tokens (alle litellm-Parameter) festzulegen. Weitere Details zur Konfiguration finden Sie hier.

Erstellen Sie eine Konfiguration für LiteLLM Proxy

Beispielkonfiguration

model_list: 
- model_name: gpt-3.5-turbo # user-facing model alias
litellm_params: # all params accepted by litellm.completion() - https://docs.litellm.de/docs/completion/input
model: azure/<your-deployment-name>
api_base: <your-azure-api-endpoint>
api_key: <your-azure-api-key>
- model_name: gpt-3.5-turbo
litellm_params:
model: azure/gpt-turbo-small-ca
api_base: https://my-endpoint-canada-berri992.openai.azure.com/
api_key: <your-azure-api-key>
- model_name: vllm-model
litellm_params:
model: openai/<your-model-name>
api_base: <your-vllm-api-base> # e.g. http://0.0.0.0:3000/v1
api_key: <your-vllm-api-key|none>

Proxy mit Konfiguration ausführen

litellm --config your_config.yaml

Verwendung von LiteLLM Proxy - Curl-Anfrage, OpenAI-Paket, Langchain

Info

LiteLLM ist mit mehreren SDKs kompatibel - darunter OpenAI SDK, Anthropic SDK, Mistral SDK, LLamaIndex, Langchain (Js, Python)

Weitere Beispiele hier

curl --location 'http://0.0.0.0:4000/chat/completions' \
--header 'Content-Type: application/json' \
--data ' {
"model": "gpt-3.5-turbo",
"messages": [
{
"role": "user",
"content": "what llm are you"
}
]
}
'

Mehr Informationen

📖 Proxy-Endpunkte - Swagger Docs

  • POST /chat/completions - Chat-Completions-Endpunkt zum Aufrufen von über 100 LLMs
  • POST /completions - Completions-Endpunkt
  • POST /embeddings - Embedding-Endpunkt für Azure, OpenAI, Huggingface-Endpunkte
  • GET /models - verfügbare Modelle auf dem Server
  • POST /key/generate - Generieren Sie einen Schlüssel für den Zugriff auf den Proxy

Proxy debuggen

Ereignisse, die während des normalen Betriebs auftreten

litellm --model gpt-3.5-turbo --debug

Detaillierte Informationen

litellm --model gpt-3.5-turbo --detailed_debug

Debug-Level über Umgebungsvariablen festlegen

Ereignisse, die während des normalen Betriebs auftreten

export LITELLM_LOG=INFO

Detaillierte Informationen

export LITELLM_LOG=DEBUG

Keine Protokolle

export LITELLM_LOG=None