Zum Hauptinhalt springen

Benutzerdefinierte LLM-Preise

Verwenden Sie dies, um benutzerdefinierte Preise für Modelle zu registrieren.

Es gibt 2 Möglichkeiten, Kosten zu verfolgen

  • Kosten pro Token
  • Kosten pro Sekunde

Standardmäßig sind die Antwortkosten bei Erfolg (synchron + asynchron) im Logging-Objekt unter kwargs["response_cost"] zugänglich. Mehr erfahren

Info

LiteLLM hat bereits Preise für jedes Modell in unserer Modellkostenübersicht.

Kosten pro Sekunde (z. B. Sagemaker)

Verwendung mit LiteLLM Proxy Server

Schritt 1: Preise zur config.yaml hinzufügen

model_list:
- model_name: sagemaker-completion-model
litellm_params:
model: sagemaker/berri-benchmarking-Llama-2-70b-chat-hf-4
model_info:
input_cost_per_second: 0.000420
- model_name: sagemaker-embedding-model
litellm_params:
model: sagemaker/berri-benchmarking-gpt-j-6b-fp16
model_info:
input_cost_per_second: 0.000420

Schritt 2: Proxy starten

litellm /path/to/config.yaml

Schritt 3: Ausgabenprotokolle anzeigen

Kosten pro Token (z. B. Azure)

Verwendung mit LiteLLM Proxy Server

model_list:
- model_name: azure-model
litellm_params:
model: azure/<your_deployment_name>
api_key: os.environ/AZURE_API_KEY
api_base: os.environ/AZURE_API_BASE
api_version: os.environ/AZURE_API_VERSION
model_info:
input_cost_per_token: 0.000421 # 👈 ONLY to track cost per token
output_cost_per_token: 0.000520 # 👈 ONLY to track cost per token

Modellkostenübersicht überschreiben

Sie können unsere Modellkostenübersicht mit Ihren eigenen benutzerdefinierten Preisen für ein zugeordnetes Modell überschreiben.

Fügen Sie einfach einen model_info Schlüssel zu Ihrem Modell in der Konfiguration hinzu und überschreiben Sie die gewünschten Schlüssel.

Beispiel: Überschreiben der Modellkostenübersicht von Anthropic für das Modell prod/claude-3-5-sonnet-20241022.

model_list:
- model_name: "prod/claude-3-5-sonnet-20241022"
litellm_params:
model: "anthropic/claude-3-5-sonnet-20241022"
api_key: os.environ/ANTHROPIC_PROD_API_KEY
model_info:
input_cost_per_token: 0.000006
output_cost_per_token: 0.00003
cache_creation_input_token_cost: 0.0000075
cache_read_input_token_cost: 0.0000006

Setzen Sie 'base_model' für die Kostenverfolgung (z. B. Azure-Bereitstellungen)

Problem: Azure gibt gpt-4 in der Antwort zurück, wenn azure/gpt-4-1106-preview verwendet wird. Dies führt zu ungenauen Kostenverfolgung.

Lösung ✅ : Setzen Sie base_model in Ihrer Konfiguration, damit litellm das korrekte Modell für die Berechnung der Azure-Kosten verwendet

Holen Sie sich den Namen des Basismodells hier

Beispielkonfiguration mit base_model

model_list:
- model_name: azure-gpt-3.5
litellm_params:
model: azure/chatgpt-v-2
api_base: os.environ/AZURE_API_BASE
api_key: os.environ/AZURE_API_KEY
api_version: "2023-07-01-preview"
model_info:
base_model: azure/gpt-4-1106-preview

Fehlerbehebung

Wenn Ihre benutzerdefinierten Preise nicht verwendet werden oder Sie Fehler sehen, überprüfen Sie bitte Folgendes

  1. Führen Sie den Proxy mit LITELLM_LOG="DEBUG" oder dem --detailed_debug CLI-Flag aus
litellm --config /path/to/config.yaml --detailed_debug
  1. Überprüfen Sie die Protokolle auf diese Zeile
LiteLLM:DEBUG: utils.py:263 - litellm.acompletion
  1. Prüfen Sie, ob 'input_cost_per_token' und 'output_cost_per_token' Top-Level-Schlüssel in der acompletion-Funktion sind.
acompletion(
...,
input_cost_per_token: my-custom-price,
output_cost_per_token: my-custom-price,
)

Wenn diese Schlüssel nicht vorhanden sind, verwendet LiteLLM Ihre benutzerdefinierten Preise nicht.

Wenn das Problem weiterhin besteht, reichen Sie bitte ein Issue auf GitHub ein.