Benutzerdefinierte LLM-Preise
Verwenden Sie dies, um benutzerdefinierte Preise für Modelle zu registrieren.
Es gibt 2 Möglichkeiten, Kosten zu verfolgen
- Kosten pro Token
- Kosten pro Sekunde
Standardmäßig sind die Antwortkosten bei Erfolg (synchron + asynchron) im Logging-Objekt unter kwargs["response_cost"] zugänglich. Mehr erfahren
LiteLLM hat bereits Preise für jedes Modell in unserer Modellkostenübersicht.
Kosten pro Sekunde (z. B. Sagemaker)
Verwendung mit LiteLLM Proxy Server
Schritt 1: Preise zur config.yaml hinzufügen
model_list:
- model_name: sagemaker-completion-model
litellm_params:
model: sagemaker/berri-benchmarking-Llama-2-70b-chat-hf-4
model_info:
input_cost_per_second: 0.000420
- model_name: sagemaker-embedding-model
litellm_params:
model: sagemaker/berri-benchmarking-gpt-j-6b-fp16
model_info:
input_cost_per_second: 0.000420
Schritt 2: Proxy starten
litellm /path/to/config.yaml
Schritt 3: Ausgabenprotokolle anzeigen
Kosten pro Token (z. B. Azure)
Verwendung mit LiteLLM Proxy Server
model_list:
- model_name: azure-model
litellm_params:
model: azure/<your_deployment_name>
api_key: os.environ/AZURE_API_KEY
api_base: os.environ/AZURE_API_BASE
api_version: os.environ/AZURE_API_VERSION
model_info:
input_cost_per_token: 0.000421 # 👈 ONLY to track cost per token
output_cost_per_token: 0.000520 # 👈 ONLY to track cost per token
Modellkostenübersicht überschreiben
Sie können unsere Modellkostenübersicht mit Ihren eigenen benutzerdefinierten Preisen für ein zugeordnetes Modell überschreiben.
Fügen Sie einfach einen model_info Schlüssel zu Ihrem Modell in der Konfiguration hinzu und überschreiben Sie die gewünschten Schlüssel.
Beispiel: Überschreiben der Modellkostenübersicht von Anthropic für das Modell prod/claude-3-5-sonnet-20241022.
model_list:
- model_name: "prod/claude-3-5-sonnet-20241022"
litellm_params:
model: "anthropic/claude-3-5-sonnet-20241022"
api_key: os.environ/ANTHROPIC_PROD_API_KEY
model_info:
input_cost_per_token: 0.000006
output_cost_per_token: 0.00003
cache_creation_input_token_cost: 0.0000075
cache_read_input_token_cost: 0.0000006
Setzen Sie 'base_model' für die Kostenverfolgung (z. B. Azure-Bereitstellungen)
Problem: Azure gibt gpt-4 in der Antwort zurück, wenn azure/gpt-4-1106-preview verwendet wird. Dies führt zu ungenauen Kostenverfolgung.
Lösung ✅ : Setzen Sie base_model in Ihrer Konfiguration, damit litellm das korrekte Modell für die Berechnung der Azure-Kosten verwendet
Holen Sie sich den Namen des Basismodells hier
Beispielkonfiguration mit base_model
model_list:
- model_name: azure-gpt-3.5
litellm_params:
model: azure/chatgpt-v-2
api_base: os.environ/AZURE_API_BASE
api_key: os.environ/AZURE_API_KEY
api_version: "2023-07-01-preview"
model_info:
base_model: azure/gpt-4-1106-preview
Fehlerbehebung
Wenn Ihre benutzerdefinierten Preise nicht verwendet werden oder Sie Fehler sehen, überprüfen Sie bitte Folgendes
- Führen Sie den Proxy mit
LITELLM_LOG="DEBUG"oder dem--detailed_debugCLI-Flag aus
litellm --config /path/to/config.yaml --detailed_debug
- Überprüfen Sie die Protokolle auf diese Zeile
LiteLLM:DEBUG: utils.py:263 - litellm.acompletion
- Prüfen Sie, ob 'input_cost_per_token' und 'output_cost_per_token' Top-Level-Schlüssel in der acompletion-Funktion sind.
acompletion(
...,
input_cost_per_token: my-custom-price,
output_cost_per_token: my-custom-price,
)
Wenn diese Schlüssel nicht vorhanden sind, verwendet LiteLLM Ihre benutzerdefinierten Preise nicht.
Wenn das Problem weiterhin besteht, reichen Sie bitte ein Issue auf GitHub ein.