v1.65.4-stable

5. April 2025

Krrish Dholakia

CEO, LiteLLM

Ishaan Jaffer

CTO, LiteLLM

Diese Version bereitstellen

Docker
Pip

docker run litellm
docker run
-e STORE_MODEL_IN_DB=True
-p 4000:4000
ghcr.io/berriai/litellm:main-v1.65.4-stable

pip install litellm

pip install litellm==1.65.4.post1

v1.65.4-stable ist live. Hier sind die Verbesserungen seit v1.65.0-stable.

Wichtige Highlights

DB-Deadlocks verhindern: Behebt ein Problem bei hohem Datenverkehr, wenn mehrere Instanzen gleichzeitig in die Datenbank schrieben.
Neuer Nutzungstab: Ermöglicht die Anzeige von Ausgaben nach Modell und die Anpassung des Datumsbereichs

Tauchen wir ein.

DB-Deadlocks verhindern

Diese Version behebt das Problem mit DB-Deadlocks, das Benutzer bei hohem Datenverkehr (über 10.000 Anfragen pro Sekunde) hatten. Dies ist großartig, da die Ausgabenverfolgung für Benutzer/Schlüssel/Teams auch bei dieser Skalierung funktioniert.

Lesen Sie mehr über die neue Architektur hier

Neuer Nutzungstab

Der neue Nutzungstab bietet jetzt die Möglichkeit, tägliche Ausgaben pro Modell zu verfolgen. Dies erleichtert das Erkennen von Fehlern bei der Ausgabenverfolgung oder Token-Zählung, wenn dies mit der Möglichkeit kombiniert wird, erfolgreiche Anfragen und Token-Nutzung anzuzeigen.

Um dies zu testen, gehen Sie einfach zu Experimentell > Neuer Nutzungstab > Aktivität.

Neue Modelle / Aktualisierte Modelle

Databricks - Kostenverfolgung für claude-3-7-sonnet PR
VertexAI - Kostenverfolgung für gemini-2.5-pro-exp-03-25 PR
VertexAI - Kostenverfolgung für gemini-2.0-flash PR
Groq - Whisper ASR-Modelle zur Modellkostenübersicht hinzufügen PR
IBM - watsonx/ibm/granite-3-8b-instruct zur Modellkostenübersicht hinzufügen PR
Google AI Studio - gemini/gemini-2.5-pro-preview-03-25 zur Modellkostenübersicht hinzufügen PR

LLM-Übersetzung

Vertex AI - Unterstützung des `anyOf`-Parameters für die Übersetzung von OpenAI-JSON-Schemata Erste Schritte
Anthropic - Unterstützung für `response_format` + `thinking`-Parameter (funktioniert über Anthropic API, Bedrock, Vertex) Erste Schritte
Anthropic - Wenn `thinking`-Token angegeben ist und `max_tokens` nicht, stellen Sie sicher, dass `max_tokens` für Anthropic höher ist als die `thinking`-Token (funktioniert über Anthropic API, Bedrock, Vertex) PR
Bedrock - Unterstützung für latenzoptimierte Inferenz Erste Schritte
Sagemaker - Behandlung von Sonderzeichen + Multibyte-Zeichencode in der Antwort Erste Schritte
MCP - Unterstützung für die Verwendung von SSE MCP-Servern hinzufügen Erste Schritte
Anthropic - neue Schnittstelle `litellm.messages.create` zum Aufrufen von Anthropic `/v1/messages` über Passthrough Erste Schritte
Anthropic - Unterstützung für den Inhaltstyp 'file' im Nachrichtenparameter (funktioniert über Anthropic API, Bedrock, Vertex) Erste Schritte
Anthropic - Zuordnung von OpenAI 'reasoning_effort' zum Anthropic 'thinking'-Parameter (funktioniert über Anthropic API, Bedrock, Vertex) Erste Schritte
Google AI Studio (Gemini) -[BETA] Unterstützung für den Upload von `/v1/files` Erste Schritte
Azure - Korrektur der O-Serien-Tool-Aufrufe Erste Schritte
Einheitliche Datei-IDs -[ALPHA]mehrere Anbieter mit derselben Datei-ID aufrufen lassen PR
- Dies ist experimentell und nicht für den Produktionseinsatz empfohlen.
- Wir planen, bis nächste Woche eine produktionsreife Implementierung zu haben.
Google AI Studio (Gemini) - Rückgabe von logprobs PR
Anthropic - Unterstützung für Prompt-Caching für Anthropic-Tool-Aufrufe Erste Schritte
OpenRouter - Entpacken des zusätzlichen Körpers bei Open-Router-Aufrufen PR
VertexAI - Korrektur eines Problems mit der Anmeldeinformationen-Zwischenspeicherung PR
XAI - Filtern des 'name'-Parameters für XAI PR
Gemini - Unterstützung für die Ausgabe von Bildgenerierung Erste Schritte
Databricks - Unterstützung für claude-3-7-sonnet mit thinking + response_format Erste Schritte

Verbesserungen bei der Ausgabenverfolgung

Zuverlässigkeitskorrektur - Überprüfung von gesendetem und empfangenem Modell für die Kostenberechnung PR
Vertex AI - Kostenverfolgung für multimodale Embeddings Erste Schritte, PR

Management Endpunkte / UI

Neuer Nutzungstab
- Berichterstattung über 'total_tokens' + Berichterstattung über erfolgreiche/fehlgeschlagene Anfragen
- Doppelte Balken beim Scrollen entfernen
- Sicherstellen, dass der Diagramm für die täglichen Ausgaben von früh nach spät sortiert ist
- Ausgaben pro Modell und Tag anzeigen
- Alias-Schlüssel im Nutzungstab anzeigen
- Nicht-Administratoren den Zugriff auf ihre Aktivitäten ermöglichen
- Datumsfilter zum neuen Nutzungstab hinzufügen
Tab für virtuelle Schlüssel
- 'Standard-Schlüssel' bei der Benutzerregistrierung entfernen
- Fehlerbehebung bei der Anzeige verfügbarer Benutzer für die Erstellung persönlicher Schlüssel
Test Key Tab
- Testen von Bildgenerierungsmodellen ermöglichen
Modell-Tab
- Massenhafte Modelladdition korrigieren
- Wiederverwendbare Anmeldeinformationen für Passthrough-Endpunkte unterstützen
- Teammitgliedern den Zugriff auf Teammodelle ermöglichen
Teams-Tab
- JSON-Serialisierungsfehler bei der Aktualisierung von Teammetadaten beheben
Tab für Anfragelocks
- Verfolgung von `reasoning_content`-Token über alle Anbieter hinweg bei Streaming hinzufügen
API
- Alias-Schlüssel auf `/user/daily/activity` zurückgeben Erste Schritte
SSO
- SSO-Benutzerteams auf MSFT SSO zuweisen lassen PR

Logging / Guardrail Integrationen

Konsolen-Logs - JSON-Formatierung für unbehandelte Ausnahmen hinzufügen PR
Guardrails - AIM Guardrails-Unterstützung für Richtlinien auf Basis virtueller Schlüssel Erste Schritte
Protokollierung - Korrektur der Erfassungszeit für den Beginn der Vervollständigung PR
Prometheus
- Authentifizierung auf Prometheus `/metrics`-Endpunkten ermöglichen PR
- Unterscheidung zwischen LLM-Provider-Ausnahmen und LiteLLM-Ausnahmen in der Metrikbenennung PR
- Betriebsmetriken für die neue DB-Transaktionsarchitektur ausgeben PR

Leistungs-/Loadbalancing-/Zuverlässigkeitsverbesserungen

Deadlocks verhindern
- DB-Deadlocks reduzieren durch Speichern von Ausgaben-Updates in Redis und anschließendes Übertragen in die DB PR
- Sicherstellen, dass keine Deadlocks auftreten, wenn `DailyUserSpendTransaction` aktualisiert wird PR
- Hochdatenverkehr-Korrektur - Sicherstellen, dass die neue DB + Redis-Architektur die Ausgaben korrekt verfolgt PR
- Redis für PodLock Manager anstelle von PG verwenden (stellt sicher, dass keine Deadlocks auftreten) PR
- DB-Deadlock-Reduktionsarchitektur v2 – maximale Größe für In-Memory-Warteschlange + Backpressure-Mechanismus hinzufügen PR
Prisma-Migrationen Erste Schritte
- verbindet den litellm-Proxy mit den Prisma-Migrationsdateien von litellm
- Behandlung von DB-Schema-Updates aus dem neuen `litellm-proxy-extras`-SDK
Redis - Unterstützung für Passwörter für synchrone Sentinel-Clients PR
Fehler "Zirkuläre Referenz erkannt" bei `max_parallel_requests` = 0 beheben PR
Code QA - Hardcodierte Zahlen verbannen PR

Helm

Fix: falsche Einrückung von `ttlSecondsAfterFinished` im Chart PR

Allgemeine Proxy-Verbesserungen

Fix - nur `service_account_settings.enforced_params` auf Service-Konten anwenden PR
Fix - Behandlung von `metadata` als `null` bei `/chat/completion` PR
Fix - Tägliche Benutzer-Transaktionsprotokollierung aus dem Flag 'disable_spend_logs' herausnehmen, da sie nicht zusammenhängen PR

Demo

Probieren Sie es noch heute in der Demo-Instanz aus. heute

Vollständiger Git-Diff

Den vollständigen Git-Diff seit v1.65.0-stable finden Sie hier

Diese Version bereitstellen​

Wichtige Highlights​

DB-Deadlocks verhindern​

Neuer Nutzungstab​

Neue Modelle / Aktualisierte Modelle​

LLM-Übersetzung​

Verbesserungen bei der Ausgabenverfolgung​

Management Endpunkte / UI​

Logging / Guardrail Integrationen​

Leistungs-/Loadbalancing-/Zuverlässigkeitsverbesserungen​

Helm​

Allgemeine Proxy-Verbesserungen​

Demo​

Vollständiger Git-Diff​