Diese Version bereitstellen​
- Docker
- Pip
docker run
-e STORE_MODEL_IN_DB=True
-p 4000:4000
ghcr.io/berriai/litellm:main-v1.65.4-stable
pip install litellm==1.65.4.post1
v1.65.4-stable ist live. Hier sind die Verbesserungen seit v1.65.0-stable.
Wichtige Highlights​
- DB-Deadlocks verhindern: Behebt ein Problem bei hohem Datenverkehr, wenn mehrere Instanzen gleichzeitig in die Datenbank schrieben.
- Neuer Nutzungstab: Ermöglicht die Anzeige von Ausgaben nach Modell und die Anpassung des Datumsbereichs
Tauchen wir ein.
DB-Deadlocks verhindern​
Diese Version behebt das Problem mit DB-Deadlocks, das Benutzer bei hohem Datenverkehr (ĂĽber 10.000 Anfragen pro Sekunde) hatten. Dies ist groĂźartig, da die Ausgabenverfolgung fĂĽr Benutzer/SchlĂĽssel/Teams auch bei dieser Skalierung funktioniert.
Lesen Sie mehr ĂĽber die neue Architektur hier
Neuer Nutzungstab​
Der neue Nutzungstab bietet jetzt die Möglichkeit, tägliche Ausgaben pro Modell zu verfolgen. Dies erleichtert das Erkennen von Fehlern bei der Ausgabenverfolgung oder Token-Zählung, wenn dies mit der Möglichkeit kombiniert wird, erfolgreiche Anfragen und Token-Nutzung anzuzeigen.
Um dies zu testen, gehen Sie einfach zu Experimentell > Neuer Nutzungstab > Aktivität.
Neue Modelle / Aktualisierte Modelle​
- Databricks - Kostenverfolgung fĂĽr claude-3-7-sonnet PR
- VertexAI - Kostenverfolgung fĂĽr
gemini-2.5-pro-exp-03-25PR - VertexAI - Kostenverfolgung fĂĽr
gemini-2.0-flashPR - Groq - Whisper ASR-Modelle zur ModellkostenĂĽbersicht hinzufĂĽgen PR
- IBM - watsonx/ibm/granite-3-8b-instruct zur ModellkostenĂĽbersicht hinzufĂĽgen PR
- Google AI Studio - gemini/gemini-2.5-pro-preview-03-25 zur ModellkostenĂĽbersicht hinzufĂĽgen PR
LLM-Übersetzung​
- Vertex AI - UnterstĂĽtzung des `anyOf`-Parameters fĂĽr die Ăśbersetzung von OpenAI-JSON-Schemata Erste Schritte
- Anthropic - UnterstĂĽtzung fĂĽr `response_format` + `thinking`-Parameter (funktioniert ĂĽber Anthropic API, Bedrock, Vertex) Erste Schritte
- Anthropic - Wenn `thinking`-Token angegeben ist und `max_tokens` nicht, stellen Sie sicher, dass `max_tokens` für Anthropic höher ist als die `thinking`-Token (funktioniert über Anthropic API, Bedrock, Vertex) PR
- Bedrock - UnterstĂĽtzung fĂĽr latenzoptimierte Inferenz Erste Schritte
- Sagemaker - Behandlung von Sonderzeichen + Multibyte-Zeichencode in der Antwort Erste Schritte
- MCP - UnterstĂĽtzung fĂĽr die Verwendung von SSE MCP-Servern hinzufĂĽgen Erste Schritte
- Anthropic - neue Schnittstelle `litellm.messages.create` zum Aufrufen von Anthropic `/v1/messages` ĂĽber Passthrough Erste Schritte
- Anthropic - UnterstĂĽtzung fĂĽr den Inhaltstyp 'file' im Nachrichtenparameter (funktioniert ĂĽber Anthropic API, Bedrock, Vertex) Erste Schritte
- Anthropic - Zuordnung von OpenAI 'reasoning_effort' zum Anthropic 'thinking'-Parameter (funktioniert ĂĽber Anthropic API, Bedrock, Vertex) Erste Schritte
- Google AI Studio (Gemini) -[BETA] UnterstĂĽtzung fĂĽr den Upload von `/v1/files` Erste Schritte
- Azure - Korrektur der O-Serien-Tool-Aufrufe Erste Schritte
- Einheitliche Datei-IDs -[ALPHA]mehrere Anbieter mit derselben Datei-ID aufrufen lassen PR
- Dies ist experimentell und nicht fĂĽr den Produktionseinsatz empfohlen.
- Wir planen, bis nächste Woche eine produktionsreife Implementierung zu haben.
- Google AI Studio (Gemini) - RĂĽckgabe von logprobs PR
- Anthropic - UnterstĂĽtzung fĂĽr Prompt-Caching fĂĽr Anthropic-Tool-Aufrufe Erste Schritte
- OpenRouter - Entpacken des zusätzlichen Körpers bei Open-Router-Aufrufen PR
- VertexAI - Korrektur eines Problems mit der Anmeldeinformationen-Zwischenspeicherung PR
- XAI - Filtern des 'name'-Parameters fĂĽr XAI PR
- Gemini - UnterstĂĽtzung fĂĽr die Ausgabe von Bildgenerierung Erste Schritte
- Databricks - UnterstĂĽtzung fĂĽr claude-3-7-sonnet mit thinking + response_format Erste Schritte
Verbesserungen bei der Ausgabenverfolgung​
- Zuverlässigkeitskorrektur - Überprüfung von gesendetem und empfangenem Modell für die Kostenberechnung PR
- Vertex AI - Kostenverfolgung fĂĽr multimodale Embeddings Erste Schritte, PR
Management Endpunkte / UI​
- Neuer Nutzungstab
- Berichterstattung ĂĽber 'total_tokens' + Berichterstattung ĂĽber erfolgreiche/fehlgeschlagene Anfragen
- Doppelte Balken beim Scrollen entfernen
- Sicherstellen, dass der Diagramm für die täglichen Ausgaben von früh nach spät sortiert ist
- Ausgaben pro Modell und Tag anzeigen
- Alias-SchlĂĽssel im Nutzungstab anzeigen
- Nicht-Administratoren den Zugriff auf ihre Aktivitäten ermöglichen
- Datumsfilter zum neuen Nutzungstab hinzufĂĽgen
- Tab fĂĽr virtuelle SchlĂĽssel
- 'Standard-SchlĂĽssel' bei der Benutzerregistrierung entfernen
- Fehlerbehebung bei der Anzeige verfügbarer Benutzer für die Erstellung persönlicher Schlüssel
- Test Key Tab
- Testen von Bildgenerierungsmodellen ermöglichen
- Modell-Tab
- Massenhafte Modelladdition korrigieren
- Wiederverwendbare Anmeldeinformationen fĂĽr Passthrough-Endpunkte unterstĂĽtzen
- Teammitgliedern den Zugriff auf Teammodelle ermöglichen
- Teams-Tab
- JSON-Serialisierungsfehler bei der Aktualisierung von Teammetadaten beheben
- Tab fĂĽr Anfragelocks
- Verfolgung von `reasoning_content`-Token ĂĽber alle Anbieter hinweg bei Streaming hinzufĂĽgen
- API
- Alias-SchlĂĽssel auf `/user/daily/activity` zurĂĽckgeben Erste Schritte
- SSO
- SSO-Benutzerteams auf MSFT SSO zuweisen lassen PR
Logging / Guardrail Integrationen​
- Konsolen-Logs - JSON-Formatierung fĂĽr unbehandelte Ausnahmen hinzufĂĽgen PR
- Guardrails - AIM Guardrails-UnterstĂĽtzung fĂĽr Richtlinien auf Basis virtueller SchlĂĽssel Erste Schritte
- Protokollierung - Korrektur der Erfassungszeit für den Beginn der Vervollständigung PR
- Prometheus
Leistungs-/Loadbalancing-/Zuverlässigkeitsverbesserungen​
- Deadlocks verhindern
- DB-Deadlocks reduzieren durch Speichern von Ausgaben-Updates in Redis und anschlieĂźendes Ăśbertragen in die DB PR
- Sicherstellen, dass keine Deadlocks auftreten, wenn `DailyUserSpendTransaction` aktualisiert wird PR
- Hochdatenverkehr-Korrektur - Sicherstellen, dass die neue DB + Redis-Architektur die Ausgaben korrekt verfolgt PR
- Redis fĂĽr PodLock Manager anstelle von PG verwenden (stellt sicher, dass keine Deadlocks auftreten) PR
- DB-Deadlock-Reduktionsarchitektur v2 – maximale Größe für In-Memory-Warteschlange + Backpressure-Mechanismus hinzufügen PR
- Prisma-Migrationen Erste Schritte
- verbindet den litellm-Proxy mit den Prisma-Migrationsdateien von litellm
- Behandlung von DB-Schema-Updates aus dem neuen `litellm-proxy-extras`-SDK
- Redis - Unterstützung für Passwörter für synchrone Sentinel-Clients PR
- Fehler "Zirkuläre Referenz erkannt" bei `max_parallel_requests` = 0 beheben PR
- Code QA - Hardcodierte Zahlen verbannen PR
Helm​
- Fix: falsche EinrĂĽckung von `ttlSecondsAfterFinished` im Chart PR
Allgemeine Proxy-Verbesserungen​
- Fix - nur `service_account_settings.enforced_params` auf Service-Konten anwenden PR
- Fix - Behandlung von `metadata` als `null` bei `/chat/completion` PR
- Fix - Tägliche Benutzer-Transaktionsprotokollierung aus dem Flag 'disable_spend_logs' herausnehmen, da sie nicht zusammenhängen PR
Demo​
Probieren Sie es noch heute in der Demo-Instanz aus. heute
Vollständiger Git-Diff​
Den vollständigen Git-Diff seit v1.65.0-stable finden Sie hier
