Zum Hauptinhalt springen

v1.65.4-stable

Krrish Dholakia
Ishaan Jaffer

Diese Version bereitstellen​

docker run litellm
docker run
-e STORE_MODEL_IN_DB=True
-p 4000:4000
ghcr.io/berriai/litellm:main-v1.65.4-stable

v1.65.4-stable ist live. Hier sind die Verbesserungen seit v1.65.0-stable.

Wichtige Highlights​

  • DB-Deadlocks verhindern: Behebt ein Problem bei hohem Datenverkehr, wenn mehrere Instanzen gleichzeitig in die Datenbank schrieben.
  • Neuer Nutzungstab: Ermöglicht die Anzeige von Ausgaben nach Modell und die Anpassung des Datumsbereichs

Tauchen wir ein.

DB-Deadlocks verhindern​

Diese Version behebt das Problem mit DB-Deadlocks, das Benutzer bei hohem Datenverkehr (ĂĽber 10.000 Anfragen pro Sekunde) hatten. Dies ist groĂźartig, da die Ausgabenverfolgung fĂĽr Benutzer/SchlĂĽssel/Teams auch bei dieser Skalierung funktioniert.

Lesen Sie mehr ĂĽber die neue Architektur hier

Neuer Nutzungstab​

Der neue Nutzungstab bietet jetzt die Möglichkeit, tägliche Ausgaben pro Modell zu verfolgen. Dies erleichtert das Erkennen von Fehlern bei der Ausgabenverfolgung oder Token-Zählung, wenn dies mit der Möglichkeit kombiniert wird, erfolgreiche Anfragen und Token-Nutzung anzuzeigen.

Um dies zu testen, gehen Sie einfach zu Experimentell > Neuer Nutzungstab > Aktivität.

Neue Modelle / Aktualisierte Modelle​

  1. Databricks - Kostenverfolgung fĂĽr claude-3-7-sonnet PR
  2. VertexAI - Kostenverfolgung fĂĽr gemini-2.5-pro-exp-03-25 PR
  3. VertexAI - Kostenverfolgung fĂĽr gemini-2.0-flash PR
  4. Groq - Whisper ASR-Modelle zur ModellkostenĂĽbersicht hinzufĂĽgen PR
  5. IBM - watsonx/ibm/granite-3-8b-instruct zur ModellkostenĂĽbersicht hinzufĂĽgen PR
  6. Google AI Studio - gemini/gemini-2.5-pro-preview-03-25 zur ModellkostenĂĽbersicht hinzufĂĽgen PR

LLM-Übersetzung​

  1. Vertex AI - UnterstĂĽtzung des `anyOf`-Parameters fĂĽr die Ăśbersetzung von OpenAI-JSON-Schemata Erste Schritte
  2. Anthropic - UnterstĂĽtzung fĂĽr `response_format` + `thinking`-Parameter (funktioniert ĂĽber Anthropic API, Bedrock, Vertex) Erste Schritte
  3. Anthropic - Wenn `thinking`-Token angegeben ist und `max_tokens` nicht, stellen Sie sicher, dass `max_tokens` für Anthropic höher ist als die `thinking`-Token (funktioniert über Anthropic API, Bedrock, Vertex) PR
  4. Bedrock - UnterstĂĽtzung fĂĽr latenzoptimierte Inferenz Erste Schritte
  5. Sagemaker - Behandlung von Sonderzeichen + Multibyte-Zeichencode in der Antwort Erste Schritte
  6. MCP - UnterstĂĽtzung fĂĽr die Verwendung von SSE MCP-Servern hinzufĂĽgen Erste Schritte
  7. Anthropic - neue Schnittstelle `litellm.messages.create` zum Aufrufen von Anthropic `/v1/messages` ĂĽber Passthrough Erste Schritte
  8. Anthropic - UnterstĂĽtzung fĂĽr den Inhaltstyp 'file' im Nachrichtenparameter (funktioniert ĂĽber Anthropic API, Bedrock, Vertex) Erste Schritte
  9. Anthropic - Zuordnung von OpenAI 'reasoning_effort' zum Anthropic 'thinking'-Parameter (funktioniert ĂĽber Anthropic API, Bedrock, Vertex) Erste Schritte
  10. Google AI Studio (Gemini) -[BETA] UnterstĂĽtzung fĂĽr den Upload von `/v1/files` Erste Schritte
  11. Azure - Korrektur der O-Serien-Tool-Aufrufe Erste Schritte
  12. Einheitliche Datei-IDs -[ALPHA]mehrere Anbieter mit derselben Datei-ID aufrufen lassen PR
    • Dies ist experimentell und nicht fĂĽr den Produktionseinsatz empfohlen.
    • Wir planen, bis nächste Woche eine produktionsreife Implementierung zu haben.
  13. Google AI Studio (Gemini) - RĂĽckgabe von logprobs PR
  14. Anthropic - UnterstĂĽtzung fĂĽr Prompt-Caching fĂĽr Anthropic-Tool-Aufrufe Erste Schritte
  15. OpenRouter - Entpacken des zusätzlichen Körpers bei Open-Router-Aufrufen PR
  16. VertexAI - Korrektur eines Problems mit der Anmeldeinformationen-Zwischenspeicherung PR
  17. XAI - Filtern des 'name'-Parameters fĂĽr XAI PR
  18. Gemini - UnterstĂĽtzung fĂĽr die Ausgabe von Bildgenerierung Erste Schritte
  19. Databricks - UnterstĂĽtzung fĂĽr claude-3-7-sonnet mit thinking + response_format Erste Schritte

Verbesserungen bei der Ausgabenverfolgung​

  1. Zuverlässigkeitskorrektur - Überprüfung von gesendetem und empfangenem Modell für die Kostenberechnung PR
  2. Vertex AI - Kostenverfolgung fĂĽr multimodale Embeddings Erste Schritte, PR

Management Endpunkte / UI​

  1. Neuer Nutzungstab
    • Berichterstattung ĂĽber 'total_tokens' + Berichterstattung ĂĽber erfolgreiche/fehlgeschlagene Anfragen
    • Doppelte Balken beim Scrollen entfernen
    • Sicherstellen, dass der Diagramm fĂĽr die täglichen Ausgaben von frĂĽh nach spät sortiert ist
    • Ausgaben pro Modell und Tag anzeigen
    • Alias-SchlĂĽssel im Nutzungstab anzeigen
    • Nicht-Administratoren den Zugriff auf ihre Aktivitäten ermöglichen
    • Datumsfilter zum neuen Nutzungstab hinzufĂĽgen
  2. Tab fĂĽr virtuelle SchlĂĽssel
    • 'Standard-SchlĂĽssel' bei der Benutzerregistrierung entfernen
    • Fehlerbehebung bei der Anzeige verfĂĽgbarer Benutzer fĂĽr die Erstellung persönlicher SchlĂĽssel
  3. Test Key Tab
    • Testen von Bildgenerierungsmodellen ermöglichen
  4. Modell-Tab
    • Massenhafte Modelladdition korrigieren
    • Wiederverwendbare Anmeldeinformationen fĂĽr Passthrough-Endpunkte unterstĂĽtzen
    • Teammitgliedern den Zugriff auf Teammodelle ermöglichen
  5. Teams-Tab
    • JSON-Serialisierungsfehler bei der Aktualisierung von Teammetadaten beheben
  6. Tab fĂĽr Anfragelocks
    • Verfolgung von `reasoning_content`-Token ĂĽber alle Anbieter hinweg bei Streaming hinzufĂĽgen
  7. API
    • Alias-SchlĂĽssel auf `/user/daily/activity` zurĂĽckgeben Erste Schritte
  8. SSO
    • SSO-Benutzerteams auf MSFT SSO zuweisen lassen PR

Logging / Guardrail Integrationen​

  1. Konsolen-Logs - JSON-Formatierung fĂĽr unbehandelte Ausnahmen hinzufĂĽgen PR
  2. Guardrails - AIM Guardrails-UnterstĂĽtzung fĂĽr Richtlinien auf Basis virtueller SchlĂĽssel Erste Schritte
  3. Protokollierung - Korrektur der Erfassungszeit für den Beginn der Vervollständigung PR
  4. Prometheus
    • Authentifizierung auf Prometheus `/metrics`-Endpunkten ermöglichen PR
    • Unterscheidung zwischen LLM-Provider-Ausnahmen und LiteLLM-Ausnahmen in der Metrikbenennung PR
    • Betriebsmetriken fĂĽr die neue DB-Transaktionsarchitektur ausgeben PR

Leistungs-/Loadbalancing-/Zuverlässigkeitsverbesserungen​

  1. Deadlocks verhindern
    • DB-Deadlocks reduzieren durch Speichern von Ausgaben-Updates in Redis und anschlieĂźendes Ăśbertragen in die DB PR
    • Sicherstellen, dass keine Deadlocks auftreten, wenn `DailyUserSpendTransaction` aktualisiert wird PR
    • Hochdatenverkehr-Korrektur - Sicherstellen, dass die neue DB + Redis-Architektur die Ausgaben korrekt verfolgt PR
    • Redis fĂĽr PodLock Manager anstelle von PG verwenden (stellt sicher, dass keine Deadlocks auftreten) PR
    • DB-Deadlock-Reduktionsarchitektur v2 – maximale Größe fĂĽr In-Memory-Warteschlange + Backpressure-Mechanismus hinzufĂĽgen PR
  2. Prisma-Migrationen Erste Schritte
    • verbindet den litellm-Proxy mit den Prisma-Migrationsdateien von litellm
    • Behandlung von DB-Schema-Updates aus dem neuen `litellm-proxy-extras`-SDK
  3. Redis - Unterstützung für Passwörter für synchrone Sentinel-Clients PR
  4. Fehler "Zirkuläre Referenz erkannt" bei `max_parallel_requests` = 0 beheben PR
  5. Code QA - Hardcodierte Zahlen verbannen PR

Helm​

  1. Fix: falsche EinrĂĽckung von `ttlSecondsAfterFinished` im Chart PR

Allgemeine Proxy-Verbesserungen​

  1. Fix - nur `service_account_settings.enforced_params` auf Service-Konten anwenden PR
  2. Fix - Behandlung von `metadata` als `null` bei `/chat/completion` PR
  3. Fix - Tägliche Benutzer-Transaktionsprotokollierung aus dem Flag 'disable_spend_logs' herausnehmen, da sie nicht zusammenhängen PR

Demo​

Probieren Sie es noch heute in der Demo-Instanz aus. heute

Vollständiger Git-Diff​

Den vollständigen Git-Diff seit v1.65.0-stable finden Sie hier