v1.69.0-stable - Loadbalance Batch API Models

10. Mai 2025

Krrish Dholakia

CEO, LiteLLM

Ishaan Jaffer

CTO, LiteLLM

Diese Version bereitstellen

Docker
Pip

docker run litellm
docker run
-e STORE_MODEL_IN_DB=True
-p 4000:4000
ghcr.io/berriai/litellm:main-v1.69.0-stable

pip install litellm

pip install litellm==1.69.0.post1

Wichtige Highlights

LiteLLM v1.69.0-stable bringt die folgenden Hauptverbesserungen

Loadbalance Batch API Models: Einfaches Loadbalancing über mehrere Azure Batch-Bereitstellungen mit LiteLLM Managed Files
E-Mail-Einladungen 2.0: Senden Sie neu bei LiteLLM registrierten Benutzern eine E-Mail-Einladung.
Nscale: LLM-API für die Einhaltung europäischer Vorschriften.
Bedrock /v1/messages: Verwenden Sie Bedrock Anthropic-Modelle mit den /v1/messages von Anthropic.

Batch-API-Loadbalancing

Diese Veröffentlichung bringt die Unterstützung für LiteLLM Managed Files für Batches. Dies ist großartig für

Proxy-Administratoren: Sie können jetzt steuern, welche Batch-Modelle Benutzer aufrufen können.
Entwickler: Sie müssen den Azure-Bereitstellungsnamen nicht mehr kennen, wenn Sie Ihre Batch-.jsonl-Dateien erstellen – geben Sie einfach das Modell an, auf das Ihr LiteLLM-Schlüssel Zugriff hat.

Im Laufe der Zeit erwarten wir, dass LiteLLM Managed Files die Methode sein wird, mit der die meisten Teams Dateien über die Endpunkte /chat/completions, /batch und /fine_tuning verwenden.

Lesen Sie hier mehr

E-Mail-Einladungen

Diese Veröffentlichung bringt die folgenden Verbesserungen für unsere E-Mail-Einladungs-Integration

Neue Vorlagen für die Ereignisse Benutzer eingeladen und Schlüssel erstellt.
Korrekturen bei der Verwendung von SMTP-E-Mail-Anbietern.
Native Unterstützung für die Resend API.
Möglichkeit für Proxy-Administratoren, E-Mail-Ereignisse zu steuern.

Für LiteLLM Cloud-Benutzer, kontaktieren Sie uns bitte, wenn Sie dies für Ihre Instanz aktivieren möchten.

Lesen Sie hier mehr

Neue Modelle / Aktualisierte Modelle

Gemini (VertexAI + Google AI Studio)
- Modelle gemini-2.5-pro-preview-05-06 mit Preis- und Kontextfensterinformationen hinzugefügt – PR
- Korrekte Kontextfensterlänge für alle Gemini 2.5-Varianten festgelegt – PR
Perplexity:
- Neue Perplexity-Modelle hinzugefügt – PR
- Preisinformationen für das sonar-deep-research-Modell hinzugefügt – PR
Azure OpenAI:
- Weitergabe des Parameters `azure_ad_token_provider` korrigiert – PR
OpenAI:
- Unterstützung für PDF-URLs im 'file'-Parameter hinzugefügt – PR
Sagemaker:
- Inhaltslänge für den sagemaker_chat-Provider korrigiert – PR
Azure AI Foundry:
- Kostenverfolgung für die folgenden Modelle hinzugefügt PR
  - DeepSeek V3 0324
  - Llama 4 Scout
  - Llama 4 Maverick
Bedrock:
- Kostenverfolgung für Bedrock Llama 4-Modelle hinzugefügt – PR
- Vorlagenkonvertierung für Llama 4-Modelle in Bedrock korrigiert – PR
- Unterstützung für die Verwendung von Bedrock Anthropic-Modellen im /v1/messages-Format hinzugefügt – PR
- Streaming-Unterstützung für Bedrock Anthropic-Modelle im /v1/messages-Format hinzugefügt – PR
OpenAI: Unterstützung für reasoning_effort für o3-Modelle hinzugefügt – PR
Databricks:
- Problem bei der Verwendung von externen Modellen durch Databricks behoben, bei dem Delta leer sein konnte – PR
Cerebras: Preis und Kontextfenster für das Llama-3.1-70b-Modell korrigiert – PR
Ollama:
- Kostenverfolgung für benutzerdefinierte Preise und Unterstützung für 'max_completion_token' korrigiert – PR
- KeyError bei der Verwendung des JSON-Antwortformats behoben – PR
🆕 Nscale
- Unterstützung für Chat- und Bildgenerierungs-Endpunkte hinzugefügt – PR

LLM API Endpoints

Messages API:
- 🆕 Unterstützung für die Verwendung von Bedrock Anthropic-Modellen im /v1/messages-Format hinzugefügt – PR und Streaming-Unterstützung – PR
Moderations API:
- Fehler behoben, um die Verwendung von LiteLLM UI-Anmeldeinformationen für die /moderations API zu ermöglichen – PR
Realtime API:
- Behebung des Setzens von 'headers' im Scope für WebSocket-Authentifizierungsanfragen und Probleme mit Endlosschleifen – PR
Files API:
- Vereinheitlichte Unterstützung für die Ausgabe von File-IDs – PR
- Unterstützung für das Schreiben von Dateien in alle Bereitstellungen – PR
- Validierung des Zielmodellnamens hinzugefügt – PR
Batches API:
- Vollständige vereinheitlichte Batch-ID-Unterstützung – Ersetzung des Modells in jsonl durch den Bereitstellungsmodellnamen – PR
- Beta-Unterstützung für vereinheitlichte Datei-IDs (Managed Files) für Batches – PR

Verbesserungen bei der Ausgabenverfolgung / Budget

Bugfix - PostgreSQL Integer Overflow Fehler bei der DB Spend Tracking – PR

Management Endpunkte / UI

Modelle
- Modellinformationen-Überschreibung beim Bearbeiten eines Modells in der Benutzeroberfläche behoben – PR
- Team-Admin-Modellaktualisierungen und Organisationerstellung mit spezifischen Modellen behoben – PR
Logs:
- Bugfix - Kopieren von Request/Response auf der Logs-Seite – PR
- Bugfix - Log blieb auf der QA Logs-Seite nicht im Fokus + Textüberlauf bei Fehlerprotokollen – PR
- Index für `session_id` in LiteLLM_SpendLogs für bessere Abfrageleistung hinzugefügt – PR
Benutzerverwaltung:
- Benutzerverwaltungsfunktionalität zur Python-Clientbibliothek & CLI hinzugefügt – PR
- Bugfix - SCIM-Token-Erstellung auf der Admin-UI behoben – PR
- Bugfix - 404-Antwort hinzugefügt, wenn versucht wird, nicht existierende Verifizierungstoken zu löschen – PR

Logging / Guardrail Integrationen

Custom Logger API: V2 Custom Callback API (LLM-Logs an benutzerdefinierte API senden) – PR, Erste Schritte
OpenTelemetry:
- OpenTelemetry so angepasst, dass es den semantischen Konventionen von GenAI folgt + Unterstützung für den Parameter 'instructions' für TTS – PR
Bedrock PII:
- Unterstützung für PII-Maskierung mit Bedrock Guardrails hinzugefügt – Erste Schritte, PR
Dokumentation:
- Dokumentation für StandardLoggingVectorStoreRequest hinzugefügt – PR

Leistungs- / Zuverlässigkeitsverbesserungen

Python-Kompatibilität:
- Unterstützung für Python 3.11- hinzugefügt (UTC-Handling für Datum/Uhrzeit korrigiert) – PR
- UnicodeDecodeError: 'charmap' unter Windows bei der litellm-Importierung behoben – PR
Caching:
- Caching-Ergebnis für Embedding-Strings korrigiert – PR
- Cache-Fehler für Gemini-Modelle mit `response_format` behoben – PR

Allgemeine Proxy-Verbesserungen

Proxy CLI:
- --version-Flag zur litellm-proxy CLI hinzugefügt – PR
- Dedizierte litellm-proxy CLI hinzugefügt – PR
Alerting:
- Slack-Benachrichtigungen, wenn eine DB verwendet wird, funktionieren nicht mehr – PR
E-Mail-Einladungen:
- V2-E-Mails mit Korrekturen für das Senden von E-Mails beim Erstellen von Schlüsseln + Resend API-Unterstützung hinzugefügt – PR
- Benutzer-Einladungs-E-Mails hinzugefügt – PR
- Endpunkte zur Verwaltung von E-Mail-Einstellungen hinzugefügt – PR
Allgemein:
- Fehler behoben, bei dem doppelte JSON-Logs ausgegeben wurden – PR

Neue Mitwirkende

@zoltan-ongithub hat seinen ersten Beitrag in PR #10568 geleistet
@mkavinkumar1 hat seinen ersten Beitrag in PR #10548 geleistet
@thomelane hat seinen ersten Beitrag in PR #10549 geleistet
@frankzye hat seinen ersten Beitrag in PR #10540 geleistet
@aholmberg hat seinen ersten Beitrag in PR #10591 geleistet
@aravindkarnam hat seinen ersten Beitrag in PR #10611 geleistet
@xsg22 hat seinen ersten Beitrag in PR #10648 geleistet
@casparhsws hat seinen ersten Beitrag in PR #10635 geleistet
@hypermoose hat seinen ersten Beitrag in PR #10370 geleistet
@tomukmatthews hat seinen ersten Beitrag in PR #10638 geleistet
@keyute hat seinen ersten Beitrag in PR #10652 geleistet
@GPTLocalhost hat seinen ersten Beitrag in PR #10687 geleistet
@husnain7766 hat seinen ersten Beitrag in PR #10697 geleistet
@claralp hat seinen ersten Beitrag in PR #10694 geleistet
@mollux hat seinen ersten Beitrag in PR #10690 geleistet

Diese Version bereitstellen​

Wichtige Highlights​

Batch-API-Loadbalancing​

E-Mail-Einladungen​

Neue Modelle / Aktualisierte Modelle​

LLM API Endpoints​

Verbesserungen bei der Ausgabenverfolgung / Budget​

Management Endpunkte / UI​

Logging / Guardrail Integrationen​

Leistungs- / Zuverlässigkeitsverbesserungen​

Allgemeine Proxy-Verbesserungen​

Neue Mitwirkende​