v1.70.1-stable - Gemini Realtime API Support

17. Mai 2025

Krrish Dholakia

CEO, LiteLLM

Ishaan Jaffer

CTO, LiteLLM

Diese Version bereitstellen

Docker
Pip

docker run litellm
docker run
-e STORE_MODEL_IN_DB=True
-p 4000:4000
ghcr.io/berriai/litellm:main-v1.70.1-stable

pip install litellm

pip install litellm==1.70.1

Wichtige Highlights

LiteLLM v1.70.1-stable ist jetzt live. Hier sind die wichtigsten Highlights dieser Version

Gemini Realtime API: Sie können jetzt die Live-API von Gemini über die OpenAI /v1/realtime-API aufrufen
Aufbewahrungsfrist für Ausgabenprotokolle: Ermöglicht das Löschen von Ausgabenprotokollen, die älter als ein bestimmter Zeitraum sind.
PII Masking 2.0: Konfigurieren Sie einfach das Maskieren oder Blockieren bestimmter PII/PHI-Entitäten in der Benutzeroberfläche

Gemini Realtime API

Diese Version bringt die Unterstützung für den Aufruf von Gemini-Echtzeitmodellen (z. B. gemini-2.0-flash-live) über die Echtzeit-API von OpenAI ( /v1/realtime ). Dies ist großartig für Entwickler, da sie durch einfaches Ändern des Modellnamens problemlos von OpenAI zu Gemini wechseln können.

Wichtige Highlights

Unterstützung für Text- und Audio-Ein- und Ausgabe
Unterstützung für die Einstellung von Sitzungskonfigurationen (Modalität, Anweisungen, Aktivitätserkennung) im OpenAI-Format
Unterstützung für Protokollierung und Nutzungsnachverfolgung für Echtzeitsitzungen

Dies wird derzeit über Google AI Studio unterstützt. Wir planen, die VertexAI-Unterstützung in der kommenden Woche zu veröffentlichen.

Mehr erfahren

Aufbewahrungsfrist für Ausgabenprotokolle

Diese Version ermöglicht das Löschen von LiteLLM-Ausgabenprotokollen, die älter als ein bestimmter Zeitraum sind. Da wir jetzt das Speichern der rohen Anfrage/Antwort in den Protokollen ermöglichen, stellt das Löschen alter Protokolle sicher, dass die Datenbank in der Produktion performant bleibt.

Mehr erfahren

PII Masking 2.0

Diese Version bringt Verbesserungen an unserer Presidio PII-Integration. Als Proxy-Administrator haben Sie jetzt die Möglichkeit,

Bestimmte Entitäten maskieren oder blockieren (z. B. medizinische Lizenzen blockieren und andere Entitäten wie E-Mails maskieren).
Guardrails in der Produktion überwachen. LiteLLM Logs zeigen Ihnen nun die Guardrail-Ausführung, die erkannten Entitäten und deren Konfidenzbewertung für jede Entität.

Mehr erfahren

Neue Modelle / Aktualisierte Modelle

Gemini (VertexAI + Google AI Studio)
- /chat/completion
  - Audioeingabe verarbeiten - PR
  - Behebt das Problem mit der maximalen Rekursionstiefe bei der Verwendung von tief verschachtelten Antwortschemata mit Vertex AI, indem DEFAULT_MAX_RECURSE_DEPTH von 10 auf 100 in Konstanten erhöht wird. PR
  - Erkenntnis-Token im Streaming-Modus erfassen - PR
Google AI Studio
- /realtime
  - Gemini Multimodal Live API-Unterstützung
  - Audio-Ein-/Ausgabe-Unterstützung, Mapping optionaler Parameter, genaue Nutzungsberechnung - PR
VertexAI
- /chat/completion
  - Llama-Streaming-Fehler beheben - bei dem das Modell-Antwort im zurückgegebenen Streaming-Chunk verschachtelt war - PR
Ollama
- /chat/completion
  - Antwortenstruktur beheben - PR
Bedrock
- /chat/completion
  - Denkblöcke behandeln, wenn assistant.content None ist - PR
  - Fehlerbehebungen, um nur akzeptierte Felder für die Tool-JSON-Schema zuzulassen - PR
  - Informationen zu den Kosten für Bedrock Sonnet Prompt Caching hinzufügen
  - Mistral Pixtral-Unterstützung - PR
  - Tool-Caching-Unterstützung - PR
- /messages
  - Dynamische AWS-Parameter verwenden - PR
Nvidia NIM
- /chat/completion
  - Unterstützung für Tools, tool_choice, parallele Tool-Aufrufe hinzufügen - PR
Novita AI
- Neuer Anbieter für /chat/completion-Routen hinzugefügt - PR
Azure
- /image/generation
  - Azure DALL-E 3-Aufruf mit benutzerdefiniertem Modellnamen beheben - PR
Cohere
- /embeddings
  - Einbettungen migrieren, um /v2/embed zu verwenden - fügt Unterstützung für den Parameter output_dimensions hinzu - PR
Anthropic
- /chat/completion
  - Unterstützung für das Web-Search-Tool - nativ + OpenAI-Format - Erste Schritte
VLLM
- /embeddings
  - Unterstützung für die Einbettung von Eingaben als Liste von Ganzzahlen
OpenAI
- /chat/completion
  - Behebung - Behandlung von b64-Datei-Daten - Erste Schritte
  - ‘supports_pdf_input’ zu allen Vision-Modellen hinzufügen - PR

LLM API Endpoints

Antworten API
- Unterstützung für die Löschung von APIs beheben - PR
Rerank API
- /v2/rerank wird jetzt als ‘llm_api_route’ registriert - wodurch Nicht-Admins diese aufrufen können - PR

Verbesserungen bei der Ausgabenverfolgung

/chat/completion, /messages
- Anthropic - Kostenverfolgung für Web-Search-Tool - PR
- Groq - Aktualisierung der Modellmaximaltoken + Kosteninformationen - PR
/audio/transcription
- Azure - gpt-4o-mini-tts-Preise hinzufügen - PR
- Proxy - Verfolgung von Ausgaben nach Tag beheben - PR
/embeddings
- Azure AI - Cohere Embed v4-Preise hinzufügen - PR

Management Endpunkte / UI

Modelle
- Ollama - fügt API-Basisparameter zur Benutzeroberfläche hinzu
Logs
- Team-ID, Schlüsselalias, Schlüssel-Hash-Filter zu den Protokollen hinzufügen - https://github.com/BerriAI/litellm/pull/10831
- Guardrail-Tracing jetzt in der Protokoll-Benutzeroberfläche - https://github.com/BerriAI/litellm/pull/10893
Teams
- Patch zum Aktualisieren von Team-Informationen, wenn das Team in der Organisation ist und Mitglieder nicht in der Organisation sind - https://github.com/BerriAI/litellm/pull/10835
Guardrails
- Bedrock, Presidio, Lakers Guardrails in der Benutzeroberfläche hinzufügen - https://github.com/BerriAI/litellm/pull/10874
- Info-Seite zu Guardrails anzeigen - https://github.com/BerriAI/litellm/pull/10904
- Guardrails in der Benutzeroberfläche bearbeiten - https://github.com/BerriAI/litellm/pull/10907
Test Key
- Guardrails zur Prüfung in der Benutzeroberfläche auswählen

Logging / Alerting Integrationen

StandardLoggingPayload
- Alle x--Header in den Metadaten des Anforderers protokollieren - Erste Schritte
- Guardrail-Tracing jetzt in der Standard-Logging-Payload - Erste Schritte
Generischer API Logger
- Unterstützung für die Übergabe des application/json-Headers
Arize Phoenix
- Fix: URL-Kodierung von OTEL_EXPORTER_OTLP_TRACES_HEADERS für Phoenix-Integration - PR
- Guardrail-Tracing zu OTEL, Arize Phoenix hinzufügen - PR
PagerDuty
- PagerDuty ist jetzt ein kostenloses Feature - PR
Alerting
- Senden von Slack-Alerts bei Updates von virtuellen Schlüsseln/Benutzern/Teams ist jetzt kostenlos - PR

Guardrails

Guardrails
- Neuer Endpunkt /apply_guardrail zum direkten Testen eines Guardrails - PR
Lakera
- /v2 Endpunkte Unterstützung - PR
Presidio
- Behebt die Behandlung von Nachrichteninhalt bei der Presidio-Guardrail-Integration - PR
- Konfiguration von PII-Entitäten angeben - PR
Aim Security
- Unterstützung für Anonymisierung in AIM Guardrails - PR

Leistungs-/Loadbalancing-/Zuverlässigkeitsverbesserungen

Überschreiben aller Konstanten mit einer .env-Variable zulassen - PR
Maximale Aufbewahrungsfrist für Ausgabenprotokolle
- Aufbewahrungsflag zur Konfiguration hinzufügen - PR
- Unterstützung für das Bereinigen von Protokollen basierend auf einem konfigurierten Zeitraum - PR

Allgemeine Proxy-Verbesserungen

Authentifizierung
- Bearer $LITELLM_API_KEY im benutzerdefinierten Header x-litellm-api-key behandeln PR
Neues Enterprise pip-Paket - litellm-enterprise - behebt ein Problem, bei dem der Ordner enterprise beim Verwenden des pip-Pakets nicht gefunden wurde
Proxy CLI
- models import-Befehl hinzufügen - PR
OpenWebUI
- LiteLLM konfigurieren, um Benutzerheader von Open Web UI zu parsen
LiteLLM Proxy mit LiteLLM SDK
- Option zum Erzwingen/Immer-Verwenden des LiteLLM-Proxys beim Aufruf über das LiteLLM SDK

Neue Mitwirkende

@imdigitalashish hat seinen ersten Beitrag in PR #10617 geleistet
@LouisShark hat seinen ersten Beitrag in PR #10688 geleistet
@OscarSavNS hat seinen ersten Beitrag in PR #10764 geleistet
@arizedatngo hat seinen ersten Beitrag in PR #10654 geleistet
@jugaldb hat seinen ersten Beitrag in PR #10805 geleistet
@daikeren hat seinen ersten Beitrag in PR #10781 geleistet
@naliotopier hat seinen ersten Beitrag in PR #10077 geleistet
@damienpontifex hat seinen ersten Beitrag in PR #10813 geleistet
@Dima-Mediator hat seinen ersten Beitrag in PR #10789 geleistet
@igtm hat seinen ersten Beitrag in PR #10814 geleistet
@shibaboy hat seinen ersten Beitrag in PR #10752 geleistet
@camfarineau hat seinen ersten Beitrag in PR #10629 geleistet
@ajac-zero hat seinen ersten Beitrag in PR #10439 geleistet
@damgem hat seinen ersten Beitrag in PR #9802 geleistet
@hxdror hat seinen ersten Beitrag in PR #10757 geleistet
@wwwillchen hat seinen ersten Beitrag in PR #10894 geleistet

Demo-Instanz

Hier ist eine Demo-Instanz, um Änderungen zu testen

Instanz: https://demo.litellm.ai/
Anmeldedaten
- Benutzername: admin
- Passwort: sk-1234

Git Diff

v1.69.0-stable - Loadbalance Batch API Models

10. Mai 2025

Krrish Dholakia

CEO, LiteLLM

Ishaan Jaffer

CTO, LiteLLM

Diese Version bereitstellen

Docker
Pip

docker run litellm
docker run
-e STORE_MODEL_IN_DB=True
-p 4000:4000
ghcr.io/berriai/litellm:main-v1.69.0-stable

pip install litellm

pip install litellm==1.69.0.post1

Wichtige Highlights

LiteLLM v1.69.0-stable bringt folgende wichtige Verbesserungen

Loadbalance Batch API Models: Einfaches Loadbalancing über mehrere Azure Batch-Bereitstellungen mithilfe von LiteLLM Managed Files
E-Mail-Einladungen 2.0: Senden Sie neu bei LiteLLM angemeldeten Benutzern eine E-Mail-Einladung.
Nscale: LLM API zur Einhaltung europäischer Vorschriften.
Bedrock /v1/messages: Verwenden Sie Bedrock Anthropic-Modelle mit den /v1/messages von Anthropic.

Batch API Load Balancing

Diese Version bringt die Unterstützung für LiteLLM Managed Files zu Batches. Dies ist großartig für

Proxy-Administratoren: Sie können jetzt steuern, welche Batch-Modelle Benutzer aufrufen können.
Entwickler: Sie müssen den Azure-Bereitstellungsnamen nicht mehr kennen, wenn Sie Ihre Batch-.jsonl-Dateien erstellen. Geben Sie einfach das Modell an, auf das Ihr LiteLLM-Schlüssel Zugriff hat.

Im Laufe der Zeit erwarten wir, dass LiteLLM Managed Files der Weg sein wird, wie die meisten Teams Dateien über die Endpunkte /chat/completions, /batch, /fine_tuning verwenden.

Lesen Sie hier mehr

E-Mail-Einladungen

Diese Version bringt folgende Verbesserungen an unserer E-Mail-Einladungsintegration

Neue Vorlagen für die Ereignisse Benutzer eingeladen und Schlüssel erstellt.
Fehlerbehebungen für die Verwendung von SMTP-E-Mail-Anbietern.
Native Unterstützung für die Resend API.
Möglichkeit für Proxy-Administratoren, E-Mail-Ereignisse zu steuern.

Für LiteLLM Cloud-Benutzer kontaktieren Sie uns bitte, wenn Sie dies für Ihre Instanz aktivieren möchten.

Lesen Sie hier mehr

Neue Modelle / Aktualisierte Modelle

Gemini (VertexAI + Google AI Studio)
- gemini-2.5-pro-preview-05-06-Modelle mit Preis- und Kontextfensterinformationen hinzugefügt - PR
- Korrekte Kontextfensterlänge für alle Gemini 2.5-Varianten festgelegt - PR
Perplexity:
- Neue Perplexity-Modelle hinzugefügt - PR
- Sonar-deep-research-Modellpreise hinzugefügt - PR
Azure OpenAI:
- Weiterleitung des azure_ad_token_provider-Parameters behoben - PR
OpenAI:
- Unterstützung für PDF-URLs im 'file'-Parameter hinzugefügt - PR
Sagemaker:
- Inhaltslänge für den sagemaker_chat-Anbieter behoben - PR
Azure AI Foundry:
- Kostenverfolgung für die folgenden Modelle hinzugefügt PR
  - DeepSeek V3 0324
  - Llama 4 Scout
  - Llama 4 Maverick
Bedrock:
- Kostenverfolgung für Bedrock Llama 4-Modelle hinzugefügt - PR
- Vorlagenkonvertierung für Llama 4-Modelle in Bedrock behoben - PR
- Unterstützung für die Verwendung von Bedrock Anthropic-Modellen mit dem Format /v1/messages hinzugefügt - PR
- Streaming-Unterstützung für Bedrock Anthropic-Modelle mit dem Format /v1/messages hinzugefügt - PR
OpenAI: reasoning_effort-Unterstützung für o3-Modelle hinzugefügt - PR
Databricks:
- Problem behoben, wenn Databricks ein externes Modell verwendet und Delta leer sein könnte - PR
Cerebras: Preise und Kontextfenster des Llama-3.1-70b-Modells behoben - PR
Ollama:
- Benutzerdefinierte Preisberechnung behoben und Unterstützung für 'max_completion_token' hinzugefügt - PR
- KeyError bei Verwendung des JSON-Antwortformats behoben - PR
🆕 Nscale
- Unterstützung für Chat- und Bildgenerierungs-Endpunkte hinzugefügt - PR

LLM API Endpoints

Messages API:
- 🆕 Unterstützung für die Verwendung von Bedrock Anthropic-Modellen mit dem Format /v1/messages hinzugefügt - PR und Streaming-Unterstützung - PR
Moderations API:
- Fehler behoben, um die Verwendung von LiteLLM UI-Anmeldedaten für die /moderations-API zu ermöglichen - PR
Realtime API:
- Behebt das Einstellen von 'headers' im Scope für WebSocket-Authentifizierungsanfragen und Probleme mit Endlosschleifen - PR
Files API:
- Unterstützung für einheitliche Date-ID-Ausgabe - PR
- Unterstützung für das Schreiben von Dateien in alle Bereitstellungen - PR
- Validierung des Zielmodellnamens hinzugefügt - PR
Batches API:
- Vollständige Unterstützung für einheitliche Batch-IDs - Ersetzen des Modells in jsonl durch den Bereitstellungsmodellnamen - PR
- Beta-Unterstützung für einheitliche Date-IDs (verwaltete Dateien) für Batches - PR

Verbesserungen bei der Ausgabenverfolgung / Budget

Fehlerbehebung - PostgreSQL Integer Overflow Error bei DB-Ausgabenverfolgung - PR

Management Endpunkte / UI

Modelle
- Modellinformationen beim Bearbeiten eines Modells in der Benutzeroberfläche wurden überschrieben - behoben - PR
- Team-Admin-Modellaktualisierungen und Organisationerstellung mit spezifischen Modellen behoben - PR
Logs:
- Fehlerbehebung - Kopieren von Request/Response auf der Logs-Seite - PR
- Fehlerbehebung - Protokoll blieb auf der QA-Logs-Seite nicht im Fokus + Textüberlauf bei Fehlermeldungen - PR
- Index für session_id auf LiteLLM_SpendLogs hinzugefügt für bessere Abfrageleistung - PR
Benutzerverwaltung:
- Benutzerverwaltungsfunktionalität zur Python-Clientbibliothek & CLI hinzugefügt - PR
- Fehlerbehebung - SCIM-Token-Erstellung in der Admin-Benutzeroberfläche behoben - PR
- Fehlerbehebung - 404-Antwort hinzugefügt, wenn versucht wird, nicht vorhandene Verifizierungstoken zu löschen - PR

Logging / Guardrail Integrationen

Custom Logger API: V2 Custom Callback API (LLM-Protokolle an benutzerdefinierte API senden) - PR, Erste Schritte
OpenTelemetry:
- OpenTelemetry korrigiert, um die GenAI-Semantikkonventionen zu befolgen + Unterstützung für den Parameter 'instructions' für TTS - PR
Bedrock PII:
- Unterstützung für PII-Maskierung mit Bedrock-Guardrails hinzufügen - Erste Schritte, PR
Dokumentation:
- Dokumentation für StandardLoggingVectorStoreRequest hinzugefügt - PR

Leistungs- / Zuverlässigkeitsverbesserungen

Python-Kompatibilität:
- Unterstützung für Python 3.11- hinzugefügt (behandelte datetime UTC-Fehler) - PR
- UnicodeDecodeError: 'charmap' unter Windows beim Import von litellm behoben - PR
Caching:
- Ergebnis des String-Cachings für Einbettungen behoben - PR
- Cache-Fehlern für Gemini-Modelle mit response_format behoben - PR

Allgemeine Proxy-Verbesserungen

Proxy CLI:
- --version-Flag zum litellm-proxy CLI hinzugefügt - PR
- Dedizierte litellm-proxy CLI hinzugefügt - PR
Alerting:
- Slack-Benachrichtigungen, die bei Verwendung einer DB nicht funktionierten, behoben - PR
E-Mail-Einladungen:
- V2-E-Mails mit Korrekturen für das Senden von E-Mails beim Erstellen von Schlüsseln + Resend API-Unterstützung hinzugefügt - PR
- Benutzer-Einladungs-E-Mails hinzugefügt - PR
- Endpunkte zur Verwaltung von E-Mail-Einstellungen hinzugefügt - PR
Allgemein:
- Fehler behoben, bei dem doppelte JSON-Protokolle ausgegeben wurden - PR

Neue Mitwirkende

@zoltan-ongithub hat seinen ersten Beitrag in PR #10568 geleistet
@mkavinkumar1 hat seinen ersten Beitrag in PR #10548 geleistet
@thomelane hat seinen ersten Beitrag in PR #10549 geleistet
@frankzye hat seinen ersten Beitrag in PR #10540 geleistet
@aholmberg hat seinen ersten Beitrag in PR #10591 geleistet
@aravindkarnam hat seinen ersten Beitrag in PR #10611 geleistet
@xsg22 hat seinen ersten Beitrag in PR #10648 geleistet
@casparhsws hat seinen ersten Beitrag in PR #10635 geleistet
@hypermoose hat seinen ersten Beitrag in PR #10370 geleistet
@tomukmatthews hat seinen ersten Beitrag in PR #10638 geleistet
@keyute hat seinen ersten Beitrag in PR #10652 geleistet
@GPTLocalhost hat seinen ersten Beitrag in PR #10687 geleistet
@husnain7766 hat seinen ersten Beitrag in PR #10697 geleistet
@claralp hat seinen ersten Beitrag in PR #10694 geleistet
@mollux hat seinen ersten Beitrag in PR #10690 geleistet

v1.68.0-stable

3. Mai 2025

Krrish Dholakia

CEO, LiteLLM

Ishaan Jaffer

CTO, LiteLLM

Diese Version bereitstellen

Docker
Pip

docker run litellm
docker run
-e STORE_MODEL_IN_DB=True
-p 4000:4000
ghcr.io/berriai/litellm:main-v1.68.0-stable

pip install litellm

pip install litellm==1.68.0.post1

Wichtige Highlights

LiteLLM v1.68.0-stable wird bald live sein. Hier sind die wichtigsten Highlights dieser Version

Bedrock Knowledge Base: Sie können jetzt Ihre Bedrock Knowledge Base mit allen LiteLLM-Modellen über die API /chat/completion oder /responses abfragen.
Ratenbegrenzungen: Diese Version bringt genaue Ratenbegrenzungen über mehrere Instanzen hinweg und reduziert Überläufe auf maximal 10 zusätzliche Anfragen bei hohem Datenverkehr.
Meta Llama API: Unterstützung für Meta Llama API hinzugefügt Erste Schritte
LlamaFile: Unterstützung für LlamaFile hinzugefügt Erste Schritte

Bedrock Knowledge Base (Vektorspeicher)

Diese Version fügt Unterstützung für Bedrock-Vektorspeicher (Wissensbasen) in LiteLLM hinzu. Mit diesem Update können Sie

Bedrock-Vektorspeicher in der OpenAI /chat/completions-Spezifikation mit allen von LiteLLM unterstützten Modellen verwenden.
Alle verfügbaren Vektorspeicher über die LiteLLM-Benutzeroberfläche oder API anzeigen.
Vektorspeicher für bestimmte Modelle als immer aktiv konfigurieren.
Die Nutzung von Vektorspeichern in LiteLLM Logs verfolgen.

Für die nächste Version planen wir, Ihnen die Festlegung von Schlüssel-, Benutzer-, Team- und Organisationsberechtigungen für Vektorspeicher zu ermöglichen.

Lesen Sie hier mehr

Ratenbegrenzung

Diese Veröffentlichung bringt eine genaue Multi-Instanz-Ratenbegrenzung über Schlüssel/Benutzer/Teams hinweg. Nachfolgend werden die wichtigsten technischen Änderungen erläutert

Änderung: Instanzen inkrementieren jetzt den Cache-Wert, anstatt ihn zu setzen. Um zu vermeiden, dass Redis bei jeder Anfrage aufgerufen wird, wird dies alle 0,01 s synchronisiert.
Genauigkeit: In Tests haben wir bei hohem Datenverkehr (100 RPS, 3 Instanzen) eine maximale Überschreitung von 10 Anfragen gegenüber den erwarteten Werten festgestellt, im Vergleich zur aktuellen Überschreitung von 189 Anfragen.
Leistung: Unsere Lasttests zeigen, dass dies die mediane Antwortzeit bei hohem Datenverkehr um 100 ms reduziert

Dies ist derzeit hinter einem Feature-Flag verborgen und wir planen, dies nächste Woche zum Standard zu machen. Um dies heute zu aktivieren, fügen Sie einfach diese Umgebungsvariable hinzu

export LITELLM_RATE_LIMIT_ACCURACY=true

Lesen Sie hier mehr

Neue Modelle / Aktualisierte Modelle

Gemini (VertexAI + Google AI Studio)
- Behandelt mehr JSON-Schema - OpenAPI-Schema-Konvertierungs-Randfälle PR
- Tool-Aufrufe - gibt bei der Gemini-Tool-Aufruf-Antwort 'finish_reason="tool_calls"' zurück PR
VertexAI
- Meta/llama-4 Modellunterstützung PR
- Meta/llama3 - behandelt Tool-Aufruf-Ergebnisse im Inhalt PR
- Meta/* - gibt bei der Tool-Aufruf-Antwort 'finish_reason="tool_calls"' zurück PR
Bedrock
- Bilderzeugung - Unterstützt neue 'stable-image-core'-Modelle - PR
- Wissensdatenbanken - Unterstützung für die Verwendung von Bedrock-Wissensdatenbanken mit /chat/completions PR
- Anthropic - fügt 'supports_pdf_input' für claude-3.7-bedrock-Modelle hinzu PR, Erste Schritte
OpenAI
- Unterstützt OPENAI_BASE_URL zusätzlich zu OPENAI_API_BASE PR
- 504 Timeout-Fehler korrekt erneut auslösen PR
- Nativer GPT-4o-mini-TTS-Support PR
🆕 Meta Llama API Provider PR
🆕 LlamaFile Provider PR

LLM API Endpoints

Antwort-API
- Korrektur zur Handhabung von mehrstufigen Sitzungen PR
Einbettungen
- Caching-Korrekturen - PR
  - str -> list Cache behandeln
  - Nutzungstoken für Cache-Treffer zurückgeben
  - Nutzungstoken bei teilweisen Cache-Treffern kombinieren
🆕 Vektorspeicher
- Konfigurieren von Vektorspeicher-Konfigurationen zulassen - PR
- Neues Standardfeld 'StandardLoggingPayload' für Anfragen, die bei Verwendung eines Vektorspeichers gemacht werden - PR
- Vektorspeicher / KB-Anfragen auf der LiteLLM-Protokollseite anzeigen - PR
- Vektorspeicher in der OpenAI API-Spezifikation mit Tools verwenden PR
MCP
- Sicherstellen, dass Nicht-Admin-Virtuelle Schlüssel auf /mcp-Routen zugreifen können - PR
  Hinweis: Derzeit können alle virtuellen Schlüssel auf die MCP-Endpunkte zugreifen. Wir arbeiten an einer Funktion, um den MCP-Zugriff nach Schlüsseln/Teams/Benutzern/Organisationen einzuschränken. Folgen Sie hier für Updates.
Moderationen
- Unterstützung für Callback-Protokollierung für die /moderations API hinzufügen - PR

Verbesserungen bei der Ausgabenverfolgung / Budget

OpenAI
- computer-use-preview Kostenverfolgung / Preisgestaltung PR
- gpt-4o-mini-tts Eingabekostenverfolgung - PR
Fireworks AI - Preisaktualisierungen - neue Preisstufe für 0-4b Modelle + Preise für Llama4-Modelle
Budgets
- Budget-Resets erfolgen jetzt zu Beginn des Tages/der Woche/des Monats - PR
- Weiche Budget-Warnungen auslösen, wenn ein Schlüssel einen Schwellenwert überschreitet - PR
Token-Zählung
- Neufassung der Funktion 'token_counter()', um Unterzählung von Tokens zu verhindern - PR

Management Endpunkte / UI

Virtuelle Schlüssel
- Filterung nach Schlüssel-Alias korrigiert - PR
- Globale Filterung nach Schlüsseln zulassen - PR
- Paginierung - Klicken auf nächste/vorherige Schaltflächen in der Tabelle korrigiert - PR
Modelle
- Triton - Unterstützung für das Hinzufügen von Modellen/Anbietern in der Benutzeroberfläche - PR
- VertexAI - Hinzufügen von Vertex-Modellen mit wiederverwendbaren Anmeldeinformationen korrigiert - PR
- LLM-Anmeldeinformationen - vorhandene Anmeldeinformationen zur einfachen Bearbeitung anzeigen - PR
Teams
- Team einer anderen Organisation zuweisen lassen - PR
Organisationen
- Anzeige des Organisationsbudgets in der Tabelle korrigiert - PR

Logging / Guardrail Integrationen

Langsmith
- Beachtung des Parameters 'langsmith_batch_size' - PR

Leistungs-/Loadbalancing-/Zuverlässigkeitsverbesserungen

Redis
- Sicherstellen, dass alle Redis-Warteschlangen periodisch geleert werden. Dies behebt ein Problem, bei dem die Größe der Redis-Warteschlange bei Verwendung von Anfrage-Tags unendlich wuchs - PR
Ratenbegrenzungen
- Unterstützung für Multi-Instanz-Ratenbegrenzung über Schlüssel/Teams/Benutzer/Kunden hinweg - PR, PR, PR
Azure OpenAI OIDC
- Verwendung von LiteLLM definierten Parametern für OIDC-Authentifizierung zulassen - PR

Allgemeine Proxy-Verbesserungen

Sicherheit
- Blockieren von Web-Crawlern zulassen - PR
Authentifizierung
- Unterstützung des Headers 'x-litellm-api-key' als Standard - Dies behebt ein Problem aus der vorherigen Veröffentlichung, bei dem 'x-litellm-api-key' bei Vertex AI Passthrough-Anfragen nicht verwendet wurde - PR
- Erlauben, dass Schlüssel mit maximalem Budget auf Nicht-LLM-API-Endpunkte zugreifen können - PR
🆕 Python Client-Bibliothek für LiteLLM Proxy Management Endpunkte
- Erster PR - PR
- Unterstützung für HTTP-Anfragen - PR
Abhängigkeiten
- uvloop für Windows nicht mehr erforderlich - PR

v1.67.4-stable - Improved User Management

26. April 2025

Krrish Dholakia

CEO, LiteLLM

Ishaan Jaffer

CTO, LiteLLM

Diese Version bereitstellen

Docker
Pip

docker run litellm
docker run
-e STORE_MODEL_IN_DB=True
-p 4000:4000
ghcr.io/berriai/litellm:main-v1.67.4-stable

pip install litellm

pip install litellm==1.67.4.post1

Wichtige Highlights

Verbessertes Benutzermanagement: Diese Veröffentlichung ermöglicht die Suche und Filterung von Benutzern, Schlüsseln, Teams und Modellen.
Responses API Load Balancing: Routet Anfragen über Provider-Regionen und sorgt für Sitzungskontinuität.
UI-Sitzungsprotokolle: Gruppiert mehrere Anfragen an LiteLLM zu einer Sitzung.

Verbessertes Benutzermanagement

Diese Veröffentlichung erleichtert die Verwaltung von Benutzern und Schlüsseln auf LiteLLM. Sie können jetzt Benutzer, Schlüssel, Teams und Modelle durchsuchen und filtern und Benutzereinstellungen einfacher steuern.

Neue Funktionen umfassen

Suche nach Benutzern nach E-Mail, ID, Rolle oder Team.
Alle Modelle, Teams und Schlüssel eines Benutzers an einem Ort anzeigen.
Benutzerrollen und Modellzugriff direkt vom Tab "Benutzer" ändern.

Diese Änderungen helfen Ihnen, weniger Zeit für die Einrichtung und Verwaltung von Benutzern auf LiteLLM aufzuwenden.

Responses API Load Balancing

Diese Veröffentlichung führt Load Balancing für die Responses API ein, wodurch Sie Anfragen über Provider-Regionen leiten und die Sitzungskontinuität gewährleisten können. Es funktioniert wie folgt:

Wenn eine previous_response_id angegeben ist, leitet LiteLLM die Anfrage an die ursprüngliche Bereitstellung weiter, die die vorherige Antwort generiert hat - wodurch die Sitzungskontinuität gewährleistet wird.
Wenn keine previous_response_id angegeben ist, verteilt LiteLLM die Anfragen auf Ihre verfügbaren Bereitstellungen.

Mehr erfahren

UI-Sitzungsprotokolle

Diese Veröffentlichung ermöglicht es Ihnen, Anfragen an den LiteLLM-Proxy zu einer Sitzung zu gruppieren. Wenn Sie eine 'litellm_session_id' in Ihrer Anfrage angeben, gruppiert LiteLLM automatisch alle Protokolle in derselben Sitzung. Dies ermöglicht es Ihnen, die Nutzung und den Anfrageinhalt pro Sitzung einfach zu verfolgen.

Mehr erfahren

Neue Modelle / Aktualisierte Modelle

OpenAI
1. Kostenverfolgung für 'gpt-image-1' hinzugefügt Erste Schritte
2. Fehlerbehebung: Kostenverfolgung für gpt-image-1 hinzugefügt, wenn die Qualität nicht angegeben ist PR
Azure
1. Zeitstempel-Granularitäten an Whisper in Azure übergeben, korrigiert Erste Schritte
2. Preise für azure/gpt-image-1 hinzugefügt Erste Schritte, PR
3. Kostenverfolgung für 'azure/computer-use-preview', 'azure/gpt-4o-audio-preview-2024-12-17', 'azure/gpt-4o-mini-audio-preview-2024-12-17' hinzugefügt PR
Bedrock
1. Unterstützung für alle kompatiblen Bedrock-Parameter hinzugefügt, wenn model="arn:.." (Bedrock-Anwendungsinferenzprofil-Modelle) Erste Schritte, PR
2. Falsche System-Prompt-Transformation korrigiert PR
VertexAI / Google AI Studio
1. Setzen von 'budget_tokens=0' für 'gemini-2.5-flash' zulassen Erste Schritte, PR
2. Sicherstellen, dass die zurückgegebene 'usage' die Denk-Token-Nutzung einschließt PR
3. Kostenverfolgung für 'gemini-2.5-pro-preview-03-25' hinzugefügt PR
Cohere
1. Unterstützung für cohere command-a-03-2025 hinzugefügt Erste Schritte, PR
SageMaker
1. Unterstützung für den Parameter 'max_completion_tokens' hinzugefügt Erste Schritte, PR
Antworten API
1. Unterstützung für GET- und DELETE-Operationen hinzugefügt - /v1/responses/{response_id} Erste Schritte
2. Sitzungsmanagementunterstützung für Nicht-OpenAI-Modelle hinzugefügt PR
3. Routing-Affinität hinzugefügt, um Modellkonsistenz innerhalb von Sitzungen aufrechtzuerhalten Erste Schritte, PR

Verbesserungen bei der Ausgabenverfolgung

Fehlerbehebung: Fehler bei der Spend-Nachverfolgung behoben, sodass Standard-LiteLLM-Parameter nicht im Speicher geändert werden PR
Einstellungstermine: Einstellungstermine für Azure-, VertexAI-Modelle hinzugefügt PR

Management Endpunkte / UI

Benutzer

Filterung und Suche:
- Benutzer nach user_id, Rolle, Team, sso_id filtern
- Benutzer nach E-Mail suchen
Benutzerinformationsbereich: Ein neuer Benutzerinformationsbereich wurde hinzugefügt PR
- Teams, Schlüssel, Modelle anzeigen, die mit dem Benutzer verbunden sind
- Benutzerrolle, Modellberechtigungen bearbeiten

Teams

Filterung und Suche:
- Teams nach Organisation, Team-ID filtern PR
- Teams nach Teamnamen suchen PR

Schlüssel

Schlüsselverwaltung:
- Unterstützung für Kreuzfilterung und Filterung nach Schlüssel-Hash PR
- Schlüssel-Alias-Zurücksetzung beim Zurücksetzen von Filtern korrigiert PR
- Tabellendarstellung bei Schlüssel-Erstellung korrigiert PR

UI-Protokollseite

Sitzungsprotokolle: UI-Sitzungsprotokolle hinzugefügt Erste Schritte

UI-Authentifizierung & Sicherheit

Authentifizierung erforderlich: Für alle Dashboard-Seiten ist jetzt eine Authentifizierung erforderlich PR
SSO-Korrekturen: Ungültigen Token-Fehler bei der SSO-Benutzeranmeldung behoben PR
[BETA] Verschlüsselte Token: UI auf verschlüsselte Token-Nutzung umgestellt PR
Token-Ablauf: Token-Aktualisierung durch erneutes Weiterleiten zur Anmeldeseite unterstützt (behebt ein Problem, bei dem ein abgelaufener Token eine leere Seite zeigte) PR

Allgemeine UI-Korrekturen

UI-Flackern behoben: UI-Flackerprobleme im Dashboard behoben PR
Verbesserte Terminologie: Bessere Lade- und Keine-Daten-Zustände auf den Seiten für Schlüssel und Tools PR
Azure-Modellunterstützung: Bearbeiten von Azure-öffentlichen Modellnamen und Ändern von Modellnamen nach der Erstellung korrigiert PR
Team-Modellauswahl: Fehlerbehebung für die Team-Modellauswahl PR

Logging / Guardrail Integrationen

Datadog:
1. Datadog LLM-Observability-Protokollierung korrigiert Erste Schritte, PR
Prometheus / Grafana:
1. Auswahl der Datenquelle auf der LiteLLM Grafana-Vorlage aktiviert Erste Schritte, PR
AgentOps:
1. AgentOps-Integration hinzugefügt Erste Schritte, PR
Arize:
1. Fehlende Attribute für Arize & Phoenix Integration hinzugefügt Erste Schritte, PR

Allgemeine Proxy-Verbesserungen

Caching: Caching korrigiert, um 'thinking' oder 'reasoning_effort' bei der Berechnung des Cache-Schlüssels zu berücksichtigen PR
Modellgruppen: Handhabung von Fällen korrigiert, in denen der Benutzer 'model_group' innerhalb von 'model_info' setzt PR
Passthrough-Endpunkte: Sichergestellt, dass 'PassthroughStandardLoggingPayload' mit Methode, URL, Anfrage-/Antwortkörper protokolliert wird PR
SQL-Injection beheben: Mögliche SQL-Injection-Schwachstelle in 'spend_management_endpoints.py' behoben PR

Helm

serviceAccountName im Migrationsjob korrigiert PR

Vollständige Changelog

Die vollständige Liste der Änderungen finden Sie in den GitHub Release Notes.

v1.67.0-stable - SCIM Integration

19. April 2025

Krrish Dholakia

CEO, LiteLLM

Ishaan Jaffer

CTO, LiteLLM

Wichtige Highlights

SCIM-Integration: Ermöglicht Identitätsanbietern (Okta, Azure AD, OneLogin usw.), Benutzer und Teams (Gruppen) automatisch zu provisionieren, zu aktualisieren und zu deprovisionieren
Team- und Tag-basierte Nutzungsverfolgung: Sie können nun Nutzung und Ausgaben nach Team und Tag bei über 1 Million Ausgabenprotokollen sehen.
Vereinheitlichte Responses API: Unterstützung für den Aufruf von Anthropic, Gemini, Groq usw. über die neue Responses API von OpenAI.

Tauchen wir ein.

SCIM-Integration

Diese Veröffentlichung fügt SCIM-Unterstützung für LiteLLM hinzu. Dies ermöglicht Ihrem SSO-Anbieter (Okta, Azure AD usw.), Benutzer, Teams und Mitgliedschaften auf LiteLLM automatisch zu erstellen/löschen. Das bedeutet, dass Ihr SSO-Anbieter, wenn Sie ein Team in Ihrem SSO-Anbieter entfernen, das entsprechende Team auf LiteLLM automatisch löschen wird.

Mehr erfahren

Team- und Tag-basierte Nutzungsverfolgung

Diese Veröffentlichung verbessert die team- und tagbasierte Nutzungsverfolgung bei über 1 Million Ausgabenprotokollen, was die Überwachung Ihrer LLM-API-Ausgaben in der Produktion erleichtert. Dies umfasst:

Tägliche Ausgaben nach Teams + Tags anzeigen
Nutzung / Ausgaben nach Schlüssel innerhalb von Teams anzeigen
Ausgaben nach mehreren Tags anzeigen
Interne Benutzer dazu ermächtigen, die Ausgaben von Teams anzuzeigen, deren Mitglied sie sind

Mehr erfahren

Vereinheitlichte Responses API

Diese Veröffentlichung ermöglicht es Ihnen, Azure OpenAI, Anthropic, AWS Bedrock und Google Vertex AI Modelle über den POST /v1/responses Endpunkt auf LiteLLM aufzurufen. Das bedeutet, dass Sie jetzt beliebte Tools wie OpenAI Codex mit Ihren eigenen Modellen verwenden können.

Mehr erfahren

Neue Modelle / Aktualisierte Modelle

OpenAI
1. gpt-4.1, gpt-4.1-mini, gpt-4.1-nano, o3, o3-mini, o4-mini Preise - Erste Schritte, PR
2. o4 - o4 korrekt auf OpenAI o_series Modell abbilden
Azure AI
1. Korrektur der Phi-4 Ausgabe-Kosten pro Token - PR
2. Responses API Unterstützung Erste Schritte, PR
Anthropic
1. Unterstützung für redigierte Nachrichten (thinking) - Erste Schritte, PR
Cohere
1. /v2/chat Passthrough-Endpunktunterstützung mit Kostenverfolgung - Erste Schritte, PR
Azure
1. Unterstützung für Azure tenant_id/client_id Umgebungsvariablen - Erste Schritte, PR
2. Korrektur der 'response_format'-Prüfung für API-Versionen ab 2025 - PR
3. Preise für gpt-4.1, gpt-4.1-mini, gpt-4.1-nano, o3, o3-mini, o4-mini hinzufügen
VLLM
1. Dateien - Unterstützung für den Nachrichtentyp 'file' für VLLM-Video-URLs - Erste Schritte, PR
2. Passthrough - neuer /vllm/ Passthrough-Endpunkt unterstützt - Erste Schritte, PR
Mistral
1. neuer /mistral Passthrough-Endpunkt unterstützt - Erste Schritte, PR
AWS
1. Neu zugeordnete Bedrock-Regionen - PR
VertexAI / Google AI Studio
1. Gemini - Antwortformat - Beibehaltung der Schemabeschreibungsreihenfolge für Google Gemini und Vertex durch Angabe von 'propertyOrdering' - Erste Schritte, PR
2. Gemini-2.5-flash - Rückgabe von Reasoning-Inhalt Google AI Studio, Vertex AI
3. Gemini-2.5-flash - Preise + Modellinformationen PR
4. Passthrough - neue Route /vertex_ai/discovery - ermöglicht den Aufruf von AgentBuilder API-Routen Erste Schritte, PR
Fireworks AI
1. Gibt Tool-Aufruf-Antworten im Feld 'tool_calls' zurück (Fireworks gibt dies fälschlicherweise als JSON-String im Inhalt zurück) PR
Triton
1. Entfernen von festen 'bad_words' / 'stop_words' aus dem '/generate'-Aufruf - Erste Schritte, PR
Sonstiges
1. Unterstützung für alle LiteLLM-Provider auf der Responses API (funktioniert mit Codex) - Erste Schritte, PR
2. Kombination mehrerer Tool-Aufrufe in gestreamter Antwort korrigiert - Erste Schritte, PR

Verbesserungen bei der Ausgabenverfolgung

Kostenkontrolle - Einfügen von Cache-Kontrollpunkten in den Prompt zur Kostensenkung Erste Schritte, PR
Spend-Tags - Spend-Tags in Headern - Unterstützung für x-litellm-tags, auch wenn die tagbasierte Weiterleitung nicht aktiviert ist Erste Schritte, PR
Gemini-2.5-flash - Berechnung der Kosten für Reasoning-Tokens unterstützen PR

Management Endpunkte / UI

Benutzer
1. created_at und updated_at auf der Benutzerseite anzeigen - PR
Virtuelle Schlüssel
1. Filtern nach Schlüssel-Alias - https://github.com/BerriAI/litellm/pull/10085
Nutzungs-Tab
1. Team-basierte Nutzung
  - Neue Tabelle 'LiteLLM_DailyTeamSpend' für aggregierte teambasierte Nutzungsdatenspeicherung - PR
  - Neues teambasiertes Nutzungs-Dashboard + neue API '/team/daily/activity' - PR
  - Team-Alias auf der API '/team/daily/activity' zurückgeben - PR
  - internen Benutzern ermöglichen, Ausgaben für Teams anzuzeigen, zu denen sie gehören - PR
  - Top-Schlüssel pro Team anzeigen lassen - PR
2. Tag-basierte Nutzung
  - Neue Tabelle 'LiteLLM_DailyTagSpend' für aggregierte tagbasierte Nutzungsdatenspeicherung - PR
  - Auf Proxy-Admins beschränken - PR
  - Top-Schlüssel nach Tag anzeigen lassen
  - In der Anfrage übergebene Tags (d. h. dynamische Tags) auf der '/tag/list'-API zurückgeben - PR
3. Prompt-Caching-Metriken in täglichen Benutzer-, Team-, Tag-Tabellen verfolgen - PR
4. Nutzung pro Schlüssel anzeigen (auf allen, Team- und Tag-Nutzungs-Dashboards) - PR
5. alten Nutzungs-Tab durch neuen Nutzungs-Tab ersetzen
Modelle
1. Spalten größenveränderbar/ausblendbar machen - PR
API-Playground
1. internem Benutzer erlauben, den API-Playground aufzurufen - PR
SCIM
1. LiteLLM SCIM-Integration für Team- und Benutzerverwaltung hinzufügen - Erste Schritte, PR

Logging / Guardrail Integrationen

GCS
1. GCS Pub/Sub-Protokollierung mit der Umgebungsvariable GCS_PROJECT_ID korrigieren - Erste Schritte, PR
AIM
1. LiteLLM Call-ID-Weiterleitung an Aim-Guardrails bei Pre- und Post-Hook-Aufrufen hinzufügen - Erste Schritte, PR
Azure Blob Storage
1. Sicherstellen, dass die Protokollierung in Szenarien mit hohem Durchsatz funktioniert - Erste Schritte, PR

Allgemeine Proxy-Verbesserungen

Unterstützung für das Setzen von 'litellm.modify_params' über Umgebungsvariable PR
Modellerkennung - Prüfen Sie die /models Endpunkte des Anbieters beim Aufruf des /v1/models Endpunkts des Proxys - Erste Schritte, PR
/utils/token_counter - Abrufen des benutzerdefinierten Tokenizers für DB-Modelle korrigiert - Erste Schritte, PR
Prisma-Migration - Umgang mit vorhandenen Spalten in der DB-Tabelle - PR

v1.66.0-stable - Realtime API Cost Tracking

12. April 2025

Krrish Dholakia

CEO, LiteLLM

Ishaan Jaffer

CTO, LiteLLM

Diese Version bereitstellen

Docker
Pip

docker run litellm
docker run
-e STORE_MODEL_IN_DB=True
-p 4000:4000
ghcr.io/berriai/litellm:main-v1.66.0-stable

pip install litellm

pip install litellm==1.66.0.post1

v1.66.0-stable ist jetzt verfügbar, hier sind die wichtigsten Highlights dieser Veröffentlichung

Wichtige Highlights

Echtzeit-API-Kostenverfolgung: Verfolgen Sie die Kosten von Echtzeit-API-Aufrufen
Microsoft SSO automatische Synchronisierung: Synchronisieren Sie automatisch Gruppen und Gruppenmitglieder von Azure Entra ID nach LiteLLM
xAI grok-3: Unterstützung für xai/grok-3 Modelle hinzugefügt
Sicherheitskorrekturen: Schwachstellen CVE-2025-0330 und CVE-2024-6825 behoben

Tauchen wir ein.

Echtzeit-API-Kostenverfolgung

Diese Veröffentlichung fügt Echtzeit-API-Protokollierung + Kostenverfolgung hinzu.

Protokollierung: LiteLLM protokolliert nun die vollständige Antwort von Echtzeit-Aufrufen für alle Protokollierungsintegrationen (DB, S3, Langfuse usw.)
Kostenverfolgung: Sie können nun 'base_model' und benutzerdefinierte Preise für Echtzeit-Modelle festlegen. Benutzerdefinierte Preise
Budgets: Ihre Schlüssel-/Benutzer-/Team-Budgets funktionieren nun auch für Echtzeit-Modelle.

Starten Sie hier

Microsoft SSO automatische Synchronisierung

Synchronisiert automatisch Gruppen und Mitglieder von Azure Entra ID nach LiteLLM

Diese Version fügt Unterstützung für die automatische Synchronisierung von Gruppen und Mitgliedern in Microsoft Entra ID mit LiteLLM hinzu. Das bedeutet, dass LiteLLM Proxy-Administratoren weniger Zeit mit der Verwaltung von Teams und Mitgliedern verbringen müssen und LiteLLM Folgendes übernimmt:

Automatische Erstellung von Teams, die in Microsoft Entra ID existieren
Synchronisierung von Teammitgliedern in Microsoft Entra ID mit LiteLLM-Teams

Starten Sie hier mit diesem Link

Neue Modelle / Aktualisierte Modelle

xAI
1. Unterstützung für `reasoning_effort` für xai/grok-3-mini-beta hinzugefügt. Erste Schritte
2. Kostenverfolgung für xai/grok-3-Modelle hinzugefügt. PR
Hugging Face
1. Unterstützung für Inferenz-Anbieter hinzugefügt. Erste Schritte
Azure
1. Kostenverfolgung für `azure/gpt-4o-realtime-audio` hinzugefügt. PR
VertexAI
1. Unterstützung für das `enterpriseWebSearch`-Tool hinzugefügt. Erste Schritte
2. Nur Schlüssel übergeben, die vom Vertex AI-Antwortschema akzeptiert werden. PR
Google AI Studio
1. Kostenverfolgung für gemini-2.5-pro-Modelle hinzugefügt. PR
2. Preise für 'gemini/gemini-2.5-pro-preview-03-25' korrigiert. PR
3. Behandlung von `file_data`, das übergeben wird, korrigiert. PR
Azure
1. Preise für Azure Phi-4 aktualisiert. PR
2. Kostenverfolgung für `azure/gpt-4o-realtime-audio` hinzugefügt. PR
Databricks
1. `reasoning_effort` aus Parametern entfernt. PR
2. Überprüfung benutzerdefinierter Endpunkte für Databricks korrigiert. PR
Allgemein
1. Dienstprogramm `litellm.supports_reasoning()` hinzugefügt, um zu verfolgen, ob eine LLM Reasoning unterstützt. Erste Schritte
2. Function Calling - Pydantic Base Model in Message Tool Calls verarbeitet, `tools = []` verarbeitet und Streaming für Tool Calls bei `meta.llama3-3-70b-instruct-v1:0` unterstützt. PR
3. LiteLLM Proxy - Parameter `thinking` kann über das Client-SDK an den LiteLLM Proxy übergeben werden. PR
4. Parameter `thinking` für LiteLLM korrekt übersetzt. PR

Verbesserungen bei der Ausgabenverfolgung

OpenAI, Azure
1. Echtzeit-API-Kostenverfolgung mit Token-Nutzungsmetriken in Spend-Logs. Erste Schritte
Anthropic
1. Preise für Claude Haiku Cache Read pro Token korrigiert. PR
2. Kostenverfolgung für Claude-Antworten mit `base_model` hinzugefügt. PR
3. Kostenberechnung für Anthropic Prompt Caching und gekürzte geloggte Nachricht in der DB korrigiert. PR
Allgemein
1. Token-Tracking und Nutzungs-Objekt in Spend-Logs hinzugefügt. PR
2. Benutzerdefinierte Preise auf Deployment-Ebene verarbeiten. PR

Management Endpunkte / UI

Test Key Tab
1. Darstellung von Reasoning-Inhalten, TTFT (Time to First Byte) und Nutzungsmetriken auf der Test-Key-Seite hinzugefügt. PR
  Anzeige von Input-, Output-, Reasoning-Tokens und TTFT-Metriken.
Tag- / Richtlinienverwaltung
1. Tag-/Richtlinienverwaltung hinzugefügt. Erstellung von Routing-Regeln basierend auf Request-Metadaten. Dies ermöglicht die Durchsetzung, dass Anfragen mit tags="private" nur an bestimmte Modelle weitergeleitet werden. Erste Schritte
  
  Tags erstellen und verwalten.
Login-Bildschirm neu gestaltet
1. Polierter Login-Bildschirm. PR
Microsoft SSO Auto-Sync
1. Debug-Route hinzugefügt, um Admins die Fehlersuche bei SSO-JWT-Feldern zu ermöglichen. PR
2. Möglichkeit hinzugefügt, die MSFT Graph API zur Zuweisung von Benutzern zu Teams zu verwenden. PR
3. LiteLLM mit Microsoft Entra ID Enterprise Application verbunden. PR
4. Möglichkeit für Admins hinzugefügt, `default_team_params` festzulegen, wenn LiteLLM SSO Standard-Teams erstellt. PR
5. MSFT SSO korrigiert, um das richtige Feld für die Benutzere-Mail zu verwenden. PR
6. UI-Unterstützung für die Einstellung von "Default Team" hinzugefügt, wenn LiteLLM SSO automatisch Teams erstellt. PR
UI-Fehlerbehebungen
1. Verhindert, dass numerische Werte für Teams, Keys, Organisationen und Modelle beim Scrollen geändert werden. PR
2. Key- und Team-Updates werden sofort in der UI widergespiegelt. PR

Verbesserungen bei Logging / Guardrails.

Prometheus
1. Key- und Team-Budgetmetriken werden als Cronjob geplant ausgegeben. Erste Schritte

Sicherheitskorrekturen.

Gefixed CVE-2025-0330 - Leakage von Langfuse API-Schlüsseln bei der Team-Ausnahmebehandlung. PR
Gefixed CVE-2024-6825 - Remote Code Execution in Post-Call-Regeln. PR

Helm

Service-Annotationen zum LiteLLM-Helm-Chart hinzugefügt. PR
Zusätzliche Umgebungsvariablen (`extraEnvVars`) zum Helm-Deployment hinzugefügt. PR

Demo

Probieren Sie es noch heute in der Demo-Instanz aus. heute

Vollständiger Git-Diff

Sehen Sie den vollständigen Git-Diff seit v1.65.4-stable hier

v1.65.4-stable

5. April 2025

Krrish Dholakia

CEO, LiteLLM

Ishaan Jaffer

CTO, LiteLLM

Diese Version bereitstellen

Docker
Pip

docker run litellm
docker run
-e STORE_MODEL_IN_DB=True
-p 4000:4000
ghcr.io/berriai/litellm:main-v1.65.4-stable

pip install litellm

pip install litellm==1.65.4.post1

v1.65.4-stable ist live. Hier sind die Verbesserungen seit v1.65.0-stable.

Wichtige Highlights

Datenbank-Deadlocks verhindern: Behebt ein Problem bei hohem Datenverkehr, wenn mehrere Instanzen gleichzeitig in die Datenbank schrieben.
Neuer Nutzungs-Tab: Ermöglicht die Anzeige der Ausgaben nach Modell und die Anpassung des Datumsbereichs

Tauchen wir ein.

Datenbank-Deadlocks verhindern

Diese Version behebt das Problem mit Datenbank-Deadlocks, das Benutzer bei hohem Datenverkehr (10.000+ RPS) hatten. Das ist großartig, da die Ausgabenverfolgung nach Benutzer/Schlüssel/Team auch bei dieser Skalierung funktioniert.

Lesen Sie mehr über die neue Architektur hier

Neuer Nutzungs-Tab

Der neue Nutzungs-Tab bietet nun die Möglichkeit, tägliche Ausgaben pro Modell zu verfolgen. Dies erleichtert das Erkennen von Fehlern bei der Ausgabenverfolgung oder der Token-Zählung, in Kombination mit der Möglichkeit, erfolgreiche Anfragen und die Token-Nutzung anzuzeigen.

Um dies auszuprobieren, gehen Sie einfach zu Experimentell > Neuer Nutzungs-Tab > Aktivität.

Neue Modelle / Aktualisierte Modelle

Databricks - `claude-3-7-sonnet` Kostenverfolgung. PR
VertexAI - Kostenverfolgung für `gemini-2.5-pro-exp-03-25`. PR
VertexAI - Kostenverfolgung für `gemini-2.0-flash`. PR
Groq - Whisper ASR-Modelle zur Kostenübersicht hinzugefügt. PR
IBM - `watsonx/ibm/granite-3-8b-instruct` zur Kostenübersicht hinzugefügt. PR
Google AI Studio - `gemini/gemini-2.5-pro-preview-03-25` zur Kostenübersicht hinzugefügt. PR

LLM-Übersetzung

Vertex AI - `anyOf`-Parameter für OpenAI JSON-Schema-Übersetzung unterstützt. Erste Schritte
Anthropic - `response_format` + `thinking`-Parameter-Unterstützung (funktioniert über Anthropic API, Bedrock, Vertex). Erste Schritte
Anthropic - Wenn `thinking`-Token angegeben sind und `max_tokens` nicht, stellen Sie sicher, dass `max_token` für Anthropic höher ist als die `thinking`-Token (funktioniert über Anthropic API, Bedrock, Vertex). PR
Bedrock - Latenzoptimierte Inferenzunterstützung. Erste Schritte
Sagemaker - Sonderzeichen + Mehrbyte-Zeichencode in der Antwort verarbeiten. Erste Schritte
MCP - Unterstützung für die Verwendung von SSE MCP-Servern hinzugefügt. Erste Schritte
Anthropic - neue `litellm.messages.create`-Schnittstelle zum Aufrufen von Anthropic `/v1/messages` über Passthrough. Erste Schritte
Anthropic - `file`-Inhaltstyp im Nachrichtenparameter unterstützt (funktioniert über Anthropic API, Bedrock, Vertex). Erste Schritte
Anthropic - `openai 'reasoning_effort'` auf Anthropic `thinking`-Parameter abgebildet (funktioniert über Anthropic API, Bedrock, Vertex). Erste Schritte
Google AI Studio (Gemini) -[BETA] `/v1/files` Upload-Unterstützung. Erste Schritte
Azure - Tool-Aufrufe von `o-series` korrigiert. Erste Schritte
Einheitliche Datei-ID -[ALPHA]Mehrere Anbieter mit derselben Datei-ID aufrufen. PR
- Dies ist experimentell und wird für den Produktionsgebrauch nicht empfohlen.
- Wir planen, nächste Woche eine produktionsreife Implementierung zu haben.
Google AI Studio (Gemini) - `logprobs` zurückgeben. PR
Anthropic - Prompt Caching für Anthropic Tool Calls unterstützen. Erste Schritte
OpenRouter - Zusätzlichen Body bei OpenRouter-Aufrufen entpacken. PR
VertexAI - Problem mit dem Caching von Anmeldedaten korrigiert. PR
XAI - Parameter 'name' für XAI herausfiltern. PR
Gemini - Unterstützung für Bildgenerierungsausgabe. Erste Schritte
Databricks - Unterstützung für `claude-3-7-sonnet` mit `thinking` + `response_format`. Erste Schritte

Verbesserungen bei der Ausgabenverfolgung

Zuverlässigkeitsfix - Überprüft gesendete und empfangene Modelle für die Kostenberechnung. PR
Vertex AI - Multimodal Embedding Kostenverfolgung. Erste Schritte, PR

Management Endpunkte / UI

Neuer Nutzungs-Tab
- `total_tokens` melden + erfolgreiche/fehlgeschlagene Aufrufe melden
- Doppelte Balken beim Scrollen entfernen
- Sicherstellen, dass das Diagramm "Tägliche Ausgaben" von frühestem bis spätestem Datum sortiert ist
- Ausgaben pro Modell pro Tag anzeigen
- Key-Alias im Nutzungs-Tab anzeigen
- Nicht-Admins erlauben, ihre Aktivität einzusehen
- Datumsselektor zum neuen Nutzungs-Tab hinzufügen
Virtuelle Schlüssel-Tab
- 'Standard-Schlüssel' bei Benutzerregistrierung entfernen
- Anzeige der für die Erstellung persönlicher Schlüssel verfügbaren Benutzermodelle korrigiert
Test Key Tab
- Testen von Bildgenerierungsmodellen ermöglichen
Modell-Tab
- Massenhaftes Hinzufügen von Modellen korrigiert
- Wiederverwendbare Anmeldedaten für Passthrough-Endpunkte unterstützen
- Teammitgliedern erlauben, Teammodelle anzuzeigen
Team-Tab
- JSON-Serialisierungsfehler bei der Aktualisierung von Team-Metadaten korrigiert
Request Logs Tab
- Verfolgung von `reasoning_content`-Tokens über alle Anbieter hinweg beim Streaming hinzufügen
API
- Key-Alias unter `/user/daily/activity` zurückgeben. Erste Schritte
SSO
- Zuweisung von SSO-Benutzern zu Teams bei MSFT SSO ermöglichen. PR

Logging / Guardrail Integrationen

Konsolenprotokolle - JSON-Formatierung für nicht abgefangene Ausnahmen hinzugefügt. PR
Guardrails - AIM Guardrails Unterstützung für virtuelle Schlüssel-basierte Richtlinien. Erste Schritte
Logging - Startzeit der Vervollständigung korrekt verfolgt. PR
Prometheus
- Authentifizierung an Prometheus `/metrics`-Endpunkten ermöglichen. PR
- Unterscheidung zwischen LLM-Provider-Ausnahme und LiteLLM-Ausnahme bei der Metrikbenennung. PR
- Betriebsmetriken für die neue DB-Transaktionsarchitektur ausgeben. PR

Leistungs-/Loadbalancing-/Zuverlässigkeitsverbesserungen

Deadlocks verhindern
- Reduzierung von DB-Deadlocks durch Speicherung von Ausgabenaktualisierungen in Redis und anschließendes Commit in die DB. PR
- Sicherstellen, dass keine Deadlocks beim Aktualisieren von `DailyUserSpendTransaction` auftreten. PR
- High-Traffic-Fix - Sicherstellen, dass die neue DB + Redis-Architektur die Ausgaben korrekt verfolgt. PR
- Verwendung von Redis für den PodLock Manager anstelle von PG (stellt sicher, dass keine Deadlocks auftreten). PR
- v2 DB Deadlock Reduzierungsarchitektur – Hinzufügen von Max Size für In-Memory Queue + Backpressure Mechanismus. PR
Prisma Migrationen. Erste Schritte
- Verbindet den LiteLLM Proxy mit den Prisma Migrationsdateien von LiteLLM.
- Verarbeitung von DB-Schema-Updates aus dem neuen `litellm-proxy-extras`-SDK.
Redis - Passwortunterstützung für synchrone Sentinel-Clients. PR
Behebung des Fehlers "Circular reference detected" bei `max_parallel_requests = 0`. PR
Code QA - Hartecodierte Zahlen verbannen. PR

Helm

Fix: Falsche Einrückung von `ttlSecondsAfterFinished` im Chart. PR

Allgemeine Proxy-Verbesserungen

Fix - Nur `service_account_settings.enforced_params` bei Service-Konten anwenden. PR
Fix - Behandlung von `metadata` Null bei `/chat/completion`. PR
Fix - Protokollierung von täglichen Benutzer-Transaktionen außerhalb des `disable_spend_logs`-Flags verschieben, da sie nicht zusammenhängen. PR

Demo

Probieren Sie es noch heute in der Demo-Instanz aus. heute

Vollständiger Git-Diff

Sehen Sie den vollständigen Git-Diff seit v1.65.0-stable hier

v1.65.0-stable - Model Context Protocol

30. März 2025

Krrish Dholakia

CEO, LiteLLM

Ishaan Jaffer

CTO, LiteLLM

v1.65.0-stable ist jetzt live. Hier sind die wichtigsten Highlights dieser Version

MCP-Unterstützung: Unterstützung für die Hinzufügung und Verwendung von MCP-Servern im LiteLLM-Proxy.
UI zeigt Gesamtverbrauch nach 1 Mio.+ Logs an: Sie können nun Nutzungsanalysen anzeigen, nachdem Sie 1 Mio.+ Logs in der DB überschritten haben.

Model Context Protocol (MCP)

Diese Version führt die Unterstützung für die zentrale Hinzufügung von MCP-Servern zu LiteLLM ein. Dies ermöglicht es Ihnen, MCP-Server-Endpunkte hinzuzufügen und Ihre Entwickler können MCP-Tools über LiteLLM `list` und `call`.

Lesen Sie mehr über MCP hier.

MCP-Server über LiteLLM verfügbar machen und nutzen

UI zeigt Gesamtverbrauch nach 1 Mio.+ Logs an

Diese Version bietet die Möglichkeit, die Gesamtnutzungsanalysen auch nach Überschreitung von 1 Million+ Logs in Ihrer Datenbank anzuzeigen. Wir haben eine skalierbare Architektur implementiert, die nur aggregierte Nutzungsdaten speichert, was zu deutlich effizienteren Abfragen und einer reduzierten CPU-Auslastung der Datenbank führt.

Gesamtverbrauch nach 1 Mio.+ Logs anzeigen

So funktioniert es
- Wir aggregieren nun Nutzungsdaten in einer dedizierten `DailyUserSpend`-Tabelle, was die Abfragelast und die CPU-Auslastung auch über 1 Million+ Logs hinaus erheblich reduziert.

Daily Spend Breakdown API

Granulare tägliche Nutzungsdaten (nach Modell, Anbieter und API-Schlüssel) mit einem einzigen Endpunkt abrufen. Beispielanfrage

Daily Spend Breakdown API
curl -L -X GET 'https://:4000/user/daily/activity?start_date=2025-03-20&end_date=2025-03-27' \
-H 'Authorization: Bearer sk-...'

Daily Spend Breakdown API-Antwort
{
    "results": [
        {
            "date": "2025-03-27",
            "metrics": {
                "spend": 0.0177072,
                "prompt_tokens": 111,
                "completion_tokens": 1711,
                "total_tokens": 1822,
                "api_requests": 11
            },
            "breakdown": {
                "models": {
                    "gpt-4o-mini": {
                        "spend": 1.095e-05,
                        "prompt_tokens": 37,
                        "completion_tokens": 9,
                        "total_tokens": 46,
                        "api_requests": 1
                },
                "providers": { "openai": { ... }, "azure_ai": { ... } },
                "api_keys": { "3126b6eaf1...": { ... } }
            }
        }
    ],
    "metadata": {
        "total_spend": 0.7274667,
        "total_prompt_tokens": 280990,
        "total_completion_tokens": 376674,
        "total_api_requests": 14
    }
}

Neue Modelle / Aktualisierte Modelle

Unterstützung für Vertex AI `gemini-2.0-flash-lite` & Google AI Studio `gemini-2.0-flash-lite`. PR
Unterstützung für Vertex AI Fine-Tuned LLMs. PR
Nova Canvas Bildgenerierungsunterstützung. PR
OpenAI `gpt-4o-transcribe`-Unterstützung. PR
Neues Vertex AI Text-Embedding-Modell hinzugefügt. PR

LLM-Übersetzung

OpenAI Web Search Tool Call-Unterstützung. PR
Vertex AI `topLogprobs`-Unterstützung. PR
Unterstützung für das Senden von Bildern und Videos an Vertex AI Multimodal Embedding. Doku
Unterstützung für `litellm.api_base` für Vertex AI + Gemini über Completion, Embedding, Image Generation. PR
Fehlerbehebung bei der Rückgabe von `response_cost` bei Verwendung des LiteLLM Python SDK mit LiteLLM Proxy. PR
Unterstützung für `max_completion_tokens` bei der Mistral API. PR
Refaktorierung der Vertex AI Passthrough-Routen - behebt unvorhersehbares Verhalten bei der automatischen Einstellung von `default_vertex_region` beim Hinzufügen von Router-Modellen. PR

Verbesserungen bei der Ausgabenverfolgung

`api_base` in Spend Logs protokollieren. PR
Unterstützung für die Kostenverfolgung von Gemini-Audio-Tokens. PR
Kostenverfolgung für OpenAI-Audio-Input-Tokens korrigiert. PR

UI

Modellverwaltung

Team-Admins wurde erlaubt, Modelle über die UI hinzuzufügen/zu aktualisieren/zu löschen. PR
`supports_web_search` auf dem Modell-Hub rendern hinzugefügt. PR

Request Logs

API-Basis und Modell-ID in Request Logs anzeigen. PR
Anzeige von Key-Informationen in Request Logs ermöglichen. PR

Nutzungs-Tab

Tägliche aggregierte Ausgabenansicht hinzugefügt - ermöglicht die Funktion des UI-Nutzungs-Tabs bei > 1 Mio. Zeilen. PR
UI mit der Ausgaben-Tabelle "LiteLLM_DailyUserSpend" verbunden. PR

Logging-Integrationen

StandardLoggingPayload für GCS Pub Sub Logging Integration korrigiert. PR
`litellm_model_name` in `StandardLoggingPayload` verfolgen. Dokumentation

Leistungs- / Zuverlässigkeitsverbesserungen

LiteLLM Redis semantische Caching-Implementierung. PR
Ausnahmen beim Ausfall der Datenbank gnädig behandeln. PR
Pods starten und `/health/readiness` übergeben, wenn `allow_requests_on_db_unavailable: True` und die DB nicht verfügbar ist. PR

Allgemeine Verbesserungen

Unterstützung für die Bereitstellung von MCP-Tools auf dem LiteLLM Proxy. PR
Unterstützung für die Erkennung von Gemini, Anthropic, xAI Modellen durch Aufruf ihres `/v1/model`-Endpunkts. PR
Routenprüfung für Nicht-Proxy-Admins bei JWT-Authentifizierung korrigiert. PR
Baseline Prisma-Datenbankmigrationen hinzugefügt. PR
Alle Wildcard-Modelle unter `/model/info` anzeigen. PR

Sicherheit

`next` von 14.2.21 auf 14.2.25 im UI-Dashboard aktualisiert. PR

Vollständiger Git-Diff

Hier ist der vollständige Git-Diff

v1.65.0 - Team Model Add - update

28. März 2025

Krrish Dholakia

CEO, LiteLLM

Ishaan Jaffer

CTO, LiteLLM

v1.65.0 aktualisiert den Endpunkt `/model/new`, um zu verhindern, dass Nicht-Team-Admins Teammodelle erstellen.

Das bedeutet, dass nur Proxy-Admins oder Team-Admins Teammodelle erstellen können.

Zusätzliche Änderungen

Ermöglicht Team-Admins, `/model/update` aufzurufen, um Teammodelle zu aktualisieren.
Ermöglicht Team-Admins, `/model/delete` aufzurufen, um Teammodelle zu löschen.
Führt den neuen Parameter `user_models_only` für `/v2/model/info` ein - gibt nur Modelle zurück, die von diesem Benutzer hinzugefügt wurden.

Diese Änderungen ermöglichen es Team-Admins, Modelle für ihr Team über die LiteLLM UI + API hinzuzufügen und zu verwalten.

v1.63.14-stable

22. März 2025

Krrish Dholakia

CEO, LiteLLM

Ishaan Jaffer

CTO, LiteLLM

Dies sind die Änderungen seit v1.63.11-stable.

Diese Version bringt

LLM-Übersetzungsverbesserungen (MCP-Unterstützung und Bedrock Application Profiles)
Leistungsverbesserungen für nutzungsbasiertes Routing
Streaming-Guardrail-Unterstützung über WebSockets
Azure OpenAI Client-Leistungsfix (aus der vorherigen Version)

Docker Run LiteLLM Proxy

docker run
-e STORE_MODEL_IN_DB=True
-p 4000:4000
ghcr.io/berriai/litellm:main-v1.63.14-stable.patch1

Demo-Instanz

Hier ist eine Demo-Instanz, um Änderungen zu testen

Instanz: https://demo.litellm.ai/
Anmeldedaten
- Benutzername: admin
- Passwort: sk-1234

Neue Modelle / Aktualisierte Modelle

Azure gpt-4o - Preise auf die neuesten globalen Preise korrigiert - PR
O1-Pro - Preise + Modellinformationen hinzugefügt - PR
Azure AI - Mistral 3.1 Small-Preise hinzugefügt - PR
Azure - gpt-4.5-preview-Preise hinzugefügt - PR

LLM-Übersetzung

Neue LLM-Funktionen

Bedrock: Bedrock Application Inference Profiles unterstützen. Dokumentation
- AWS-Region aus Bedrock Application Profile ID ableiten - (arn:aws:bedrock:us-east-1:...)
Ollama - Aufruf über `/v1/completions` unterstützen. Erste Schritte
Bedrock - Modellnamen `us.deepseek.r1-v1:0` unterstützen. Dokumentation
OpenRouter - `OPENROUTER_API_BASE` Umgebungsvariablen-Unterstützung. Dokumentation
Azure - Parameterunterstützung für Audiomodelle hinzugefügt - Dokumentation
OpenAI - PDF-Dateiunterstützung. Dokumentation
OpenAI - `o1-pro` Streaming-Unterstützung für Antworten-API. Dokumentation
[BETA]MCP - MCP-Tools mit LiteLLM SDK verwenden. Dokumentation

Fehlerbehebungen

Voyage: Prompt-Token bei Embedding-Tracking-Fix - PR
Sagemaker - Fehler 'Too little data for declared Content-Length' korrigiert - PR
OpenAI-kompatible Modelle - Problem bei Aufrufen von OpenAI-kompatiblen Modellen mit gesetztem `custom_llm_provider` behoben - PR
VertexAI - Unterstützung für 'outputDimensionality' bei Embeddings - PR
Anthropic - konsistentes JSON-Antwortformat bei Streaming/Nicht-Streaming zurückgeben - PR

Verbesserungen bei der Ausgabenverfolgung

litellm_proxy/ - Lesen des LiteLLM-Antwortkost-Headers vom Proxy unterstützen, wenn das Client-SDK verwendet wird
Reset Budget Job - Budget-Reset-Fehler bei Schlüsseln/Teams/Benutzern korrigiert. PR
Streaming - Verhindert, dass der letzte Chunk mit Nutzung ignoriert wird (betraf Bedrock Streaming + Kostenverfolgung). PR

UI

Benutzerseite
- Funktion: Standard-Internen-Benutzereinstellungen steuern. PR
Icons
- Funktion: Externe "artificialanalysis.ai"-Icons durch lokale SVGs ersetzen. PR
Anmelden/Abmelden
- Fix: Standard-Login, wenn der Benutzer `default_user_id` nicht in der DB existiert. PR

Logging-Integrationen

Unterstützung für Post-Call-Guardrails für Streaming-Antworten. Erste Schritte
Arize. Erste Schritte
- Ungültigen Paketimport behoben. PR
- Migration zur Verwendung von `StandardLoggingPayload` für Metadaten, um sicherzustellen, dass Spans erfolgreich landen. PR
- Logging korrigiert, um nur die LLM-Ein-/Ausgaben zu protokollieren. PR
- Dynamische API-Key-/Space-Parameterunterstützung. Erste Schritte
StandardLoggingPayload - `litellm_model_name` in der Payload protokollieren. Ermöglicht die Kenntnis des Modells, das an den API-Anbieter gesendet wurde. Erste Schritte
Prompt-Management - Erstellung eigener Prompt-Management-Integrationen ermöglichen. Erste Schritte

Leistungs- / Zuverlässigkeitsverbesserungen

Redis Caching - Standard-Timeout von 5 Sekunden hinzugefügt, verhindert, dass hängende Redis-Verbindungen LLM-Aufrufe beeinträchtigen. PR
Deaktivieren aller Ausgaben-Updates / -Schreibvorgänge in die DB ermöglichen - Patch zur Deaktivierung aller Ausgaben-Updates in die DB mit einem Flag. PR
Azure OpenAI - Azure OpenAI Client korrekt wiederverwenden, behebt Leistungsprobleme aus der vorherigen Stable-Version. PR
Azure OpenAI - `litellm.ssl_verify` bei Azure/OpenAI Clients verwenden. PR
Nutzungsbasiertes Routing - Wildcard-Modell-Unterstützung. Erste Schritte
Nutzungsbasiertes Routing - Batch-Schreiben von Inkrementen nach Redis unterstützen - reduziert die Latenz auf das Niveau von 'simple-shuffle'. PR
Router - Grund für die Modellabkühlung bei der Fehlermeldung "no healthy deployments available" anzeigen. PR
Caching - Maximale Item-Größe im In-Memory-Cache (1 MB) hinzufügen - verhindert OOM-Fehler bei großen Bild-URLs, die über den Proxy gesendet werden. PR

Allgemeine Verbesserungen

Passthrough-Endpunkte - Rückgabe von `api-base` in Passthrough-Endpunkt-Antwortheadern unterstützen. Dokumentation
SSL - Lesen des SSL-Sicherheitslevels aus der Umgebungsvariable unterstützen - Ermöglicht dem Benutzer, niedrigere Sicherheitseinstellungen festzulegen. Erste Schritte
Anmeldedaten - Nur die Credentials-Tabelle abfragen, wenn `STORE_MODEL_IN_DB` True ist. PR
Bild-URL-Verarbeitung - Neue Architektur-Dokumentation zur Bild-URL-Verarbeitung. Dokumentation
OpenAI - Upgrade auf `pip install "openai==1.68.2"`. PR
Gunicorn - Sicherheitsfix - Bump `gunicorn==23.0.0`. PR

Vollständiger Git-Diff

Hier ist der vollständige Git-Diff

v1.63.11-stable

15. März 2025

Krrish Dholakia

CEO, LiteLLM

Ishaan Jaffer

CTO, LiteLLM

Dies sind die Änderungen seit v1.63.2-stable.

Diese Version konzentriert sich hauptsächlich auf

[Beta]Responses API-Unterstützung
Snowflake Cortex Unterstützung, Amazon Nova Bildgenerierung
UI - Anmeldedatenverwaltung, Wiederverwendung von Anmeldedaten beim Hinzufügen neuer Modelle
UI - Testen der Verbindung zum LLM-Anbieter vor dem Hinzufügen eines Modells

Bekannte Probleme

🚨 Bekanntes Problem bei Azure OpenAI - Wir empfehlen kein Upgrade, wenn Sie Azure OpenAI verwenden. Diese Version ist bei unserem Azure OpenAI Lasttest fehlgeschlagen.

Docker Run LiteLLM Proxy

docker run
-e STORE_MODEL_IN_DB=True
-p 4000:4000
ghcr.io/berriai/litellm:main-v1.63.11-stable

Demo-Instanz

Hier ist eine Demo-Instanz, um Änderungen zu testen

Instanz: https://demo.litellm.ai/
Anmeldedaten
- Benutzername: admin
- Passwort: sk-1234

Neue Modelle / Aktualisierte Modelle

Bildgenerierungsunterstützung für Amazon Nova Canvas. Erste Schritte
Preise für neue Jamba-Modelle hinzugefügt. PR
Preise für Amazon EU-Modelle hinzugefügt. PR
Preise für Bedrock Deepseek R1-Modelle hinzugefügt. PR
Gemini-Preise aktualisiert: Gemma 3, Flash 2 Thinking-Update, LearnLM. PR
Cohere Embedding 3-Modelle als Multimodal markiert. PR
Azure Data Zone Preisgestaltung hinzufügen PR
- LiteLLM verfolgt Kosten für Modelle in azure/eu und azure/us

LLM-Übersetzung

Neue Endpunkte

[Beta]POST /responses API. Erste Schritte

Neue LLM-Anbieter

Snowflake Cortex Erste Schritte

Neue LLM-Funktionen

Unterstützt reasoning_content von OpenRouter beim Streaming Erste Schritte

Fehlerbehebungen

OpenAI: Gibt code, param und type bei fehlerhaften Anfragen zurück Weitere Informationen zu litellm-Ausnahmen
Bedrock: Korrigiert das Parsen von Converse-Chunks, um bei Tool-Nutzung nur ein leeres Dict zurückzugeben PR
Bedrock: Unterstützt extra_headers PR
Azure: Korrigiert Funktionsaufruf-Bug & aktualisiert Standard-API-Version auf 2025-02-01-preview PR
Azure: Korrigiert URL für KI-Dienste PR
Vertex AI: Behandelt HTTP-Statuscode 201 in der Antwort PR
Perplexity: Korrigiert falsche Streaming-Antwort PR
Triton: Korrigiert Bug bei Streaming-Abschlüssen PR
Deepgram: Unterstützt Bytes.IO beim Verarbeiten von Audiodateien für Transkriptionen PR
Ollama: Korrigiert "system"-Rolle, die inakzeptabel geworden ist PR
Alle Anbieter (Streaming): Korrigiert, dass der String data: aus dem gesamten Inhalt gestreamter Antworten entfernt wurde PR

Verbesserungen bei der Ausgabenverfolgung

Unterstützt Bedrock Converse Cache Token Tracking Erste Schritte
Kostenverfolgung für Responses API Erste Schritte
Korrigiert Kostenverfolgung für Azure Whisper Erste Schritte

UI

Anmeldeinformationen in der UI wiederverwenden

Sie können jetzt LLM-Anbieteranmeldeinformationen in der LiteLLM UI integrieren. Sobald diese Anmeldeinformationen hinzugefügt wurden, können Sie sie beim Hinzufügen neuer Modelle wiederverwenden Erste Schritte

Verbindungen testen, bevor Modelle hinzugefügt werden

Bevor Sie ein Modell hinzufügen, können Sie die Verbindung zum LLM-Anbieter testen, um zu überprüfen, ob Sie Ihre API-Basis + API-Schlüssel korrekt eingerichtet haben.

Allgemeine UI-Verbesserungen

Modelle hinzufügen-Seite
- Ermöglicht das Hinzufügen von Cerebras-, Sambanova-, Perplexity-, Fireworks-, Openrouter-, TogetherAI-Modellen, Text-Completion OpenAI im Admin-UI
- Ermöglicht das Hinzufügen von EU-OpenAI-Modellen
- Behebung: Bearbeiten und Löschen von Modellen sofort anzeigen
Schlüssel-Seite
- Behebung: Neu erstellte Schlüssel sofort im Admin-UI anzeigen (kein Aktualisieren erforderlich)
- Behebung: Ermöglicht das Klicken auf Top-Schlüssel, wenn Benutzer den Top-API-Schlüssel angezeigt werden
- Behebung: Ermöglicht das Filtern von Schlüsseln nach Team-Alias, Schlüssel-Alias und Org
- UI-Verbesserungen: 100 Schlüssel pro Seite anzeigen, volle Höhe nutzen, Breite des Schlüssel-Alias erhöhen
Benutzerseite
- Behebung: Korrekte Anzahl interner Benutzerschlüssel auf der Benutzerseite anzeigen
- Behebung: Metadaten werden in der Team-UI nicht aktualisiert
Protokolle-Seite
- UI-Verbesserungen: Erweitertes Protokoll im Fokus auf LiteLLM UI halten
- UI-Verbesserungen: Kleinere Verbesserungen auf der Protokollseite
- Behebung: Ermöglicht internen Benutzern, ihre eigenen Protokolle abzufragen
- Speicherung von Fehlerprotokollen in der DB ausschalten Erste Schritte
Anmelden/Abmelden
- Behebung: Korrekte Verwendung von PROXY_LOGOUT_URL, wenn gesetzt Erste Schritte

Sicherheit

Unterstützung für rotierende Master-Schlüssel Erste Schritte
Behebung: Berechtigungen für interne Benutzeransichten, die Rolle internal_user_viewer darf nicht die Test Key Page oder den Create Key Button sehen Weitere Informationen zu rollenbasierter Zugriffskontrolle
Audit-Protokolle für alle Benutzer- und Modellerstellungs-/Update-/Lösch-Endpunkte ausgeben Erste Schritte
JWT
- Unterstützung für mehrere JWT OIDC-Anbieter Erste Schritte
- Behebung: JWT-Zugriff mit Gruppen funktioniert nicht, wenn einem Team Zugriff auf alle Proxy-Modelle zugewiesen ist
Verwendung von K/V-Paaren in einem AWS-Secret Erste Schritte

Logging-Integrationen

Prometheus: Metrik für die Latenz der Azure LLM-API verfolgen Erste Schritte
Athina: Tags, Benutzerfeedback und Modelloptionen zu additional_keys hinzugefügt, die an Athina gesendet werden können Erste Schritte

Leistungs- / Zuverlässigkeitsverbesserungen

Redis + litellm router - Korrigiert Redis-Cluster-Modus für litellm-Router PR

Allgemeine Verbesserungen

OpenWebUI-Integration - thinking-Token anzeigen

Anleitung für den Einstieg in LiteLLM x OpenWebUI. Erste Schritte
thinking-Token auf OpenWebUI anzeigen (Bedrock, Anthropic, Deepseek) Erste Schritte

Vollständiger Git-Diff

Hier ist der vollständige Git-Diff

v1.63.2-stable

8. März 2025

Krrish Dholakia

CEO, LiteLLM

Ishaan Jaffer

CTO, LiteLLM

Dies sind die Änderungen seit v1.61.20-stable.

Diese Version konzentriert sich hauptsächlich auf

Verbesserungen der LLM-Übersetzung (weitere Verbesserungen bei thinking-Inhalten)
UI-Verbesserungen (Fehlerprotokolle werden jetzt in der UI angezeigt)

Info

Diese Version wird am 03.09.2025 live gehen.

Demo-Instanz

Hier ist eine Demo-Instanz, um Änderungen zu testen

Instanz: https://demo.litellm.ai/
Anmeldedaten
- Benutzername: admin
- Passwort: sk-1234

Neue Modelle / Aktualisierte Modelle

supports_pdf_input für spezifische Bedrock Claude-Modelle hinzufügen PR
Preise für Amazon eu-Modelle hinzufügen PR
Azure O1 Mini-Preise korrigieren PR

LLM-Übersetzung

Unterstützt /openai/-Passthrough für Assistant-Endpunkte. Erste Schritte
Bedrock Claude - Korrigiert Tool-Calling-Transformation auf dem Invoke-Endpunkt. Erste Schritte
Bedrock Claude - response_format-Unterstützung für Claude auf dem Invoke-Endpunkt. Erste Schritte
Bedrock - description weitergeben, wenn in response_format gesetzt. Erste Schritte
Bedrock - Korrigiert das Übergeben von response_format: {"type": "text"}. PR
OpenAI - Handhabt das Senden von image_url als String an OpenAI. Erste Schritte
Deepseek - gibt reasoning_content zurück, das beim Streaming fehlt. Erste Schritte
Caching - Unterstützt Caching für Reasoning-Inhalte. Erste Schritte
Bedrock - Verarbeitet thinking-Blöcke in der Assistant-Nachricht. Erste Schritte
Anthropic - gibt signature beim Streaming zurück. Erste Schritte

Hinweis: Wir sind auch von signature_delta zu signature migriert. Mehr lesen

Unterstützt den Parameter format zur Angabe des Bildtyps. Erste Schritte
Anthropic - Endpunkt /v1/messages - Unterstützung für den Parameter thinking. Erste Schritte

Hinweis: Dies refaktoriert den[BETA]vereinheitlichten /v1/messages-Endpunkt, um nur für die Anthropic API zu funktionieren.

Vertex AI - verarbeitet $id im Antwortschema bei Aufruf von Vertex AI. Erste Schritte

Verbesserungen bei der Ausgabenverfolgung

Batches API - Korrigiert Kostenberechnung für die Ausführung bei retrieve_batch. Erste Schritte
Batches API - Protokolliert Batch-Modelle in Spend-Protokollen / Standard-Logging-Payload. Erste Schritte

Management Endpunkte / UI

Virtuelle Schlüssel-Seite
- Ermöglicht durchsuchbare Team-/Org-Filter auf der Erstellen-Schlüssel-Seite
- Felder created_by und updated_by zur Schlüssel-Tabelle hinzugefügt
- Zeigt 'user_email' in der Schlüssel-Tabelle an
- 100 Schlüssel pro Seite anzeigen, volle Höhe nutzen, Breite des Schlüssel-Alias erhöhen
Protokolle-Seite
- Fehlerprotokolle auf der LiteLLM UI anzeigen
- Internen Benutzern erlauben, ihre eigenen Protokolle anzuzeigen
Interne Benutzer-Seite
- Administratoren erlauben, den Standardmodellzugriff für interne Benutzer zu steuern
Sitzungsverwaltung mit Cookies korrigiert

Logging / Guardrail Integrationen

Korrigiert Prometheus-Metriken mit benutzerdefinierten Metriken, wenn Schlüssel mit team_id Anfragen stellen. PR

Leistungs-/Loadbalancing-/Zuverlässigkeitsverbesserungen

Wartezeiten - Unterstützt Wartezeiten bei Modellen, die mit clientseitigen Anmeldeinformationen aufgerufen werden. Erste Schritte
Tag-basierte Weiterleitung - stellt tag-basierte Weiterleitung über alle Endpunkte sicher (/embeddings, /image_generation, etc.). Erste Schritte

Allgemeine Proxy-Verbesserungen

Löst BadRequestError aus, wenn ein unbekanntes Modell in der Anfrage übergeben wird
Erzwingt Modellzugriffsbeschränkungen für die Azure OpenAI-Proxy-Route
Zuverlässigkeitskorrektur - Handhabt Emojis in Texten - behebt orjson-Fehler
Modellzugriffs-Patch - überschreibt litellm.anthropic_models nicht beim Ausführen von Authentifizierungsprüfungen
Zeitzoninforamtionen im Docker-Image einstellen

Vollständiger Git-Diff

Hier ist der vollständige Git-Diff

v1.63.0 - Anthropic 'thinking' response update

5. März 2025

Krrish Dholakia

CEO, LiteLLM

Ishaan Jaffer

CTO, LiteLLM

v1.63.0 behebt die Anthropic 'thinking'-Antwort beim Streaming, um den signature-Block zurückzugeben. Github-Problem

Außerdem wird die Antwortstruktur von signature_delta zu signature geändert, um mit Anthropic übereinzustimmen. Anthropic Docs

Diff

"message": {
    ...
    "reasoning_content": "The capital of France is Paris.",
    "thinking_blocks": [
        {
            "type": "thinking",
            "thinking": "The capital of France is Paris.",
-            "signature_delta": "EqoBCkgIARABGAIiQL2UoU0b1OHYi+..." # 👈 OLD FORMAT
+            "signature": "EqoBCkgIARABGAIiQL2UoU0b1OHYi+..." # 👈 KEY CHANGE
        }
    ]
}

v1.61.20-stable

1. März 2025

Krrish Dholakia

CEO, LiteLLM

Ishaan Jaffer

CTO, LiteLLM

Dies sind die Änderungen seit v1.61.13-stable.

Diese Version konzentriert sich hauptsächlich auf

Verbesserungen der LLM-Übersetzung (Unterstützung für claude-3-7-sonnet + 'thinking'/'reasoning_content')
UI-Verbesserungen (Modell-Hinzufügen-Fluss, Benutzerverwaltung usw.)

Demo-Instanz

Hier ist eine Demo-Instanz, um Änderungen zu testen

Instanz: https://demo.litellm.ai/
Anmeldedaten
- Benutzername: admin
- Passwort: sk-1234

Neue Modelle / Aktualisierte Modelle

Unterstützung für Anthropic 3-7 sonnet + Kostenverfolgung (Anthropic API + Bedrock + Vertex AI + OpenRouter)
1. Anthropic API Hier starten
2. Bedrock API Hier starten
3. Vertex AI API Hier ansehen
4. OpenRouter Hier ansehen
Unterstützung für Gpt-4.5-preview + Kostenverfolgung Hier ansehen
Azure AI - Phi-4 Kostenverfolgung Hier ansehen
Claude-3.5-sonnet - Vision-Unterstützung auf Anthropic API aktualisiert Hier ansehen
Bedrock Llama Vision-Unterstützung Hier ansehen
Cerebras llama3.3-70b Preisgestaltung Hier ansehen

LLM-Übersetzung

Infinity Rerank - Unterstützt die Rückgabe von Dokumenten, wenn return_documents=True Hier starten
Amazon Deepseek - Extraktion des <think>-Parameters in 'reasoning_content' Hier starten
Amazon Titan Embeddings - Filtert 'aws_'-Parameter aus dem Anfragekörper heraus Hier starten
Anthropic 'thinking' + 'reasoning_content' Übersetzungsunterstützung (Anthropic API, Bedrock, Vertex AI) Hier starten
VLLM - unterstützt 'video_url' Hier starten
Proxy über litellm SDK aufrufen: Unterstützt litellm_proxy/ für Embeddings, Bilderzeugung, Transkription, Sprache, Reranking Hier starten
OpenAI Pass-through - Ermöglicht die Verwendung von Assistants GET, DELETE auf /openai Pass-through-Routen Hier starten
Nachrichtenübersetzung - Korrigiert OpenAI-Nachricht für Assistant-Nachrichten, wenn die Rolle fehlt - OpenAI erlaubt dies
O1/O3 - unterstützt 'drop_params' für o3-mini und den o1 parallel_tool_calls-Parameter (derzeit nicht unterstützt) Hier ansehen

Verbesserungen bei der Ausgabenverfolgung

Kostenverfolgung für Rerank über Bedrock PR ansehen
Anthropic Pass-through - behebt Race Condition, die dazu führt, dass Kosten nicht verfolgt werden PR ansehen
Anthropic Pass-through: Genaue Tokenzählung sicherstellen PR ansehen

Management Endpunkte / UI

Modellseite - Modelle nach "erstellt am" sortieren
Modellseite - Verbesserungen des Modell-Bearbeitungsflusses
Modellseite - Behebung des Hinzufügens von Azure-, Azure AI Studio-Modellen in der UI
Interne Benutzerseite - Massenhaftes Hinzufügen von internen Benutzern in der UI ermöglichen
Interne Benutzerseite - Benutzer nach "erstellt am" sortieren
Virtuelle Schlüssel-Seite - Benutzer-IDs auf dem Dropdown-Menü beim Zuweisen eines Benutzers zu einem Team durchsuchbar machen PR ansehen
Virtuelle Schlüssel-Seite - Ermöglicht das Erstellen eines Benutzers bei der Zuweisung von Schlüsseln an Benutzer PR ansehen
Model Hub-Seite - Problem mit Textüberlauf behoben PR ansehen
Admin-Einstellungen-Seite - MSFT SSO in der UI hinzufügen
Backend - doppelte interne Benutzer in der DB nicht erstellen

Helm

unterstützt ttlSecondsAfterFinished für den Migrationsjob - PR ansehen
Migrationsjob mit zusätzlichen konfigurierbaren Eigenschaften verbessern - PR ansehen

Logging / Guardrail Integrationen

Arize Phoenix Unterstützung
'no-log' - Korrigiert die Unterstützung des 'no-log'-Parameters bei Embedding-Aufrufen

Leistungs-/Loadbalancing-/Zuverlässigkeitsverbesserungen

Single Deployment Cooldown-Logik - Verwendet allowed_fails oder allowed_fail_policy, falls gesetzt Hier starten

Allgemeine Proxy-Verbesserungen

Hypercorn - Korrigiert das Lesen/Parsen des Anfragekörpers
Windows - Korrigiert das Ausführen des Proxys unter Windows
DD-Trace - Korrigiert die Aktivierung von dd-trace im Proxy

Vollständiger Git-Diff

Vollständiges Git-Diff hier ansehen hier.

v1.59.8-stable

31. Januar 2025

Krrish Dholakia

CEO, LiteLLM

Ishaan Jaffer

CTO, LiteLLM

Info

Erhalten Sie hier einen 7-tägigen kostenlosen Test für LiteLLM Enterprise hier.

kein Aufruf erforderlich

Neue Modelle / Aktualisierte Modelle

Neuer OpenAI /image/variations Endpunkt BETA-Unterstützung Docs
Topaz API-Unterstützung auf dem OpenAI /image/variations BETA-Endpunkt Docs
Deepseek - r1-Unterstützung mit reasoning_content (Deepseek API, Vertex AI, Bedrock)
Azure - Azure O1-Preise hinzufügen Hier ansehen
Anthropic - -latest-Tag im Modell für die Kostenberechnung handhaben
Gemini-2.0-flash-thinking - Modellpreise hinzufügen (es sind 0,0) Hier ansehen
Bedrock - Preise für das Modell stability sd3 hinzufügen Hier ansehen (s/o Marty Sullivan)
Bedrock - us.amazon.nova-lite-v1:0 zur Modellkosten-Map hinzufügen Hier ansehen
TogetherAI - neue Together_AI Llama3.3-Modelle hinzufügen Hier ansehen

LLM-Übersetzung

LM Studio -> asynchronen Embedding-Aufruf korrigieren
Gpt 4o Modelle - Übersetzung von response_format korrigieren
Bedrock Nova - unterstützte Dokumenttypen auf .md, .csv usw. erweitern Hier starten
Bedrock - Dokumente zur IAM-rollenbasierter Zugriffskontrolle für Bedrock - Hier starten
Bedrock - IAM-Rollenanmeldeinformationen bei Verwendung cachen
Google AI Studio (gemini/) - unterstützt 'frequency_penalty' und 'presence_penalty' von Gemini
Azure O1 - Modellnamensprüfung korrigieren
WatsonX - ZenAPIKey-Unterstützung für WatsonX Docs
Ollama Chat - Unterstützung für JSON-Schema-Antwortformat Hier starten
Bedrock - gibt den korrekten Bedrock-Statuscode und die Fehlermeldung zurück, wenn ein Fehler während des Streamings auftritt
Anthropic - unterstützte verschachtelte JSON-Schemata in Anthropic-Aufrufen
OpenAI - Vorschauunterstützung für den metadata-Parameter
1. SDK - aktivieren über litellm.enable_preview_features = True
2. PROXY - aktivieren über litellm_settings::enable_preview_features: true
Replicate - Completion-Antwort bei Status=processing erneut versuchen

Verbesserungen bei der Ausgabenverfolgung

Bedrock - QA-Assertions, dass alle Bedrock-Regionenmodelle die gleichen supported_ wie das Basismodell haben
Bedrock - Kostenverfolgung für Bedrock Converse mit angegebenem Regionsnamen korrigieren
Zuverlässigkeitskorrektur von Spend Logs - wenn user im Anfragekörper als Integer statt als String übergeben wird
Stellt sicher, dass die Kostenverfolgung für 'base_model' über alle Endpunkte hinweg funktioniert
Korrekturen für die Kostenverfolgung bei Bilderzeugung
Anthropic - Kostenverfolgung für Endbenutzer von Anthropic korrigieren
JWT / OIDC Auth - Verfolgung der Endbenutzer-ID aus der JWT-Authentifizierung hinzufügen

Management Endpunkte / UI

Ermöglicht es Teammitgliedern, nach dem Hinzufügen Administrator zu werden (UI + Endpunkte)
Neue Schaltfläche "Bearbeiten/Löschen" zum Aktualisieren der Teammitgliedschaft in der UI
Wenn Team-Admin - zeigt alle Team-Schlüssel an
Model Hub - Kosten von Modellen pro 1 Mio. Token verdeutlichen
Einladungslinks - Ungültige URL korrigieren
Neu - SpendLogs Table Viewer - Ermöglicht Proxy-Admins das Anzeigen von Spend-Protokollen in der UI
1. Neue Spend-Protokolle - Ermöglicht Proxy-Admins, das Protokollieren von Anfragen/Antworten in der Spend-Protokoll-Tabelle zu aktivieren - ermöglicht einfachere Missbrauchserkennung
2. Herkunftsland in Spend-Protokollen anzeigen
3. Paginierung + Filterung nach Schlüsselname/Teamname hinzufügen
/key/delete - Ermöglicht Team-Admins das Löschen von Team-Schlüsseln
Interner Benutzer "Ansicht" - Spendkalkulation korrigieren, wenn ein Team ausgewählt ist
Modellanalysen sind jetzt kostenlos
Nutzungsseite - zeigt Tage mit Spenden = 0 an und rundet Spenden in Diagrammen auf 2 signifikante Stellen
Öffentliche Teams - Ermöglicht Administratoren, Teams für neue Benutzer zum "Beitreten" in der UI anzuzeigen - Hier starten
Guardrails
1. Guardrails für einen virtuellen Schlüssel festlegen/bearbeiten
2. Guardrails für ein Team festlegen
3. Guardrails auf der Erstellungs- und Bearbeitungsseite für Teams festlegen
Unterstützt temporäre Budgeterhöhungen bei /key/update - neue Felder temp_budget_increase und temp_budget_expiry - Hier starten
Unterstützt das Schreiben neuer Schlüssel-Aliase in AWS Secret Manager - bei Schlüsselrotation Hier starten

Helm

securityContext und pull policy-Werte zum Migrationsjob hinzufügen (s/o https://github.com/Hexoplon)
Umgebungsvariablen in values.yaml festlegen
neuer Helm Lint-Test

Logging / Guardrail Integrationen

Verwendeten Prompt protokollieren, wenn Prompt-Management verwendet wird. Hier starten
Unterstützung für S3-Protokollierung mit Team-Alias-Präfixen - Hier starten
Prometheus Hier starten
1. Korrigiert, dass die Metrik litellm_llm_api_time_to_first_token für Bedrock-Modelle nicht befüllt wird
2. Restliches Team-Budget-Metrik regelmäßig ausgeben (auch wenn kein Aufruf erfolgt) - ermöglicht stabilere Metriken auf Grafana/etc.
3. Schlüssel- und Teamebene-Budget-Metriken hinzufügen
4. litellm_overhead_latency_metric ausgeben
5. litellm_team_budget_reset_at_metric und litellm_api_key_budget_remaining_hours_metric ausgeben
Datadog - Unterstützt das Protokollieren von Spend-Tags in Datadog. Hier starten
Langfuse - Protokollierung von Request-Tags korrigieren, aus Standard-Logging-Payload lesen
GCS - Payload bei der Protokollierung nicht abschneiden
Neue GCS Pub/Sub Logging-Unterstützung Hier starten
AIM Guardrails-Unterstützung hinzufügen Hier starten

Sicherheit

Neue Enterprise SLA für die Behebung von Sicherheitslücken. Hier ansehen
Hashicorp - Unterstützt die Verwendung von Vault-Namespaces für TLS-Authentifizierung. Hier starten
Azure - DefaultAzureCredential-Unterstützung

Health Checks

Bereinigt Modellnamen nur für Preise aus der Wildcard-Routenliste - verhindert fehlerhafte Health Checks
Ermöglicht die Angabe eines Health-Check-Modells für Wildcard-Routen - https://docs.litellm.de/docs/proxy/health#wildcard-routes
Neuer Parameter health_check_timeout mit einem Standard-Oberlimit von 1 Minute, um zu verhindern, dass ein fehlerhaftes Modell den Health Check blockiert und Pod-Neustarts verursacht. Hier starten
Datadog - fügt Datadog Service Health Check hinzu + stellt den neuen Endpunkt /health/services bereit. Hier starten

Leistungs- / Zuverlässigkeitsverbesserungen

3x Erhöhung der RPS - Wechsel zu orjson für das Lesen des Anfragekörpers
LLM-Routing-Beschleunigung - Verwendung von gecachtem Modellgruppeninformationsabruf
SDK-Beschleunigung - Verwendung von gecachtem Modellinformationshelfer - reduziert CPU-Arbeit für den Abruf von Modellinformationen
Proxy-Beschleunigung - liest den Anfragekörper nur 1 Mal pro Anfrage
Skripte zur Erkennung von Endlosschleifen zum Codebase hinzugefügt
Bedrock - reine asynchrone Bildtransformationsanfragen
Wartezeiten - Einzelnes Deployment-Modellgruppe, wenn 100% der Aufrufe bei hohem Datenverkehr fehlschlagen - verhindert, dass ein O1-Ausfall andere Aufrufe beeinträchtigt
Antwort-Header - geben Sie zurück
1. x-litellm-timeout
2. x-litellm-attempted-retries
3. x-litellm-overhead-duration-ms
4. x-litellm-response-duration-ms
Stellt sicher, dass keine doppelten Rückrufe zum Proxy hinzugefügt werden
Requirements.txt - certifi-Version erhöhen

Allgemeine Proxy-Verbesserungen

JWT / OIDC Auth - neuer Parameter enforce_rbac, ermöglicht Proxy-Admin, alle nicht zugeordneten, aber authentifizierten JWT-Tokens vom Aufruf des Proxys abzuhalten. Hier starten
Korrigiert die Generierung von benutzerdefinierten OpenAPI-Schemas für angepasste Swagger-Docs
Anfrage-Header - unterstützt das Lesen des Parameters x-litellm-timeout aus den Anfrage-Headern. Ermöglicht die Steuerung der Modell-Timeout-Zeit bei Verwendung von Vercel's AI SDK + LiteLLM Proxy. Hier starten
JWT / OIDC Auth - neue role-basierte Berechtigungen für die Modellauthentifizierung. Hier ansehen

Vollständiger Git-Diff

Dies ist der Diff zwischen v1.57.8-stable und v1.59.8-stable.

Verwenden Sie dies, um die Änderungen im Codebase zu sehen.

Git Diff

v1.59.0

17. Januar 2025

Krrish Dholakia

CEO, LiteLLM

Ishaan Jaffer

CTO, LiteLLM

Info

Erhalten Sie hier einen 7-tägigen kostenlosen Test für LiteLLM Enterprise hier.

kein Aufruf erforderlich

UI-Verbesserungen

[Opt-in]Admin UI - Nachrichten / Antworten anzeigen

Sie können jetzt Nachrichten- und Antwortprotokolle in der Admin UI anzeigen.

So aktivieren Sie es - fügen Sie store_prompts_in_spend_logs: true zu Ihrer proxy_config.yaml hinzu

Sobald dieses Flag aktiviert ist, werden Ihre messages und responses in der Tabelle LiteLLM_Spend_Logs gespeichert.

general_settings:
  store_prompts_in_spend_logs: true

Datenbankschema-Änderung

messages und responses zur Tabelle LiteLLM_Spend_Logs hinzugefügt.

Standardmäßig wird dies nicht protokolliert. Wenn Sie möchten, dass messages und responses protokolliert werden, müssen Sie sich mit dieser Einstellung anmelden.

general_settings:
  store_prompts_in_spend_logs: true

v1.57.8-stable

11. Januar 2025

Krrish Dholakia

CEO, LiteLLM

Ishaan Jaffer

CTO, LiteLLM

alerting, prometheus, secret management, management endpoints, ui, prompt management, finetuning, batch

Neue / Aktualisierte Modelle

Mistral Large Preisgestaltung - https://github.com/BerriAI/litellm/pull/7452
Cohere command-r7b-12-2024 Preisgestaltung - https://github.com/BerriAI/litellm/pull/7553/files
Voyage - neue Modelle, Preise und Kontextfensterinformationen - https://github.com/BerriAI/litellm/pull/7472
Anthropic - max_output_tokens für Bedrock Claude-3-5-Haiku auf 8192 erhöhen

Allgemeine Proxy-Verbesserungen

Health-Check-Unterstützung für Echtzeitmodelle
Unterstützt das Aufrufen von Azure-Echtzeitrouten über virtuelle Schlüssel
Unterstützt benutzerdefinierte Tokenizer auf /utils/token_counter - nützlich beim Überprüfen der Token-Anzahl für selbst gehostete Modelle
Anforderungspriorisierung - unterstützt auch auf dem /v1/completion-Endpunkt

LLM-Übersetzungsverbesserungen

Deepgram STT-Unterstützung. Hier starten
OpenAI Moderationen - Unterstützung für omni-moderation-latest. Hier starten
Azure O1 - Fake-Streaming-Unterstützung. Dies stellt sicher, dass die Antwort gestreamt wird, wenn stream=true übergeben wird. Hier starten
Anthropic - Behandlung von Nicht-Leerzeichen-Zeichen als Stoppsequenz - PR
Azure OpenAI - Unterstützung für die Authentifizierung basierend auf Benutzername + Passwort von Entra ID. Hier starten
LM Studio - Embedding-Routen-Unterstützung. Hier starten
WatsonX - ZenAPIKeyAuth-Unterstützung. Hier starten

Prompt Management Verbesserungen

Langfuse-Integration
HumanLoop-Integration
Unterstützung für die Verwendung von Lastverteilungsmodellen
Unterstützung für das Laden optionaler Parameter aus dem Prompt-Manager

Hier starten

Finetuning + Batch API Verbesserungen

Verbesserte einheitliche Endpunktunterstützung für Vertex AI Finetuning - PR
Unterstützung für den Abruf von Vertex API Batch-Jobs hinzufügen - PR

NEUE Alerting-Integration

PagerDuty Alerting-Integration.

Behandelt zwei Arten von Alarmen

Hohe Ausfallrate der LLM-API. Konfigurieren Sie X Fehler in Y Sekunden, um einen Alarm auszulösen.
Hohe Anzahl von hängenden LLM-Anfragen. Konfigurieren Sie X Hänger in Y Sekunden, um einen Alarm auszulösen.

Hier starten

Prometheus Verbesserungen

Unterstützung für die Verfolgung von Latenz/Ausgaben/Tokens basierend auf benutzerdefinierten Metriken hinzugefügt. Hier starten

NEUE Hashicorp Secret Manager Unterstützung

Unterstützung für das Lesen von Anmeldeinformationen + Schreiben von LLM-API-Schlüsseln. Hier starten

Management-Endpunkte / UI-Verbesserungen

Organisationen erstellen und anzeigen + Organisationsadministratoren in der Proxy-UI zuweisen
Unterstützt das Löschen von Schlüsseln nach key_alias
Teams der Organisation in der UI zuweisen
Verhindert die Verwendung des UI-Sitzungs-Tokens für den "Testschlüssel"-Bereich
Anzeige des verwendeten Modells im "Testschlüssel"-Bereich
Unterstützt Markdown-Ausgabe im "Testschlüssel"-Bereich

Helm-Verbesserungen

Verhindert Istio-Injection für den DB-Migrations-Cronjob
migrationJob.enabled-Variable innerhalb des Jobs verwenden

Logging-Verbesserungen

braintrust logging: project_id berücksichtigen, mehr Metriken hinzufügen - https://github.com/BerriAI/litellm/pull/7613
Athina - Basis-URL unterstützen - ATHINA_BASE_URL
Lunary - Übergabe einer benutzerdefinierten übergeordneten Ausführungs-ID an LLM-Aufrufe zulassen

Git-Diff

Dies ist der Diff zwischen v1.56.3-stable und v1.57.8-stable.

Verwenden Sie dies, um die Änderungen im Codebase zu sehen.

Git Diff

v1.57.7

10. Januar 2025

Krrish Dholakia

CEO, LiteLLM

Ishaan Jaffer

CTO, LiteLLM

langfuse, Management-Endpunkte, UI, prometheus, Geheimnisverwaltung

Langfuse Prompt Management

Langfuse Prompt Management wird als BETA gekennzeichnet. Dies ermöglicht uns, schnell auf Feedback zu reagieren, das wir erhalten, und den Status für Benutzer klarer zu gestalten. Wir erwarten, dass diese Funktion nächsten Monat (Februar 2025) stabil sein wird.

Änderungen

Die Client-Nachricht in der LLM API-Anfrage einschließen. (Zuvor wurde nur die Prompt-Vorlage gesendet, und die Client-Nachricht wurde ignoriert).
Protokollieren Sie die Prompt-Vorlage in der protokollierten Anfrage (z. B. nach S3/Langfuse).
Protokollieren Sie die 'prompt_id' und 'prompt_variables' in der protokollierten Anfrage (z. B. nach S3/Langfuse).

Hier starten

Team-/Organisationsverwaltung + UI-Verbesserungen

Die Verwaltung von Teams und Organisationen in der Benutzeroberfläche ist jetzt einfacher.

Änderungen

Unterstützung für die Bearbeitung von Benutzerrollen innerhalb eines Teams in der Benutzeroberfläche.
Unterstützung für die Aktualisierung der Rolle eines Teammitglieds auf Administrator über die API - /team/member_update
Team-Administratoren zeigen alle Schlüssel für ihr Team an.
Organisationen mit Budgets hinzufügen
Teams Organisationen auf der Benutzeroberfläche zuweisen
SSO-Benutzer automatisch Teams zuweisen

Hier starten

Hashicorp Vault Unterstützung

Wir unterstützen jetzt das Schreiben von LiteLLM Virtual API-Schlüsseln in Hashicorp Vault.

Hier starten

Benutzerdefinierte Prometheus-Metriken

Definieren Sie benutzerdefinierte Prometheus-Metriken und verfolgen Sie Nutzung/Latenz/Anzahl der Anfragen dagegen.

Dies ermöglicht eine feinere Verfolgung - z. B. basierend auf der im Metadaten der Anfrage übergebenen Prompt-Vorlage.

Hier starten

v1.57.3 - New Base Docker Image

8. Januar 2025

Krrish Dholakia

CEO, LiteLLM

Ishaan Jaffer

CTO, LiteLLM

Docker-Image, Sicherheit, Schwachstelle

0 kritische/hohe Schwachstellen

Was hat sich geändert?

Das LiteLLMBase-Image verwendet jetzt cgr.dev/chainguard/python:latest-dev

Warum die Änderung?

Um sicherzustellen, dass es 0 kritische/hohe Schwachstellen im LiteLLM Docker-Image gibt.

Migrationsanleitung

Wenn Sie ein benutzerdefiniertes Dockerfile mit litellm als Basis-Image + apt-get verwenden.

Verwenden Sie anstelle von apt-get apk, da das Basis-LiteLLM-Image kein apt-get mehr installiert hat.

Sie sind nur betroffen, wenn Sie apt-get in Ihrem Dockerfile verwenden.

# Use the provided base image
FROM ghcr.io/berriai/litellm:main-latest

# Set the working directory
WORKDIR /app

# Install dependencies - CHANGE THIS to `apk`
RUN apt-get update && apt-get install -y dumb-init 

Vor der Änderung

RUN apt-get update && apt-get install -y dumb-init

Nach der Änderung

RUN apk update && apk add --no-cache dumb-init

v1.56.4

29. Dezember 2024

Krrish Dholakia

CEO, LiteLLM

Ishaan Jaffer

CTO, LiteLLM

deepgram, fireworks ai, vision, admin-UI, Abhängigkeits-Upgrades

Neue Modelle

Deepgram Speech to Text

Neue Speech-to-Text-Unterstützung für Deepgram-Modelle. Start hier

from litellm import transcription
import os 

# set api keys 
os.environ["DEEPGRAM_API_KEY"] = ""
audio_file = open("/path/to/audio.mp3", "rb")

response = transcription(model="deepgram/nova-2", file=audio_file)

print(f"response: {response}")

Fireworks AI - Vision Unterstützung für alle Modelle

LiteLLM unterstützt das Inline-Einbetten von Dokumenten für Fireworks AI-Modelle. Dies ist nützlich für Modelle, die keine Vision-Modelle sind, aber dennoch Dokumente/Bilder usw. verarbeiten müssen. LiteLLM fügt #transform=inline zur URL des image_url hinzu, wenn das Modell kein Vision-Modell ist. Code ansehen

Proxy Admin UI

Der Tab Test Key zeigt das in der Antwort verwendete Modell an.

Der Tab Test Key rendert Inhalte im Format .md, .py (beliebiges Code-/Markdown-Format).

Abhängigkeits-Upgrades

(Sicherheitsfix) Upgrade auf fastapi==0.115.5 https://github.com/BerriAI/litellm/pull/7447

Fehlerbehebungen

Unterstützung für Health Checks für Echtzeitmodelle hinzufügen Hier
Fehler bei der Gesundheitsprüfung mit dem Modell für Audiotranskription https://github.com/BerriAI/litellm/issues/5999

v1.56.3

28. Dezember 2024

Krrish Dholakia

CEO, LiteLLM

Ishaan Jaffer

CTO, LiteLLM

guardrails, logging, virtuelles Schlüsselmanagement, neue Modelle

Info

Erhalten Sie hier einen 7-tägigen kostenlosen Test für LiteLLM Enterprise hier.

kein Aufruf erforderlich

Neue Funktionen

✨ Guardrail-Traces protokollieren

Verfolgen Sie die Fehlerrate von Guardrails und ob ein Guardrail fehlerhaft ist und Anfragen ablehnt. Start hier

Erfolgreiche Guardrail-Nachverfolgung

Fehlgeschlagene Guardrail-Nachverfolgung

`/guardrails/list`

/guardrails/list ermöglicht es Clients, verfügbare Guardrails + unterstützte Guardrail-Parameter anzuzeigen.

curl -X GET 'http://0.0.0.0:4000/guardrails/list'

Erwartete Antwort

{
    "guardrails": [
        {
        "guardrail_name": "aporia-post-guard",
        "guardrail_info": {
            "params": [
            {
                "name": "toxicity_score",
                "type": "float",
                "description": "Score between 0-1 indicating content toxicity level"
            },
            {
                "name": "pii_detection",
                "type": "boolean"
            }
            ]
        }
        }
    ]
}

✨ Guardrails mit Mock LLM

Senden Sie eine mock_response, um Guardrails zu testen, ohne einen LLM-Aufruf zu tätigen. Weitere Informationen zu mock_response finden Sie hier.

curl -i https://:4000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer sk-npnwjPQciVRok5yNZgKmFQ" \
  -d '{
    "model": "gpt-3.5-turbo",
    "messages": [
      {"role": "user", "content": "hi my email is ishaan@berri.ai"}
    ],
    "mock_response": "This is a mock response",
    "guardrails": ["aporia-pre-guard", "aporia-post-guard"]
  }'

Schlüssel Benutzern zuweisen

Sie können jetzt Schlüssel über die Proxy-Benutzeroberfläche Benutzern zuweisen.

Neue Modelle

openrouter/openai/o1
vertex_ai/mistral-large@2411

Korrekturen

Preise für vertex_ai/ mistral-Modelle korrigiert: https://github.com/BerriAI/litellm/pull/7345
Fehlendes Feld model_group in Protokollen für aspeech-Aufruftypen https://github.com/BerriAI/litellm/pull/7392

v1.56.1

27. Dezember 2024

Krrish Dholakia

CEO, LiteLLM

Ishaan Jaffer

CTO, LiteLLM

Schlüsselverwaltung, Budgets/Ratenbegrenzungen, Protokollierung, Guardrails

Info

Erhalten Sie hier einen 7-tägigen kostenlosen Test für LiteLLM Enterprise hier.

kein Aufruf erforderlich

✨ Budget-/Ratenbegrenzungsschichten

Definieren Sie Schichten mit Ratenbegrenzungen. Weisen Sie sie Schlüsseln zu.

Verwenden Sie dies, um den Zugriff und die Budgets über viele Schlüssel hinweg zu steuern.

Start hier

curl -L -X POST 'http://0.0.0.0:4000/budget/new' \
-H 'Authorization: Bearer sk-1234' \
-H 'Content-Type: application/json' \
-d '{
    "budget_id": "high-usage-tier",
    "model_max_budget": {
        "gpt-4o": {"rpm_limit": 1000000}
    }
}'

OTEL-Fehlerbehebung

LiteLLM hat den litellm_request-Span doppelt protokolliert. Dies ist jetzt behoben.

Relevante PR

Protokollierung für Finetuning-Endpunkte

Protokolle für Finetuning-Anfragen sind jetzt bei allen Protokollierungsanbietern (z. B. Datadog) verfügbar.

Was wird pro Anfrage protokolliert

file_id
finetuning_job_id
Alle Schlüssel-/Team-Metadaten

Hier starten

Dynamische Parameter für Guardrails

Sie können jetzt benutzerdefinierte Parameter (wie Erfolgsschwelle) für Ihre Guardrails in jeder Anfrage festlegen.

Weitere Details finden Sie in der Guardrails-Spezifikation.

v1.55.10

24. Dezember 2024

Krrish Dholakia

CEO, LiteLLM

Ishaan Jaffer

CTO, LiteLLM

Batches, Guardrails, Teamverwaltung, benutzerdefinierte Authentifizierung

Info

Erhalten Sie hier eine kostenlose 7-tägige LiteLLM Enterprise Testversion. Start hier

Kein Aufruf erforderlich

✨ Kostenverfolgung, Protokollierung für Batch-API (`/batches`)

Verfolgen Sie Kosten und Nutzung für Batch-Erstellungsaufträge. Start hier

✨ `/guardrails/list` Endpunkt

Zeigen Sie verfügbare Guardrails für Benutzer an. Start hier

✨ Teams erlauben, Modelle hinzuzufügen

Dies ermöglicht es Team-Administratoren, ihre eigenen feinabgestimmten Modelle über den LiteLLM-Proxy aufzurufen. Start hier

✨ Allgemeine Prüfungen für benutzerdefinierte Authentifizierung

Der Aufruf der internen common_checks-Funktion in der benutzerdefinierten Authentifizierung ist jetzt als Enterprise-Funktion vorgeschrieben. Dies ermöglicht Administratoren, die Standard-Budget-/Authentifizierungsprüfungen von LiteLLM innerhalb ihrer benutzerdefinierten Authentifizierungsimplementierung zu nutzen. Start hier

✨ Zuweisung von Team-Administratoren

Team-Administratoren wechseln aus der Beta-Phase in unsere Enterprise-Stufe. Dies ermöglicht Proxy-Administratoren, anderen die Verwaltung von Schlüsseln/Modellen für ihre eigenen Teams zu gestatten (nützlich für Produktionsprojekte). Start hier

v1.55.8-stable

22. Dezember 2024

Krrish Dholakia

CEO, LiteLLM

Ishaan Jaffer

CTO, LiteLLM

Eine neue LiteLLM Stable-Version wurde gerade veröffentlicht. Hier sind 5 Updates seit v1.52.2-stable.

langfuse, Fallbacks, neue Modelle, azure_storage

Langfuse Prompt Management

Dies erleichtert das Ausführen von Experimenten oder das Ändern spezifischer Modelle wie gpt-4o zu gpt-4o-mini auf Langfuse, anstatt Änderungen in Ihren Anwendungen vorzunehmen. Start hier

Fallback-Prompts clientseitig steuern

Claude-Prompts unterscheiden sich von OpenAI-Prompts.

Übergabe von modellspezifischen Prompts bei der Verwendung von Fallbacks. Start hier

Neue Anbieter / Modelle

/infer-Endpunkt für NVIDIA Triton. Start hier
Rerank-Modelle von Infinity Start hier

✨ Unterstützung für Azure Data Lake Storage

Senden Sie LLM-Nutzungsdaten (Ausgaben, Token) an Azure Data Lake. Dies erleichtert die Nutzung von Nutzungsdaten auf anderen Diensten (z. B. Databricks) Start hier

Docker Run LiteLLM

docker run \
-e STORE_MODEL_IN_DB=True \
-p 4000:4000 \
ghcr.io/berriai/litellm:litellm_stable_release_branch-v1.55.8-stable

Tägliche Updates erhalten

LiteLLM veröffentlicht täglich neue Versionen. Folgen Sie uns auf LinkedIn, um tägliche Updates zu erhalten.

Diese Version bereitstellen​

Wichtige Highlights​

Gemini Realtime API​

Aufbewahrungsfrist für Ausgabenprotokolle​

PII Masking 2.0​

Neue Modelle / Aktualisierte Modelle​

LLM API Endpoints​

Verbesserungen bei der Ausgabenverfolgung​

Management Endpunkte / UI​

Logging / Alerting Integrationen​

Guardrails​

Leistungs-/Loadbalancing-/Zuverlässigkeitsverbesserungen​

Allgemeine Proxy-Verbesserungen​

Neue Mitwirkende​

Demo-Instanz​

Diese Version bereitstellen​

Wichtige Highlights​

Batch API Load Balancing​

E-Mail-Einladungen​

Neue Modelle / Aktualisierte Modelle​

LLM API Endpoints​

Verbesserungen bei der Ausgabenverfolgung / Budget​

Management Endpunkte / UI​

Logging / Guardrail Integrationen​

Leistungs- / Zuverlässigkeitsverbesserungen​

Allgemeine Proxy-Verbesserungen​

Neue Mitwirkende​

Diese Version bereitstellen​

Wichtige Highlights​

Bedrock Knowledge Base (Vektorspeicher)​

Ratenbegrenzung​

Neue Modelle / Aktualisierte Modelle​

LLM API Endpoints​

Verbesserungen bei der Ausgabenverfolgung / Budget​

Management Endpunkte / UI​

Logging / Guardrail Integrationen​

Leistungs-/Loadbalancing-/Zuverlässigkeitsverbesserungen​

Allgemeine Proxy-Verbesserungen​

Diese Version bereitstellen​

Wichtige Highlights​

Verbessertes Benutzermanagement​

Responses API Load Balancing​

UI-Sitzungsprotokolle​

Neue Modelle / Aktualisierte Modelle​

Verbesserungen bei der Ausgabenverfolgung​

Management Endpunkte / UI​

Benutzer​

Teams​

Schlüssel​

UI-Protokollseite​

UI-Authentifizierung & Sicherheit​

Allgemeine UI-Korrekturen​

Logging / Guardrail Integrationen​

Allgemeine Proxy-Verbesserungen​

Helm​

Vollständige Changelog​

Wichtige Highlights​

SCIM-Integration​

Team- und Tag-basierte Nutzungsverfolgung​

Vereinheitlichte Responses API​

Neue Modelle / Aktualisierte Modelle​

Verbesserungen bei der Ausgabenverfolgung​

Management Endpunkte / UI​

Logging / Guardrail Integrationen​

Allgemeine Proxy-Verbesserungen​

Diese Version bereitstellen​

Wichtige Highlights​

Echtzeit-API-Kostenverfolgung​

Microsoft SSO automatische Synchronisierung​

Neue Modelle / Aktualisierte Modelle​

Verbesserungen bei der Ausgabenverfolgung​

Management Endpunkte / UI​

Verbesserungen bei Logging / Guardrails.​

Sicherheitskorrekturen.​

Helm​

Demo​

Vollständiger Git-Diff​

Diese Version bereitstellen​

Wichtige Highlights​

Datenbank-Deadlocks verhindern​

Diese Version bereitstellen

Wichtige Highlights

Gemini Realtime API

Aufbewahrungsfrist für Ausgabenprotokolle

PII Masking 2.0

Neue Modelle / Aktualisierte Modelle

LLM API Endpoints

Verbesserungen bei der Ausgabenverfolgung

Management Endpunkte / UI

Logging / Alerting Integrationen

Guardrails

Leistungs-/Loadbalancing-/Zuverlässigkeitsverbesserungen

Allgemeine Proxy-Verbesserungen

Neue Mitwirkende

Demo-Instanz

Diese Version bereitstellen

Wichtige Highlights

Batch API Load Balancing

E-Mail-Einladungen

Neue Modelle / Aktualisierte Modelle

LLM API Endpoints

Verbesserungen bei der Ausgabenverfolgung / Budget

Management Endpunkte / UI

Logging / Guardrail Integrationen

Leistungs- / Zuverlässigkeitsverbesserungen

Allgemeine Proxy-Verbesserungen

Neue Mitwirkende

Diese Version bereitstellen

Wichtige Highlights

Bedrock Knowledge Base (Vektorspeicher)

Ratenbegrenzung

Neue Modelle / Aktualisierte Modelle

LLM API Endpoints

Verbesserungen bei der Ausgabenverfolgung / Budget

Management Endpunkte / UI

Logging / Guardrail Integrationen

Leistungs-/Loadbalancing-/Zuverlässigkeitsverbesserungen

Allgemeine Proxy-Verbesserungen

Diese Version bereitstellen

Wichtige Highlights

Verbessertes Benutzermanagement

Responses API Load Balancing

UI-Sitzungsprotokolle

Neue Modelle / Aktualisierte Modelle

Verbesserungen bei der Ausgabenverfolgung

Management Endpunkte / UI

Benutzer

Teams

Schlüssel

UI-Protokollseite

UI-Authentifizierung & Sicherheit

Allgemeine UI-Korrekturen

Logging / Guardrail Integrationen

Allgemeine Proxy-Verbesserungen

Helm

Vollständige Changelog

Wichtige Highlights

SCIM-Integration

Team- und Tag-basierte Nutzungsverfolgung

Vereinheitlichte Responses API

Neue Modelle / Aktualisierte Modelle

Verbesserungen bei der Ausgabenverfolgung

Management Endpunkte / UI

Logging / Guardrail Integrationen

Allgemeine Proxy-Verbesserungen

Diese Version bereitstellen

Wichtige Highlights

Echtzeit-API-Kostenverfolgung

Microsoft SSO automatische Synchronisierung

Neue Modelle / Aktualisierte Modelle

Verbesserungen bei der Ausgabenverfolgung

Management Endpunkte / UI

Verbesserungen bei Logging / Guardrails.

Sicherheitskorrekturen.

Helm

Demo

Vollständiger Git-Diff

Diese Version bereitstellen

Wichtige Highlights

Datenbank-Deadlocks verhindern