v1.70.1-stable - Gemini Realtime API Support

17. Mai 2025

Krrish Dholakia

CEO, LiteLLM

Ishaan Jaffer

CTO, LiteLLM

Diese Version bereitstellen

Docker
Pip

docker run litellm
docker run
-e STORE_MODEL_IN_DB=True
-p 4000:4000
ghcr.io/berriai/litellm:main-v1.70.1-stable

pip install litellm

pip install litellm==1.70.1

Wichtige Highlights

LiteLLM v1.70.1-stable ist jetzt verfügbar. Hier sind die wichtigsten Highlights dieser Version

Gemini Realtime API: Sie können jetzt die Live-API von Gemini über die OpenAI /v1/realtime API aufrufen
Aufbewahrungsfrist für Ausgabenprotokolle: Ermöglicht das Löschen von Ausgabenprotokollen, die älter als ein bestimmter Zeitraum sind.
PII Masking 2.0: Konfigurieren Sie einfach das Maskieren oder Blockieren spezifischer PII/PHI-Entitäten über die Benutzeroberfläche

Gemini Realtime API

Diese Version bietet Unterstützung für den Aufruf der Echtzeitmodelle von Gemini (z. B. gemini-2.0-flash-live) über die Echtzeit-API von OpenAI (/v1/realtime). Dies ist großartig für Entwickler, da sie einfach von OpenAI zu Gemini wechseln können, indem sie nur den Modellnamen ändern.

Wichtige Highlights

Unterstützung für Text- und Audioeingabe/-ausgabe
Unterstützung für die Einstellung von Sitzungskonfigurationen (Modalität, Anweisungen, Aktivitätserkennung) im OpenAI-Format
Unterstützung für Protokollierung und Nutzungsnachverfolgung für Echtzeitsitzungen

Dies wird derzeit über Google AI Studio unterstützt. Wir planen, die VertexAI-Unterstützung in der kommenden Woche zu veröffentlichen.

Mehr erfahren

Aufbewahrungsfrist für Ausgabenprotokolle

Diese Version ermöglicht das Löschen von LiteLLM-Ausgabenprotokollen, die älter als ein bestimmter Zeitraum sind. Da wir nun das Speichern von Rohanfragen/-antworten in den Protokollen ermöglichen, sorgt das Löschen alter Protokolle dafür, dass die Datenbank in der Produktion performant bleibt.

Mehr erfahren

PII Masking 2.0

Diese Version bringt Verbesserungen an unserer Presidio PII Integration. Als Proxy-Administrator haben Sie jetzt die Möglichkeit,

Spezifische Entitäten maskieren oder blockieren (z. B. medizinische Lizenzen blockieren, während andere Entitäten wie E-Mails maskiert werden).
Überwachung von Guardrails in der Produktion. LiteLLM-Protokolle zeigen Ihnen jetzt den Guardrail-Lauf, die erkannten Entitäten und deren Konfidenz für jede Entität an.

Mehr erfahren

Neue Modelle / Aktualisierte Modelle

Gemini (VertexAI + Google AI Studio)
- /chat/completion
  - Audioeingabe verarbeiten - PR
  - Behebt das Problem der maximalen Rekursionstiefe bei Verwendung tief verschachtelter Antwortschemata mit Vertex AI durch Erhöhung von DEFAULT_MAX_RECURSE_DEPTH von 10 auf 100 in den Konstanten. PR
  - Erfassung von Reasoning-Tokens im Streaming-Modus - PR
Google AI Studio
- /realtime
  - Unterstützung für Gemini Multimodal Live API
  - Unterstützung für Audioeingabe/-ausgabe, optionale Parameterzuordnung, genaue Nutzungsberechnung - PR
VertexAI
- /chat/completion
  - Behebt Llama-Streaming-Fehler - bei dem die Modellantwort in den zurückgegebenen Streaming-Chunks verschachtelt war - PR
Ollama
- /chat/completion
  - Strukturierte Antworten beheben - PR
Bedrock
- /chat/completion
  - Behebt die Handhabung von `thinking_blocks`, wenn `assistant.content` None ist - PR
  - Korrekturen, um nur akzeptierte Felder für die Tool-JSON-Schema zuzulassen - PR
  - Hinzufügen von Kosteninformationen für Bedrock Sonnet Prompt Caching
  - Mistral Pixtral-Unterstützung - PR
  - Tool-Caching-Unterstützung - PR
- /messages
  - Ermöglicht die Verwendung dynamischer AWS-Parameter - PR
Nvidia NIM
- /chat/completion
  - Hinzufügen von `tools`, `tool_choice`, `parallel_tool_calls`-Unterstützung - PR
Novita AI
- Neuer Anbieter für `/chat/completion`-Routen hinzugefügt - PR
Azure
- /image/generation
  - Behebt Azure DALL-E 3 Aufruf mit benutzerdefiniertem Modellnamen - PR
Cohere
- /embeddings
  - Migration von Embeddings zur Verwendung von `/v2/embed` - fügt Unterstützung für den `output_dimensions`-Parameter hinzu - PR
Anthropic
- /chat/completion
  - Web-Suchwerkzeugunterstützung - nativer + OpenAI-Format - Erste Schritte
VLLM
- /embeddings
  - Unterstützung für Embedding-Eingaben als Liste von ganzen Zahlen
OpenAI
- /chat/completion
  - Behebt - b64-Datei-Daten-Eingabeverarbeitung - Erste Schritte
  - Fügt `supports_pdf_input` zu allen Vision-Modellen hinzu - PR

LLM API Endpoints

Antworten API
- Behebt Unterstützung für die Lösch-API - PR
Rerank API
- `/v2/rerank` ist jetzt als `llm_api_route` registriert - ermöglicht Nicht-Admins den Aufruf - PR

Verbesserungen bei der Ausgabenverfolgung

`/chat/completion`, `/messages`
- Anthropic - Kostenverfolgung für Web-Suchwerkzeuge - PR
- Groq - Aktualisierung der maximalen Token und Kosteninformationen für Modelle - PR
/audio/transcription
- Azure - Hinzufügen von gpt-4o-mini-tts-Preisen - PR
- Proxy - Korrektur der Verfolgung von Ausgaben nach Tag - PR
/embeddings
- Azure AI - Hinzufügen von Cohere Embed v4-Preisen - PR

Management Endpunkte / UI

Modelle
- Ollama - fügt `api_base`-Parameter zur Benutzeroberfläche hinzu
Logs
- Hinzufügen von Filter für Team-ID, Schlüssel-Alias, Schlüssel-Hash in Protokollen - https://github.com/BerriAI/litellm/pull/10831
- Guardrail-Tracing jetzt in der Protokoll-Benutzeroberfläche - https://github.com/BerriAI/litellm/pull/10893
Teams
- Patch zur Aktualisierung von Team-Informationen, wenn ein Team in einer Organisation ist und Mitglieder nicht in der Organisation sind - https://github.com/BerriAI/litellm/pull/10835
Guardrails
- Hinzufügen von Bedrock, Presidio, Lakers Guardrails in der Benutzeroberfläche - https://github.com/BerriAI/litellm/pull/10874
- Guardrail-Informationsseite anzeigen - https://github.com/BerriAI/litellm/pull/10904
- Guardrails in der Benutzeroberfläche bearbeiten - https://github.com/BerriAI/litellm/pull/10907
Test Key
- Guardrails in der Benutzeroberfläche auswählen zum Testen

Protokollierung / Alarmierungs-Integrationen

StandardLoggingPayload
- Protokollieren Sie `x-`-Header im Metadaten des Anforderers - Erste Schritte
- Guardrail-Tracing jetzt in der Standard-Protokoll-Nutzlast - Erste Schritte
Generischer API-Logger
- Unterstützung für die Übergabe des `application/json`-Headers
Arize Phoenix
- fix: URL-Kodierung von OTEL_EXPORTER_OTLP_TRACES_HEADERS für Phoenix Integration - PR
- Hinzufügen von Guardrail-Tracing zu OTEL, Arize Phoenix - PR
PagerDuty
- PagerDuty ist jetzt eine kostenlose Funktion - PR
Alerting
- Das Senden von Slack-Benachrichtigungen bei Aktualisierungen von virtuellen Schlüsseln/Benutzern/Teams ist jetzt kostenlos - PR

Guardrails

Guardrails
- Neuer Endpunkt `/apply_guardrail` zum direkten Testen eines Guardrails - PR
Lakera
- Unterstützung für `/v2`-Endpunkte - PR
Presidio
- Behebt die Handhabung von Nachrichteninhalt in der Presidio-Guardrail-Integration - PR
- Konfigurierbare PII-Entitäten ermöglichen - PR
Aim Security
- Unterstützung für Anonymisierung in AIM Guardrails - PR

Leistungs-/Loadbalancing-/Zuverlässigkeitsverbesserungen

Ermöglicht das Überschreiben aller Konstanten mit einer .env-Variable - PR
Maximale Aufbewahrungsfrist für Ausgabenprotokolle
- Hinzufügen eines Aufbewahrungs-Flags zur Konfiguration - PR
- Unterstützung für die Bereinigung von Protokollen basierend auf einem konfigurierten Zeitraum - PR

Allgemeine Proxy-Verbesserungen

Authentifizierung
- Behandelt `Bearer $LITELLM_API_KEY` im benutzerdefinierten Header `x-litellm-api-key` - PR
Neues Enterprise pip-Paket - `litellm-enterprise` - behebt ein Problem, bei dem der Ordner `enterprise` beim Verwenden des pip-Pakets nicht gefunden wurde
Proxy CLI
- Hinzufügen des Befehls `models import` - PR
OpenWebUI
- Konfigurieren von LiteLLM zum Parsen von Benutzerheadern von Open Web UI
LiteLLM Proxy mit LiteLLM SDK
- Option zum Erzwingen/immer Verwenden des LiteLLM-Proxys bei Aufrufen über das LiteLLM SDK

Neue Mitwirkende

@imdigitalashish leistete seinen ersten Beitrag in PR #10617
@LouisShark leistete seinen ersten Beitrag in PR #10688
@OscarSavNS leistete seinen ersten Beitrag in PR #10764
@arizedatngo leistete seinen ersten Beitrag in PR #10654
@jugaldb leistete seinen ersten Beitrag in PR #10805
@daikeren leistete seinen ersten Beitrag in PR #10781
@naliotopier leistete seinen ersten Beitrag in PR #10077
@damienpontifex leistete seinen ersten Beitrag in PR #10813
@Dima-Mediator leistete seinen ersten Beitrag in PR #10789
@igtm leistete seinen ersten Beitrag in PR #10814
@shibaboy leistete seinen ersten Beitrag in PR #10752
@camfarineau leistete seinen ersten Beitrag in PR #10629
@ajac-zero leistete seinen ersten Beitrag in PR #10439
@damgem leistete seinen ersten Beitrag in PR #9802
@hxdror leistete seinen ersten Beitrag in PR #10757
@wwwillchen leistete seinen ersten Beitrag in PR #10894

Demo-Instanz

Hier ist eine Demo-Instanz, um Änderungen zu testen

Instanz: https://demo.litellm.ai/
Anmeldedaten
- Benutzername: admin
- Passwort: sk-1234

Diese Version bereitstellen​

Wichtige Highlights​

Gemini Realtime API​

Aufbewahrungsfrist für Ausgabenprotokolle​

PII Masking 2.0​

Neue Modelle / Aktualisierte Modelle​

LLM API Endpoints​

Verbesserungen bei der Ausgabenverfolgung​

Management Endpunkte / UI​

Protokollierung / Alarmierungs-Integrationen​

Guardrails​

Leistungs-/Loadbalancing-/Zuverlässigkeitsverbesserungen​

Allgemeine Proxy-Verbesserungen​

Neue Mitwirkende​

Demo-Instanz​

Git Diff​

Diese Version bereitstellen

Wichtige Highlights

Gemini Realtime API

Aufbewahrungsfrist für Ausgabenprotokolle

PII Masking 2.0

Neue Modelle / Aktualisierte Modelle

LLM API Endpoints

Verbesserungen bei der Ausgabenverfolgung

Management Endpunkte / UI

Protokollierung / Alarmierungs-Integrationen

Guardrails

Leistungs-/Loadbalancing-/Zuverlässigkeitsverbesserungen

Allgemeine Proxy-Verbesserungen

Neue Mitwirkende

Demo-Instanz

Git Diff