Zum Hauptinhalt springen

v1.70.1-stable - Gemini Realtime API Support

Krrish Dholakia
Ishaan Jaffer

Diese Version bereitstellen​

docker run litellm
docker run
-e STORE_MODEL_IN_DB=True
-p 4000:4000
ghcr.io/berriai/litellm:main-v1.70.1-stable

Wichtige Highlights​

LiteLLM v1.70.1-stable ist jetzt verfĂĽgbar. Hier sind die wichtigsten Highlights dieser Version

  • Gemini Realtime API: Sie können jetzt die Live-API von Gemini ĂĽber die OpenAI /v1/realtime API aufrufen
  • Aufbewahrungsfrist fĂĽr Ausgabenprotokolle: Ermöglicht das Löschen von Ausgabenprotokollen, die älter als ein bestimmter Zeitraum sind.
  • PII Masking 2.0: Konfigurieren Sie einfach das Maskieren oder Blockieren spezifischer PII/PHI-Entitäten ĂĽber die Benutzeroberfläche

Gemini Realtime API​

Diese Version bietet Unterstützung für den Aufruf der Echtzeitmodelle von Gemini (z. B. gemini-2.0-flash-live) über die Echtzeit-API von OpenAI (/v1/realtime). Dies ist großartig für Entwickler, da sie einfach von OpenAI zu Gemini wechseln können, indem sie nur den Modellnamen ändern.

Wichtige Highlights

  • UnterstĂĽtzung fĂĽr Text- und Audioeingabe/-ausgabe
  • UnterstĂĽtzung fĂĽr die Einstellung von Sitzungskonfigurationen (Modalität, Anweisungen, Aktivitätserkennung) im OpenAI-Format
  • UnterstĂĽtzung fĂĽr Protokollierung und Nutzungsnachverfolgung fĂĽr Echtzeitsitzungen

Dies wird derzeit über Google AI Studio unterstützt. Wir planen, die VertexAI-Unterstützung in der kommenden Woche zu veröffentlichen.

Mehr erfahren

Aufbewahrungsfrist für Ausgabenprotokolle​

Diese Version ermöglicht das Löschen von LiteLLM-Ausgabenprotokollen, die älter als ein bestimmter Zeitraum sind. Da wir nun das Speichern von Rohanfragen/-antworten in den Protokollen ermöglichen, sorgt das Löschen alter Protokolle dafür, dass die Datenbank in der Produktion performant bleibt.

Mehr erfahren

PII Masking 2.0​

Diese Version bringt Verbesserungen an unserer Presidio PII Integration. Als Proxy-Administrator haben Sie jetzt die Möglichkeit,

  • Spezifische Entitäten maskieren oder blockieren (z. B. medizinische Lizenzen blockieren, während andere Entitäten wie E-Mails maskiert werden).
  • Ăśberwachung von Guardrails in der Produktion. LiteLLM-Protokolle zeigen Ihnen jetzt den Guardrail-Lauf, die erkannten Entitäten und deren Konfidenz fĂĽr jede Entität an.

Mehr erfahren

Neue Modelle / Aktualisierte Modelle​

  • Gemini (VertexAI + Google AI Studio)
    • /chat/completion
      • Audioeingabe verarbeiten - PR
      • Behebt das Problem der maximalen Rekursionstiefe bei Verwendung tief verschachtelter Antwortschemata mit Vertex AI durch Erhöhung von DEFAULT_MAX_RECURSE_DEPTH von 10 auf 100 in den Konstanten. PR
      • Erfassung von Reasoning-Tokens im Streaming-Modus - PR
  • Google AI Studio
    • /realtime
      • UnterstĂĽtzung fĂĽr Gemini Multimodal Live API
      • UnterstĂĽtzung fĂĽr Audioeingabe/-ausgabe, optionale Parameterzuordnung, genaue Nutzungsberechnung - PR
  • VertexAI
    • /chat/completion
      • Behebt Llama-Streaming-Fehler - bei dem die Modellantwort in den zurĂĽckgegebenen Streaming-Chunks verschachtelt war - PR
  • Ollama
    • /chat/completion
      • Strukturierte Antworten beheben - PR
  • Bedrock
    • /chat/completion
      • Behebt die Handhabung von `thinking_blocks`, wenn `assistant.content` None ist - PR
      • Korrekturen, um nur akzeptierte Felder fĂĽr die Tool-JSON-Schema zuzulassen - PR
      • HinzufĂĽgen von Kosteninformationen fĂĽr Bedrock Sonnet Prompt Caching
      • Mistral Pixtral-UnterstĂĽtzung - PR
      • Tool-Caching-UnterstĂĽtzung - PR
    • /messages
      • Ermöglicht die Verwendung dynamischer AWS-Parameter - PR
  • Nvidia NIM
    • /chat/completion
      • HinzufĂĽgen von `tools`, `tool_choice`, `parallel_tool_calls`-UnterstĂĽtzung - PR
  • Novita AI
    • Neuer Anbieter fĂĽr `/chat/completion`-Routen hinzugefĂĽgt - PR
  • Azure
  • Cohere
    • /embeddings
      • Migration von Embeddings zur Verwendung von `/v2/embed` - fĂĽgt UnterstĂĽtzung fĂĽr den `output_dimensions`-Parameter hinzu - PR
  • Anthropic
  • VLLM
    • /embeddings
      • UnterstĂĽtzung fĂĽr Embedding-Eingaben als Liste von ganzen Zahlen
  • OpenAI

LLM API Endpoints​

  • Antworten API
    • Behebt UnterstĂĽtzung fĂĽr die Lösch-API - PR
  • Rerank API
    • `/v2/rerank` ist jetzt als `llm_api_route` registriert - ermöglicht Nicht-Admins den Aufruf - PR

Verbesserungen bei der Ausgabenverfolgung​

  • `/chat/completion`, `/messages`
    • Anthropic - Kostenverfolgung fĂĽr Web-Suchwerkzeuge - PR
    • Groq - Aktualisierung der maximalen Token und Kosteninformationen fĂĽr Modelle - PR
  • /audio/transcription
    • Azure - HinzufĂĽgen von gpt-4o-mini-tts-Preisen - PR
    • Proxy - Korrektur der Verfolgung von Ausgaben nach Tag - PR
  • /embeddings
    • Azure AI - HinzufĂĽgen von Cohere Embed v4-Preisen - PR

Management Endpunkte / UI​

Protokollierung / Alarmierungs-Integrationen​

  • StandardLoggingPayload
    • Protokollieren Sie `x-`-Header im Metadaten des Anforderers - Erste Schritte
    • Guardrail-Tracing jetzt in der Standard-Protokoll-Nutzlast - Erste Schritte
  • Generischer API-Logger
    • UnterstĂĽtzung fĂĽr die Ăśbergabe des `application/json`-Headers
  • Arize Phoenix
    • fix: URL-Kodierung von OTEL_EXPORTER_OTLP_TRACES_HEADERS fĂĽr Phoenix Integration - PR
    • HinzufĂĽgen von Guardrail-Tracing zu OTEL, Arize Phoenix - PR
  • PagerDuty
    • PagerDuty ist jetzt eine kostenlose Funktion - PR
  • Alerting
    • Das Senden von Slack-Benachrichtigungen bei Aktualisierungen von virtuellen SchlĂĽsseln/Benutzern/Teams ist jetzt kostenlos - PR

Guardrails​

  • Guardrails
    • Neuer Endpunkt `/apply_guardrail` zum direkten Testen eines Guardrails - PR
  • Lakera
    • UnterstĂĽtzung fĂĽr `/v2`-Endpunkte - PR
  • Presidio
    • Behebt die Handhabung von Nachrichteninhalt in der Presidio-Guardrail-Integration - PR
    • Konfigurierbare PII-Entitäten ermöglichen - PR
  • Aim Security
    • UnterstĂĽtzung fĂĽr Anonymisierung in AIM Guardrails - PR

Leistungs-/Loadbalancing-/Zuverlässigkeitsverbesserungen​

  • Ermöglicht das Ăśberschreiben aller Konstanten mit einer .env-Variable - PR
  • Maximale Aufbewahrungsfrist fĂĽr Ausgabenprotokolle
    • HinzufĂĽgen eines Aufbewahrungs-Flags zur Konfiguration - PR
    • UnterstĂĽtzung fĂĽr die Bereinigung von Protokollen basierend auf einem konfigurierten Zeitraum - PR

Allgemeine Proxy-Verbesserungen​

  • Authentifizierung
    • Behandelt `Bearer $LITELLM_API_KEY` im benutzerdefinierten Header `x-litellm-api-key` - PR
  • Neues Enterprise pip-Paket - `litellm-enterprise` - behebt ein Problem, bei dem der Ordner `enterprise` beim Verwenden des pip-Pakets nicht gefunden wurde
  • Proxy CLI
    • HinzufĂĽgen des Befehls `models import` - PR
  • OpenWebUI
    • Konfigurieren von LiteLLM zum Parsen von Benutzerheadern von Open Web UI
  • LiteLLM Proxy mit LiteLLM SDK
    • Option zum Erzwingen/immer Verwenden des LiteLLM-Proxys bei Aufrufen ĂĽber das LiteLLM SDK

Neue Mitwirkende​

Demo-Instanz​

Hier ist eine Demo-Instanz, um Änderungen zu testen

Git Diff​