Zum Hauptinhalt springen

Krrish Dholakia
Ishaan Jaffer

Diese Version bereitstellen

docker run litellm
docker run
-e STORE_MODEL_IN_DB=True
-p 4000:4000
ghcr.io/berriai/litellm:main-v1.70.1-stable

Wichtige Highlights

LiteLLM v1.70.1-stable ist jetzt live. Hier sind die wichtigsten Highlights dieser Version

  • Gemini Realtime API: Sie können jetzt die Live-API von Gemini über die OpenAI /v1/realtime-API aufrufen
  • Aufbewahrungsfrist für Ausgabenprotokolle: Ermöglicht das Löschen von Ausgabenprotokollen, die älter als ein bestimmter Zeitraum sind.
  • PII Masking 2.0: Konfigurieren Sie einfach das Maskieren oder Blockieren bestimmter PII/PHI-Entitäten in der Benutzeroberfläche

Gemini Realtime API

Diese Version bringt die Unterstützung für den Aufruf von Gemini-Echtzeitmodellen (z. B. gemini-2.0-flash-live) über die Echtzeit-API von OpenAI ( /v1/realtime ). Dies ist großartig für Entwickler, da sie durch einfaches Ändern des Modellnamens problemlos von OpenAI zu Gemini wechseln können.

Wichtige Highlights

  • Unterstützung für Text- und Audio-Ein- und Ausgabe
  • Unterstützung für die Einstellung von Sitzungskonfigurationen (Modalität, Anweisungen, Aktivitätserkennung) im OpenAI-Format
  • Unterstützung für Protokollierung und Nutzungsnachverfolgung für Echtzeitsitzungen

Dies wird derzeit über Google AI Studio unterstützt. Wir planen, die VertexAI-Unterstützung in der kommenden Woche zu veröffentlichen.

Mehr erfahren

Aufbewahrungsfrist für Ausgabenprotokolle

Diese Version ermöglicht das Löschen von LiteLLM-Ausgabenprotokollen, die älter als ein bestimmter Zeitraum sind. Da wir jetzt das Speichern der rohen Anfrage/Antwort in den Protokollen ermöglichen, stellt das Löschen alter Protokolle sicher, dass die Datenbank in der Produktion performant bleibt.

Mehr erfahren

PII Masking 2.0

Diese Version bringt Verbesserungen an unserer Presidio PII-Integration. Als Proxy-Administrator haben Sie jetzt die Möglichkeit,

  • Bestimmte Entitäten maskieren oder blockieren (z. B. medizinische Lizenzen blockieren und andere Entitäten wie E-Mails maskieren).
  • Guardrails in der Produktion überwachen. LiteLLM Logs zeigen Ihnen nun die Guardrail-Ausführung, die erkannten Entitäten und deren Konfidenzbewertung für jede Entität.

Mehr erfahren

Neue Modelle / Aktualisierte Modelle

  • Gemini (VertexAI + Google AI Studio)
    • /chat/completion
      • Audioeingabe verarbeiten - PR
      • Behebt das Problem mit der maximalen Rekursionstiefe bei der Verwendung von tief verschachtelten Antwortschemata mit Vertex AI, indem DEFAULT_MAX_RECURSE_DEPTH von 10 auf 100 in Konstanten erhöht wird. PR
      • Erkenntnis-Token im Streaming-Modus erfassen - PR
  • Google AI Studio
    • /realtime
      • Gemini Multimodal Live API-Unterstützung
      • Audio-Ein-/Ausgabe-Unterstützung, Mapping optionaler Parameter, genaue Nutzungsberechnung - PR
  • VertexAI
    • /chat/completion
      • Llama-Streaming-Fehler beheben - bei dem das Modell-Antwort im zurückgegebenen Streaming-Chunk verschachtelt war - PR
  • Ollama
    • /chat/completion
      • Antwortenstruktur beheben - PR
  • Bedrock
    • /chat/completion
      • Denkblöcke behandeln, wenn assistant.content None ist - PR
      • Fehlerbehebungen, um nur akzeptierte Felder für die Tool-JSON-Schema zuzulassen - PR
      • Informationen zu den Kosten für Bedrock Sonnet Prompt Caching hinzufügen
      • Mistral Pixtral-Unterstützung - PR
      • Tool-Caching-Unterstützung - PR
    • /messages
      • Dynamische AWS-Parameter verwenden - PR
  • Nvidia NIM
    • /chat/completion
      • Unterstützung für Tools, tool_choice, parallele Tool-Aufrufe hinzufügen - PR
  • Novita AI
    • Neuer Anbieter für /chat/completion-Routen hinzugefügt - PR
  • Azure
  • Cohere
    • /embeddings
      • Einbettungen migrieren, um /v2/embed zu verwenden - fügt Unterstützung für den Parameter output_dimensions hinzu - PR
  • Anthropic
  • VLLM
    • /embeddings
      • Unterstützung für die Einbettung von Eingaben als Liste von Ganzzahlen
  • OpenAI

LLM API Endpoints

  • Antworten API
    • Unterstützung für die Löschung von APIs beheben - PR
  • Rerank API
    • /v2/rerank wird jetzt als ‘llm_api_route’ registriert - wodurch Nicht-Admins diese aufrufen können - PR

Verbesserungen bei der Ausgabenverfolgung

  • /chat/completion, /messages
    • Anthropic - Kostenverfolgung für Web-Search-Tool - PR
    • Groq - Aktualisierung der Modellmaximaltoken + Kosteninformationen - PR
  • /audio/transcription
    • Azure - gpt-4o-mini-tts-Preise hinzufügen - PR
    • Proxy - Verfolgung von Ausgaben nach Tag beheben - PR
  • /embeddings
    • Azure AI - Cohere Embed v4-Preise hinzufügen - PR

Management Endpunkte / UI

Logging / Alerting Integrationen

  • StandardLoggingPayload
    • Alle x--Header in den Metadaten des Anforderers protokollieren - Erste Schritte
    • Guardrail-Tracing jetzt in der Standard-Logging-Payload - Erste Schritte
  • Generischer API Logger
    • Unterstützung für die Übergabe des application/json-Headers
  • Arize Phoenix
    • Fix: URL-Kodierung von OTEL_EXPORTER_OTLP_TRACES_HEADERS für Phoenix-Integration - PR
    • Guardrail-Tracing zu OTEL, Arize Phoenix hinzufügen - PR
  • PagerDuty
    • PagerDuty ist jetzt ein kostenloses Feature - PR
  • Alerting
    • Senden von Slack-Alerts bei Updates von virtuellen Schlüsseln/Benutzern/Teams ist jetzt kostenlos - PR

Guardrails

  • Guardrails
    • Neuer Endpunkt /apply_guardrail zum direkten Testen eines Guardrails - PR
  • Lakera
    • /v2 Endpunkte Unterstützung - PR
  • Presidio
    • Behebt die Behandlung von Nachrichteninhalt bei der Presidio-Guardrail-Integration - PR
    • Konfiguration von PII-Entitäten angeben - PR
  • Aim Security
    • Unterstützung für Anonymisierung in AIM Guardrails - PR

Leistungs-/Loadbalancing-/Zuverlässigkeitsverbesserungen

Allgemeine Proxy-Verbesserungen

  • Authentifizierung
    • Bearer $LITELLM_API_KEY im benutzerdefinierten Header x-litellm-api-key behandeln PR
  • Neues Enterprise pip-Paket - litellm-enterprise - behebt ein Problem, bei dem der Ordner enterprise beim Verwenden des pip-Pakets nicht gefunden wurde
  • Proxy CLI
    • models import-Befehl hinzufügen - PR
  • OpenWebUI
    • LiteLLM konfigurieren, um Benutzerheader von Open Web UI zu parsen
  • LiteLLM Proxy mit LiteLLM SDK
    • Option zum Erzwingen/Immer-Verwenden des LiteLLM-Proxys beim Aufruf über das LiteLLM SDK

Neue Mitwirkende

Demo-Instanz

Hier ist eine Demo-Instanz, um Änderungen zu testen

Git Diff

Krrish Dholakia
Ishaan Jaffer

Diese Version bereitstellen

docker run litellm
docker run
-e STORE_MODEL_IN_DB=True
-p 4000:4000
ghcr.io/berriai/litellm:main-v1.69.0-stable

Wichtige Highlights

LiteLLM v1.69.0-stable bringt folgende wichtige Verbesserungen

  • Loadbalance Batch API Models: Einfaches Loadbalancing über mehrere Azure Batch-Bereitstellungen mithilfe von LiteLLM Managed Files
  • E-Mail-Einladungen 2.0: Senden Sie neu bei LiteLLM angemeldeten Benutzern eine E-Mail-Einladung.
  • Nscale: LLM API zur Einhaltung europäischer Vorschriften.
  • Bedrock /v1/messages: Verwenden Sie Bedrock Anthropic-Modelle mit den /v1/messages von Anthropic.

Batch API Load Balancing

Diese Version bringt die Unterstützung für LiteLLM Managed Files zu Batches. Dies ist großartig für

  • Proxy-Administratoren: Sie können jetzt steuern, welche Batch-Modelle Benutzer aufrufen können.
  • Entwickler: Sie müssen den Azure-Bereitstellungsnamen nicht mehr kennen, wenn Sie Ihre Batch-.jsonl-Dateien erstellen. Geben Sie einfach das Modell an, auf das Ihr LiteLLM-Schlüssel Zugriff hat.

Im Laufe der Zeit erwarten wir, dass LiteLLM Managed Files der Weg sein wird, wie die meisten Teams Dateien über die Endpunkte /chat/completions, /batch, /fine_tuning verwenden.

Lesen Sie hier mehr

E-Mail-Einladungen

Diese Version bringt folgende Verbesserungen an unserer E-Mail-Einladungsintegration

  • Neue Vorlagen für die Ereignisse Benutzer eingeladen und Schlüssel erstellt.
  • Fehlerbehebungen für die Verwendung von SMTP-E-Mail-Anbietern.
  • Native Unterstützung für die Resend API.
  • Möglichkeit für Proxy-Administratoren, E-Mail-Ereignisse zu steuern.

Für LiteLLM Cloud-Benutzer kontaktieren Sie uns bitte, wenn Sie dies für Ihre Instanz aktivieren möchten.

Lesen Sie hier mehr

Neue Modelle / Aktualisierte Modelle

  • Gemini (VertexAI + Google AI Studio)
    • gemini-2.5-pro-preview-05-06-Modelle mit Preis- und Kontextfensterinformationen hinzugefügt - PR
    • Korrekte Kontextfensterlänge für alle Gemini 2.5-Varianten festgelegt - PR
  • Perplexity:
    • Neue Perplexity-Modelle hinzugefügt - PR
    • Sonar-deep-research-Modellpreise hinzugefügt - PR
  • Azure OpenAI:
    • Weiterleitung des azure_ad_token_provider-Parameters behoben - PR
  • OpenAI:
    • Unterstützung für PDF-URLs im 'file'-Parameter hinzugefügt - PR
  • Sagemaker:
    • Inhaltslänge für den sagemaker_chat-Anbieter behoben - PR
  • Azure AI Foundry:
    • Kostenverfolgung für die folgenden Modelle hinzugefügt PR
      • DeepSeek V3 0324
      • Llama 4 Scout
      • Llama 4 Maverick
  • Bedrock:
    • Kostenverfolgung für Bedrock Llama 4-Modelle hinzugefügt - PR
    • Vorlagenkonvertierung für Llama 4-Modelle in Bedrock behoben - PR
    • Unterstützung für die Verwendung von Bedrock Anthropic-Modellen mit dem Format /v1/messages hinzugefügt - PR
    • Streaming-Unterstützung für Bedrock Anthropic-Modelle mit dem Format /v1/messages hinzugefügt - PR
  • OpenAI: reasoning_effort-Unterstützung für o3-Modelle hinzugefügt - PR
  • Databricks:
    • Problem behoben, wenn Databricks ein externes Modell verwendet und Delta leer sein könnte - PR
  • Cerebras: Preise und Kontextfenster des Llama-3.1-70b-Modells behoben - PR
  • Ollama:
    • Benutzerdefinierte Preisberechnung behoben und Unterstützung für 'max_completion_token' hinzugefügt - PR
    • KeyError bei Verwendung des JSON-Antwortformats behoben - PR
  • 🆕 Nscale
    • Unterstützung für Chat- und Bildgenerierungs-Endpunkte hinzugefügt - PR

LLM API Endpoints

  • Messages API:
    • 🆕 Unterstützung für die Verwendung von Bedrock Anthropic-Modellen mit dem Format /v1/messages hinzugefügt - PR und Streaming-Unterstützung - PR
  • Moderations API:
    • Fehler behoben, um die Verwendung von LiteLLM UI-Anmeldedaten für die /moderations-API zu ermöglichen - PR
  • Realtime API:
    • Behebt das Einstellen von 'headers' im Scope für WebSocket-Authentifizierungsanfragen und Probleme mit Endlosschleifen - PR
  • Files API:
    • Unterstützung für einheitliche Date-ID-Ausgabe - PR
    • Unterstützung für das Schreiben von Dateien in alle Bereitstellungen - PR
    • Validierung des Zielmodellnamens hinzugefügt - PR
  • Batches API:
    • Vollständige Unterstützung für einheitliche Batch-IDs - Ersetzen des Modells in jsonl durch den Bereitstellungsmodellnamen - PR
    • Beta-Unterstützung für einheitliche Date-IDs (verwaltete Dateien) für Batches - PR

Verbesserungen bei der Ausgabenverfolgung / Budget

  • Fehlerbehebung - PostgreSQL Integer Overflow Error bei DB-Ausgabenverfolgung - PR

Management Endpunkte / UI

  • Modelle
    • Modellinformationen beim Bearbeiten eines Modells in der Benutzeroberfläche wurden überschrieben - behoben - PR
    • Team-Admin-Modellaktualisierungen und Organisationerstellung mit spezifischen Modellen behoben - PR
  • Logs:
    • Fehlerbehebung - Kopieren von Request/Response auf der Logs-Seite - PR
    • Fehlerbehebung - Protokoll blieb auf der QA-Logs-Seite nicht im Fokus + Textüberlauf bei Fehlermeldungen - PR
    • Index für session_id auf LiteLLM_SpendLogs hinzugefügt für bessere Abfrageleistung - PR
  • Benutzerverwaltung:
    • Benutzerverwaltungsfunktionalität zur Python-Clientbibliothek & CLI hinzugefügt - PR
    • Fehlerbehebung - SCIM-Token-Erstellung in der Admin-Benutzeroberfläche behoben - PR
    • Fehlerbehebung - 404-Antwort hinzugefügt, wenn versucht wird, nicht vorhandene Verifizierungstoken zu löschen - PR

Logging / Guardrail Integrationen

  • Custom Logger API: V2 Custom Callback API (LLM-Protokolle an benutzerdefinierte API senden) - PR, Erste Schritte
  • OpenTelemetry:
    • OpenTelemetry korrigiert, um die GenAI-Semantikkonventionen zu befolgen + Unterstützung für den Parameter 'instructions' für TTS - PR
  • Bedrock PII:
    • Unterstützung für PII-Maskierung mit Bedrock-Guardrails hinzufügen - Erste Schritte, PR
  • Dokumentation:
    • Dokumentation für StandardLoggingVectorStoreRequest hinzugefügt - PR

Leistungs- / Zuverlässigkeitsverbesserungen

  • Python-Kompatibilität:
    • Unterstützung für Python 3.11- hinzugefügt (behandelte datetime UTC-Fehler) - PR
    • UnicodeDecodeError: 'charmap' unter Windows beim Import von litellm behoben - PR
  • Caching:
    • Ergebnis des String-Cachings für Einbettungen behoben - PR
    • Cache-Fehlern für Gemini-Modelle mit response_format behoben - PR

Allgemeine Proxy-Verbesserungen

  • Proxy CLI:
    • --version-Flag zum litellm-proxy CLI hinzugefügt - PR
    • Dedizierte litellm-proxy CLI hinzugefügt - PR
  • Alerting:
    • Slack-Benachrichtigungen, die bei Verwendung einer DB nicht funktionierten, behoben - PR
  • E-Mail-Einladungen:
    • V2-E-Mails mit Korrekturen für das Senden von E-Mails beim Erstellen von Schlüsseln + Resend API-Unterstützung hinzugefügt - PR
    • Benutzer-Einladungs-E-Mails hinzugefügt - PR
    • Endpunkte zur Verwaltung von E-Mail-Einstellungen hinzugefügt - PR
  • Allgemein:
    • Fehler behoben, bei dem doppelte JSON-Protokolle ausgegeben wurden - PR

Neue Mitwirkende

Krrish Dholakia
Ishaan Jaffer

Diese Version bereitstellen

docker run litellm
docker run
-e STORE_MODEL_IN_DB=True
-p 4000:4000
ghcr.io/berriai/litellm:main-v1.68.0-stable

Wichtige Highlights

LiteLLM v1.68.0-stable wird bald live sein. Hier sind die wichtigsten Highlights dieser Version

  • Bedrock Knowledge Base: Sie können jetzt Ihre Bedrock Knowledge Base mit allen LiteLLM-Modellen über die API /chat/completion oder /responses abfragen.
  • Ratenbegrenzungen: Diese Version bringt genaue Ratenbegrenzungen über mehrere Instanzen hinweg und reduziert Überläufe auf maximal 10 zusätzliche Anfragen bei hohem Datenverkehr.
  • Meta Llama API: Unterstützung für Meta Llama API hinzugefügt Erste Schritte
  • LlamaFile: Unterstützung für LlamaFile hinzugefügt Erste Schritte

Bedrock Knowledge Base (Vektorspeicher)


Diese Version fügt Unterstützung für Bedrock-Vektorspeicher (Wissensbasen) in LiteLLM hinzu. Mit diesem Update können Sie

  • Bedrock-Vektorspeicher in der OpenAI /chat/completions-Spezifikation mit allen von LiteLLM unterstützten Modellen verwenden.
  • Alle verfügbaren Vektorspeicher über die LiteLLM-Benutzeroberfläche oder API anzeigen.
  • Vektorspeicher für bestimmte Modelle als immer aktiv konfigurieren.
  • Die Nutzung von Vektorspeichern in LiteLLM Logs verfolgen.

Für die nächste Version planen wir, Ihnen die Festlegung von Schlüssel-, Benutzer-, Team- und Organisationsberechtigungen für Vektorspeicher zu ermöglichen.

Lesen Sie hier mehr

Ratenbegrenzung


Diese Veröffentlichung bringt eine genaue Multi-Instanz-Ratenbegrenzung über Schlüssel/Benutzer/Teams hinweg. Nachfolgend werden die wichtigsten technischen Änderungen erläutert

  • Änderung: Instanzen inkrementieren jetzt den Cache-Wert, anstatt ihn zu setzen. Um zu vermeiden, dass Redis bei jeder Anfrage aufgerufen wird, wird dies alle 0,01 s synchronisiert.
  • Genauigkeit: In Tests haben wir bei hohem Datenverkehr (100 RPS, 3 Instanzen) eine maximale Überschreitung von 10 Anfragen gegenüber den erwarteten Werten festgestellt, im Vergleich zur aktuellen Überschreitung von 189 Anfragen.
  • Leistung: Unsere Lasttests zeigen, dass dies die mediane Antwortzeit bei hohem Datenverkehr um 100 ms reduziert 

Dies ist derzeit hinter einem Feature-Flag verborgen und wir planen, dies nächste Woche zum Standard zu machen. Um dies heute zu aktivieren, fügen Sie einfach diese Umgebungsvariable hinzu

export LITELLM_RATE_LIMIT_ACCURACY=true

Lesen Sie hier mehr

Neue Modelle / Aktualisierte Modelle

  • Gemini (VertexAI + Google AI Studio)
    • Behandelt mehr JSON-Schema - OpenAPI-Schema-Konvertierungs-Randfälle PR
    • Tool-Aufrufe - gibt bei der Gemini-Tool-Aufruf-Antwort 'finish_reason="tool_calls"' zurück PR
  • VertexAI
    • Meta/llama-4 Modellunterstützung PR
    • Meta/llama3 - behandelt Tool-Aufruf-Ergebnisse im Inhalt PR
    • Meta/* - gibt bei der Tool-Aufruf-Antwort 'finish_reason="tool_calls"' zurück PR
  • Bedrock
  • OpenAI
    • Unterstützt OPENAI_BASE_URL zusätzlich zu OPENAI_API_BASE PR
    • 504 Timeout-Fehler korrekt erneut auslösen PR
    • Nativer GPT-4o-mini-TTS-Support PR
  • 🆕 Meta Llama API Provider PR
  • 🆕 LlamaFile Provider PR

LLM API Endpoints

  • Antwort-API
    • Korrektur zur Handhabung von mehrstufigen Sitzungen PR
  • Einbettungen
    • Caching-Korrekturen - PR
      • str -> list Cache behandeln
      • Nutzungstoken für Cache-Treffer zurückgeben
      • Nutzungstoken bei teilweisen Cache-Treffern kombinieren
  • 🆕 Vektorspeicher
    • Konfigurieren von Vektorspeicher-Konfigurationen zulassen - PR
    • Neues Standardfeld 'StandardLoggingPayload' für Anfragen, die bei Verwendung eines Vektorspeichers gemacht werden - PR
    • Vektorspeicher / KB-Anfragen auf der LiteLLM-Protokollseite anzeigen - PR
    • Vektorspeicher in der OpenAI API-Spezifikation mit Tools verwenden PR
  • MCP
    • Sicherstellen, dass Nicht-Admin-Virtuelle Schlüssel auf /mcp-Routen zugreifen können - PR

      Hinweis: Derzeit können alle virtuellen Schlüssel auf die MCP-Endpunkte zugreifen. Wir arbeiten an einer Funktion, um den MCP-Zugriff nach Schlüsseln/Teams/Benutzern/Organisationen einzuschränken. Folgen Sie hier für Updates.

  • Moderationen
    • Unterstützung für Callback-Protokollierung für die /moderations API hinzufügen - PR

Verbesserungen bei der Ausgabenverfolgung / Budget

  • OpenAI
  • Fireworks AI - Preisaktualisierungen - neue Preisstufe für 0-4b Modelle + Preise für Llama4-Modelle
  • Budgets
    • Budget-Resets erfolgen jetzt zu Beginn des Tages/der Woche/des Monats - PR
    • Weiche Budget-Warnungen auslösen, wenn ein Schlüssel einen Schwellenwert überschreitet - PR
  • Token-Zählung
    • Neufassung der Funktion 'token_counter()', um Unterzählung von Tokens zu verhindern - PR

Management Endpunkte / UI

  • Virtuelle Schlüssel
    • Filterung nach Schlüssel-Alias korrigiert - PR
    • Globale Filterung nach Schlüsseln zulassen - PR
    • Paginierung - Klicken auf nächste/vorherige Schaltflächen in der Tabelle korrigiert - PR
  • Modelle
    • Triton - Unterstützung für das Hinzufügen von Modellen/Anbietern in der Benutzeroberfläche - PR
    • VertexAI - Hinzufügen von Vertex-Modellen mit wiederverwendbaren Anmeldeinformationen korrigiert - PR
    • LLM-Anmeldeinformationen - vorhandene Anmeldeinformationen zur einfachen Bearbeitung anzeigen - PR
  • Teams
    • Team einer anderen Organisation zuweisen lassen - PR
  • Organisationen
    • Anzeige des Organisationsbudgets in der Tabelle korrigiert - PR

Logging / Guardrail Integrationen

  • Langsmith
    • Beachtung des Parameters 'langsmith_batch_size' - PR

Leistungs-/Loadbalancing-/Zuverlässigkeitsverbesserungen

  • Redis
    • Sicherstellen, dass alle Redis-Warteschlangen periodisch geleert werden. Dies behebt ein Problem, bei dem die Größe der Redis-Warteschlange bei Verwendung von Anfrage-Tags unendlich wuchs - PR
  • Ratenbegrenzungen
    • Unterstützung für Multi-Instanz-Ratenbegrenzung über Schlüssel/Teams/Benutzer/Kunden hinweg - PR, PR, PR
  • Azure OpenAI OIDC
    • Verwendung von LiteLLM definierten Parametern für OIDC-Authentifizierung zulassen - PR

Allgemeine Proxy-Verbesserungen

  • Sicherheit
    • Blockieren von Web-Crawlern zulassen - PR
  • Authentifizierung
    • Unterstützung des Headers 'x-litellm-api-key' als Standard - Dies behebt ein Problem aus der vorherigen Veröffentlichung, bei dem 'x-litellm-api-key' bei Vertex AI Passthrough-Anfragen nicht verwendet wurde - PR
    • Erlauben, dass Schlüssel mit maximalem Budget auf Nicht-LLM-API-Endpunkte zugreifen können - PR
  • 🆕 Python Client-Bibliothek für LiteLLM Proxy Management Endpunkte
    • Erster PR - PR
    • Unterstützung für HTTP-Anfragen - PR
  • Abhängigkeiten
    • uvloop für Windows nicht mehr erforderlich - PR

Krrish Dholakia
Ishaan Jaffer

Diese Version bereitstellen

docker run litellm
docker run
-e STORE_MODEL_IN_DB=True
-p 4000:4000
ghcr.io/berriai/litellm:main-v1.67.4-stable

Wichtige Highlights

  • Verbessertes Benutzermanagement: Diese Veröffentlichung ermöglicht die Suche und Filterung von Benutzern, Schlüsseln, Teams und Modellen.
  • Responses API Load Balancing: Routet Anfragen über Provider-Regionen und sorgt für Sitzungskontinuität.
  • UI-Sitzungsprotokolle: Gruppiert mehrere Anfragen an LiteLLM zu einer Sitzung.

Verbessertes Benutzermanagement


Diese Veröffentlichung erleichtert die Verwaltung von Benutzern und Schlüsseln auf LiteLLM. Sie können jetzt Benutzer, Schlüssel, Teams und Modelle durchsuchen und filtern und Benutzereinstellungen einfacher steuern.

Neue Funktionen umfassen

  • Suche nach Benutzern nach E-Mail, ID, Rolle oder Team.
  • Alle Modelle, Teams und Schlüssel eines Benutzers an einem Ort anzeigen.
  • Benutzerrollen und Modellzugriff direkt vom Tab "Benutzer" ändern.

Diese Änderungen helfen Ihnen, weniger Zeit für die Einrichtung und Verwaltung von Benutzern auf LiteLLM aufzuwenden.

Responses API Load Balancing


Diese Veröffentlichung führt Load Balancing für die Responses API ein, wodurch Sie Anfragen über Provider-Regionen leiten und die Sitzungskontinuität gewährleisten können. Es funktioniert wie folgt:

  • Wenn eine previous_response_id angegeben ist, leitet LiteLLM die Anfrage an die ursprüngliche Bereitstellung weiter, die die vorherige Antwort generiert hat - wodurch die Sitzungskontinuität gewährleistet wird.
  • Wenn keine previous_response_id angegeben ist, verteilt LiteLLM die Anfragen auf Ihre verfügbaren Bereitstellungen.

Mehr erfahren

UI-Sitzungsprotokolle


Diese Veröffentlichung ermöglicht es Ihnen, Anfragen an den LiteLLM-Proxy zu einer Sitzung zu gruppieren. Wenn Sie eine 'litellm_session_id' in Ihrer Anfrage angeben, gruppiert LiteLLM automatisch alle Protokolle in derselben Sitzung. Dies ermöglicht es Ihnen, die Nutzung und den Anfrageinhalt pro Sitzung einfach zu verfolgen.

Mehr erfahren

Neue Modelle / Aktualisierte Modelle

  • OpenAI
    1. Kostenverfolgung für 'gpt-image-1' hinzugefügt Erste Schritte
    2. Fehlerbehebung: Kostenverfolgung für gpt-image-1 hinzugefügt, wenn die Qualität nicht angegeben ist PR
  • Azure
    1. Zeitstempel-Granularitäten an Whisper in Azure übergeben, korrigiert Erste Schritte
    2. Preise für azure/gpt-image-1 hinzugefügt Erste Schritte, PR
    3. Kostenverfolgung für 'azure/computer-use-preview', 'azure/gpt-4o-audio-preview-2024-12-17', 'azure/gpt-4o-mini-audio-preview-2024-12-17' hinzugefügt PR
  • Bedrock
    1. Unterstützung für alle kompatiblen Bedrock-Parameter hinzugefügt, wenn model="arn:.." (Bedrock-Anwendungsinferenzprofil-Modelle) Erste Schritte, PR
    2. Falsche System-Prompt-Transformation korrigiert PR
  • VertexAI / Google AI Studio
    1. Setzen von 'budget_tokens=0' für 'gemini-2.5-flash' zulassen Erste Schritte, PR
    2. Sicherstellen, dass die zurückgegebene 'usage' die Denk-Token-Nutzung einschließt PR
    3. Kostenverfolgung für 'gemini-2.5-pro-preview-03-25' hinzugefügt PR
  • Cohere
    1. Unterstützung für cohere command-a-03-2025 hinzugefügt Erste Schritte, PR
  • SageMaker
    1. Unterstützung für den Parameter 'max_completion_tokens' hinzugefügt Erste Schritte, PR
  • Antworten API
    1. Unterstützung für GET- und DELETE-Operationen hinzugefügt - /v1/responses/{response_id} Erste Schritte
    2. Sitzungsmanagementunterstützung für Nicht-OpenAI-Modelle hinzugefügt PR
    3. Routing-Affinität hinzugefügt, um Modellkonsistenz innerhalb von Sitzungen aufrechtzuerhalten Erste Schritte, PR

Verbesserungen bei der Ausgabenverfolgung

  • Fehlerbehebung: Fehler bei der Spend-Nachverfolgung behoben, sodass Standard-LiteLLM-Parameter nicht im Speicher geändert werden PR
  • Einstellungstermine: Einstellungstermine für Azure-, VertexAI-Modelle hinzugefügt PR

Management Endpunkte / UI

Benutzer

  • Filterung und Suche:

    • Benutzer nach user_id, Rolle, Team, sso_id filtern
    • Benutzer nach E-Mail suchen

  • Benutzerinformationsbereich: Ein neuer Benutzerinformationsbereich wurde hinzugefügt PR

    • Teams, Schlüssel, Modelle anzeigen, die mit dem Benutzer verbunden sind
    • Benutzerrolle, Modellberechtigungen bearbeiten

Teams

  • Filterung und Suche:

    • Teams nach Organisation, Team-ID filtern PR
    • Teams nach Teamnamen suchen PR

Schlüssel

  • Schlüsselverwaltung:
    • Unterstützung für Kreuzfilterung und Filterung nach Schlüssel-Hash PR
    • Schlüssel-Alias-Zurücksetzung beim Zurücksetzen von Filtern korrigiert PR
    • Tabellendarstellung bei Schlüssel-Erstellung korrigiert PR

UI-Protokollseite

UI-Authentifizierung & Sicherheit

  • Authentifizierung erforderlich: Für alle Dashboard-Seiten ist jetzt eine Authentifizierung erforderlich PR
  • SSO-Korrekturen: Ungültigen Token-Fehler bei der SSO-Benutzeranmeldung behoben PR
  • [BETA] Verschlüsselte Token: UI auf verschlüsselte Token-Nutzung umgestellt PR
  • Token-Ablauf: Token-Aktualisierung durch erneutes Weiterleiten zur Anmeldeseite unterstützt (behebt ein Problem, bei dem ein abgelaufener Token eine leere Seite zeigte) PR

Allgemeine UI-Korrekturen

  • UI-Flackern behoben: UI-Flackerprobleme im Dashboard behoben PR
  • Verbesserte Terminologie: Bessere Lade- und Keine-Daten-Zustände auf den Seiten für Schlüssel und Tools PR
  • Azure-Modellunterstützung: Bearbeiten von Azure-öffentlichen Modellnamen und Ändern von Modellnamen nach der Erstellung korrigiert PR
  • Team-Modellauswahl: Fehlerbehebung für die Team-Modellauswahl PR

Logging / Guardrail Integrationen

  • Datadog:
    1. Datadog LLM-Observability-Protokollierung korrigiert Erste Schritte, PR
  • Prometheus / Grafana:
    1. Auswahl der Datenquelle auf der LiteLLM Grafana-Vorlage aktiviert Erste Schritte, PR
  • AgentOps:
    1. AgentOps-Integration hinzugefügt Erste Schritte, PR
  • Arize:
    1. Fehlende Attribute für Arize & Phoenix Integration hinzugefügt Erste Schritte, PR

Allgemeine Proxy-Verbesserungen

  • Caching: Caching korrigiert, um 'thinking' oder 'reasoning_effort' bei der Berechnung des Cache-Schlüssels zu berücksichtigen PR
  • Modellgruppen: Handhabung von Fällen korrigiert, in denen der Benutzer 'model_group' innerhalb von 'model_info' setzt PR
  • Passthrough-Endpunkte: Sichergestellt, dass 'PassthroughStandardLoggingPayload' mit Methode, URL, Anfrage-/Antwortkörper protokolliert wird PR
  • SQL-Injection beheben: Mögliche SQL-Injection-Schwachstelle in 'spend_management_endpoints.py' behoben PR

Helm

  • serviceAccountName im Migrationsjob korrigiert PR

Vollständige Changelog

Die vollständige Liste der Änderungen finden Sie in den GitHub Release Notes.

Krrish Dholakia
Ishaan Jaffer

Wichtige Highlights

  • SCIM-Integration: Ermöglicht Identitätsanbietern (Okta, Azure AD, OneLogin usw.), Benutzer und Teams (Gruppen) automatisch zu provisionieren, zu aktualisieren und zu deprovisionieren
  • Team- und Tag-basierte Nutzungsverfolgung: Sie können nun Nutzung und Ausgaben nach Team und Tag bei über 1 Million Ausgabenprotokollen sehen.
  • Vereinheitlichte Responses API: Unterstützung für den Aufruf von Anthropic, Gemini, Groq usw. über die neue Responses API von OpenAI.

Tauchen wir ein.

SCIM-Integration

Diese Veröffentlichung fügt SCIM-Unterstützung für LiteLLM hinzu. Dies ermöglicht Ihrem SSO-Anbieter (Okta, Azure AD usw.), Benutzer, Teams und Mitgliedschaften auf LiteLLM automatisch zu erstellen/löschen. Das bedeutet, dass Ihr SSO-Anbieter, wenn Sie ein Team in Ihrem SSO-Anbieter entfernen, das entsprechende Team auf LiteLLM automatisch löschen wird.

Mehr erfahren

Team- und Tag-basierte Nutzungsverfolgung

Diese Veröffentlichung verbessert die team- und tagbasierte Nutzungsverfolgung bei über 1 Million Ausgabenprotokollen, was die Überwachung Ihrer LLM-API-Ausgaben in der Produktion erleichtert. Dies umfasst:

  • Tägliche Ausgaben nach Teams + Tags anzeigen
  • Nutzung / Ausgaben nach Schlüssel innerhalb von Teams anzeigen
  • Ausgaben nach mehreren Tags anzeigen
  • Interne Benutzer dazu ermächtigen, die Ausgaben von Teams anzuzeigen, deren Mitglied sie sind

Mehr erfahren

Vereinheitlichte Responses API

Diese Veröffentlichung ermöglicht es Ihnen, Azure OpenAI, Anthropic, AWS Bedrock und Google Vertex AI Modelle über den POST /v1/responses Endpunkt auf LiteLLM aufzurufen. Das bedeutet, dass Sie jetzt beliebte Tools wie OpenAI Codex mit Ihren eigenen Modellen verwenden können.

Mehr erfahren

Neue Modelle / Aktualisierte Modelle

  • OpenAI
    1. gpt-4.1, gpt-4.1-mini, gpt-4.1-nano, o3, o3-mini, o4-mini Preise - Erste Schritte, PR
    2. o4 - o4 korrekt auf OpenAI o_series Modell abbilden
  • Azure AI
    1. Korrektur der Phi-4 Ausgabe-Kosten pro Token - PR
    2. Responses API Unterstützung Erste Schritte, PR
  • Anthropic
    1. Unterstützung für redigierte Nachrichten (thinking) - Erste Schritte, PR
  • Cohere
    1. /v2/chat Passthrough-Endpunktunterstützung mit Kostenverfolgung - Erste Schritte, PR
  • Azure
    1. Unterstützung für Azure tenant_id/client_id Umgebungsvariablen - Erste Schritte, PR
    2. Korrektur der 'response_format'-Prüfung für API-Versionen ab 2025 - PR
    3. Preise für gpt-4.1, gpt-4.1-mini, gpt-4.1-nano, o3, o3-mini, o4-mini hinzufügen
  • VLLM
    1. Dateien - Unterstützung für den Nachrichtentyp 'file' für VLLM-Video-URLs - Erste Schritte, PR
    2. Passthrough - neuer /vllm/ Passthrough-Endpunkt unterstützt - Erste Schritte, PR
  • Mistral
    1. neuer /mistral Passthrough-Endpunkt unterstützt - Erste Schritte, PR
  • AWS
    1. Neu zugeordnete Bedrock-Regionen - PR
  • VertexAI / Google AI Studio
    1. Gemini - Antwortformat - Beibehaltung der Schemabeschreibungsreihenfolge für Google Gemini und Vertex durch Angabe von 'propertyOrdering' - Erste Schritte, PR
    2. Gemini-2.5-flash - Rückgabe von Reasoning-Inhalt Google AI Studio, Vertex AI
    3. Gemini-2.5-flash - Preise + Modellinformationen PR
    4. Passthrough - neue Route /vertex_ai/discovery - ermöglicht den Aufruf von AgentBuilder API-Routen Erste Schritte, PR
  • Fireworks AI
    1. Gibt Tool-Aufruf-Antworten im Feld 'tool_calls' zurück (Fireworks gibt dies fälschlicherweise als JSON-String im Inhalt zurück) PR
  • Triton
    1. Entfernen von festen 'bad_words' / 'stop_words' aus dem '/generate'-Aufruf - Erste Schritte, PR
  • Sonstiges
    1. Unterstützung für alle LiteLLM-Provider auf der Responses API (funktioniert mit Codex) - Erste Schritte, PR
    2. Kombination mehrerer Tool-Aufrufe in gestreamter Antwort korrigiert - Erste Schritte, PR

Verbesserungen bei der Ausgabenverfolgung

  • Kostenkontrolle - Einfügen von Cache-Kontrollpunkten in den Prompt zur Kostensenkung Erste Schritte, PR
  • Spend-Tags - Spend-Tags in Headern - Unterstützung für x-litellm-tags, auch wenn die tagbasierte Weiterleitung nicht aktiviert ist Erste Schritte, PR
  • Gemini-2.5-flash - Berechnung der Kosten für Reasoning-Tokens unterstützen PR

Management Endpunkte / UI

  • Benutzer

    1. created_at und updated_at auf der Benutzerseite anzeigen - PR
  • Virtuelle Schlüssel

    1. Filtern nach Schlüssel-Alias - https://github.com/BerriAI/litellm/pull/10085
  • Nutzungs-Tab

    1. Team-basierte Nutzung

      • Neue Tabelle 'LiteLLM_DailyTeamSpend' für aggregierte teambasierte Nutzungsdatenspeicherung - PR

      • Neues teambasiertes Nutzungs-Dashboard + neue API '/team/daily/activity' - PR

      • Team-Alias auf der API '/team/daily/activity' zurückgeben - PR

      • internen Benutzern ermöglichen, Ausgaben für Teams anzuzeigen, zu denen sie gehören - PR

      • Top-Schlüssel pro Team anzeigen lassen - PR

    2. Tag-basierte Nutzung

      • Neue Tabelle 'LiteLLM_DailyTagSpend' für aggregierte tagbasierte Nutzungsdatenspeicherung - PR
      • Auf Proxy-Admins beschränken - PR
      • Top-Schlüssel nach Tag anzeigen lassen
      • In der Anfrage übergebene Tags (d. h. dynamische Tags) auf der '/tag/list'-API zurückgeben - PR
    3. Prompt-Caching-Metriken in täglichen Benutzer-, Team-, Tag-Tabellen verfolgen - PR

    4. Nutzung pro Schlüssel anzeigen (auf allen, Team- und Tag-Nutzungs-Dashboards) - PR

    5. alten Nutzungs-Tab durch neuen Nutzungs-Tab ersetzen

  • Modelle

    1. Spalten größenveränderbar/ausblendbar machen - PR
  • API-Playground

    1. internem Benutzer erlauben, den API-Playground aufzurufen - PR
  • SCIM

    1. LiteLLM SCIM-Integration für Team- und Benutzerverwaltung hinzufügen - Erste Schritte, PR

Logging / Guardrail Integrationen

  • GCS
    1. GCS Pub/Sub-Protokollierung mit der Umgebungsvariable GCS_PROJECT_ID korrigieren - Erste Schritte, PR
  • AIM
    1. LiteLLM Call-ID-Weiterleitung an Aim-Guardrails bei Pre- und Post-Hook-Aufrufen hinzufügen - Erste Schritte, PR
  • Azure Blob Storage
    1. Sicherstellen, dass die Protokollierung in Szenarien mit hohem Durchsatz funktioniert - Erste Schritte, PR

Allgemeine Proxy-Verbesserungen

  • Unterstützung für das Setzen von 'litellm.modify_params' über Umgebungsvariable PR
  • Modellerkennung - Prüfen Sie die /models Endpunkte des Anbieters beim Aufruf des /v1/models Endpunkts des Proxys - Erste Schritte, PR
  • /utils/token_counter - Abrufen des benutzerdefinierten Tokenizers für DB-Modelle korrigiert - Erste Schritte, PR
  • Prisma-Migration - Umgang mit vorhandenen Spalten in der DB-Tabelle - PR

Krrish Dholakia
Ishaan Jaffer

Diese Version bereitstellen

docker run litellm
docker run
-e STORE_MODEL_IN_DB=True
-p 4000:4000
ghcr.io/berriai/litellm:main-v1.66.0-stable

v1.66.0-stable ist jetzt verfügbar, hier sind die wichtigsten Highlights dieser Veröffentlichung

Wichtige Highlights

  • Echtzeit-API-Kostenverfolgung: Verfolgen Sie die Kosten von Echtzeit-API-Aufrufen
  • Microsoft SSO automatische Synchronisierung: Synchronisieren Sie automatisch Gruppen und Gruppenmitglieder von Azure Entra ID nach LiteLLM
  • xAI grok-3: Unterstützung für xai/grok-3 Modelle hinzugefügt
  • Sicherheitskorrekturen: Schwachstellen CVE-2025-0330 und CVE-2024-6825 behoben

Tauchen wir ein.

Echtzeit-API-Kostenverfolgung

Diese Veröffentlichung fügt Echtzeit-API-Protokollierung + Kostenverfolgung hinzu.

  • Protokollierung: LiteLLM protokolliert nun die vollständige Antwort von Echtzeit-Aufrufen für alle Protokollierungsintegrationen (DB, S3, Langfuse usw.)
  • Kostenverfolgung: Sie können nun 'base_model' und benutzerdefinierte Preise für Echtzeit-Modelle festlegen. Benutzerdefinierte Preise
  • Budgets: Ihre Schlüssel-/Benutzer-/Team-Budgets funktionieren nun auch für Echtzeit-Modelle.

Starten Sie hier

Microsoft SSO automatische Synchronisierung

Synchronisiert automatisch Gruppen und Mitglieder von Azure Entra ID nach LiteLLM

Diese Version fügt Unterstützung für die automatische Synchronisierung von Gruppen und Mitgliedern in Microsoft Entra ID mit LiteLLM hinzu. Das bedeutet, dass LiteLLM Proxy-Administratoren weniger Zeit mit der Verwaltung von Teams und Mitgliedern verbringen müssen und LiteLLM Folgendes übernimmt:

  • Automatische Erstellung von Teams, die in Microsoft Entra ID existieren
  • Synchronisierung von Teammitgliedern in Microsoft Entra ID mit LiteLLM-Teams

Starten Sie hier mit diesem Link

Neue Modelle / Aktualisierte Modelle

  • xAI

    1. Unterstützung für `reasoning_effort` für xai/grok-3-mini-beta hinzugefügt. Erste Schritte
    2. Kostenverfolgung für xai/grok-3-Modelle hinzugefügt. PR
  • Hugging Face

    1. Unterstützung für Inferenz-Anbieter hinzugefügt. Erste Schritte
  • Azure

    1. Kostenverfolgung für `azure/gpt-4o-realtime-audio` hinzugefügt. PR
  • VertexAI

    1. Unterstützung für das `enterpriseWebSearch`-Tool hinzugefügt. Erste Schritte
    2. Nur Schlüssel übergeben, die vom Vertex AI-Antwortschema akzeptiert werden. PR
  • Google AI Studio

    1. Kostenverfolgung für gemini-2.5-pro-Modelle hinzugefügt. PR
    2. Preise für 'gemini/gemini-2.5-pro-preview-03-25' korrigiert. PR
    3. Behandlung von `file_data`, das übergeben wird, korrigiert. PR
  • Azure

    1. Preise für Azure Phi-4 aktualisiert. PR
    2. Kostenverfolgung für `azure/gpt-4o-realtime-audio` hinzugefügt. PR
  • Databricks

    1. `reasoning_effort` aus Parametern entfernt. PR
    2. Überprüfung benutzerdefinierter Endpunkte für Databricks korrigiert. PR
  • Allgemein

    1. Dienstprogramm `litellm.supports_reasoning()` hinzugefügt, um zu verfolgen, ob eine LLM Reasoning unterstützt. Erste Schritte
    2. Function Calling - Pydantic Base Model in Message Tool Calls verarbeitet, `tools = []` verarbeitet und Streaming für Tool Calls bei `meta.llama3-3-70b-instruct-v1:0` unterstützt. PR
    3. LiteLLM Proxy - Parameter `thinking` kann über das Client-SDK an den LiteLLM Proxy übergeben werden. PR
    4. Parameter `thinking` für LiteLLM korrekt übersetzt. PR

Verbesserungen bei der Ausgabenverfolgung

  • OpenAI, Azure
    1. Echtzeit-API-Kostenverfolgung mit Token-Nutzungsmetriken in Spend-Logs. Erste Schritte
  • Anthropic
    1. Preise für Claude Haiku Cache Read pro Token korrigiert. PR
    2. Kostenverfolgung für Claude-Antworten mit `base_model` hinzugefügt. PR
    3. Kostenberechnung für Anthropic Prompt Caching und gekürzte geloggte Nachricht in der DB korrigiert. PR
  • Allgemein
    1. Token-Tracking und Nutzungs-Objekt in Spend-Logs hinzugefügt. PR
    2. Benutzerdefinierte Preise auf Deployment-Ebene verarbeiten. PR

Management Endpunkte / UI

  • Test Key Tab

    1. Darstellung von Reasoning-Inhalten, TTFT (Time to First Byte) und Nutzungsmetriken auf der Test-Key-Seite hinzugefügt. PR

      Anzeige von Input-, Output-, Reasoning-Tokens und TTFT-Metriken.

  • Tag- / Richtlinienverwaltung

    1. Tag-/Richtlinienverwaltung hinzugefügt. Erstellung von Routing-Regeln basierend auf Request-Metadaten. Dies ermöglicht die Durchsetzung, dass Anfragen mit tags="private" nur an bestimmte Modelle weitergeleitet werden. Erste Schritte


      Tags erstellen und verwalten.

  • Login-Bildschirm neu gestaltet

    1. Polierter Login-Bildschirm. PR
  • Microsoft SSO Auto-Sync

    1. Debug-Route hinzugefügt, um Admins die Fehlersuche bei SSO-JWT-Feldern zu ermöglichen. PR
    2. Möglichkeit hinzugefügt, die MSFT Graph API zur Zuweisung von Benutzern zu Teams zu verwenden. PR
    3. LiteLLM mit Microsoft Entra ID Enterprise Application verbunden. PR
    4. Möglichkeit für Admins hinzugefügt, `default_team_params` festzulegen, wenn LiteLLM SSO Standard-Teams erstellt. PR
    5. MSFT SSO korrigiert, um das richtige Feld für die Benutzere-Mail zu verwenden. PR
    6. UI-Unterstützung für die Einstellung von "Default Team" hinzugefügt, wenn LiteLLM SSO automatisch Teams erstellt. PR
  • UI-Fehlerbehebungen

    1. Verhindert, dass numerische Werte für Teams, Keys, Organisationen und Modelle beim Scrollen geändert werden. PR
    2. Key- und Team-Updates werden sofort in der UI widergespiegelt. PR

Verbesserungen bei Logging / Guardrails.

  • Prometheus
    1. Key- und Team-Budgetmetriken werden als Cronjob geplant ausgegeben. Erste Schritte

Sicherheitskorrekturen.

  • Gefixed CVE-2025-0330 - Leakage von Langfuse API-Schlüsseln bei der Team-Ausnahmebehandlung. PR
  • Gefixed CVE-2024-6825 - Remote Code Execution in Post-Call-Regeln. PR

Helm

  • Service-Annotationen zum LiteLLM-Helm-Chart hinzugefügt. PR
  • Zusätzliche Umgebungsvariablen (`extraEnvVars`) zum Helm-Deployment hinzugefügt. PR

Demo

Probieren Sie es noch heute in der Demo-Instanz aus. heute

Vollständiger Git-Diff

Sehen Sie den vollständigen Git-Diff seit v1.65.4-stable hier

Krrish Dholakia
Ishaan Jaffer

Diese Version bereitstellen

docker run litellm
docker run
-e STORE_MODEL_IN_DB=True
-p 4000:4000
ghcr.io/berriai/litellm:main-v1.65.4-stable

v1.65.4-stable ist live. Hier sind die Verbesserungen seit v1.65.0-stable.

Wichtige Highlights

  • Datenbank-Deadlocks verhindern: Behebt ein Problem bei hohem Datenverkehr, wenn mehrere Instanzen gleichzeitig in die Datenbank schrieben.
  • Neuer Nutzungs-Tab: Ermöglicht die Anzeige der Ausgaben nach Modell und die Anpassung des Datumsbereichs

Tauchen wir ein.

Datenbank-Deadlocks verhindern

Diese Version behebt das Problem mit Datenbank-Deadlocks, das Benutzer bei hohem Datenverkehr (10.000+ RPS) hatten. Das ist großartig, da die Ausgabenverfolgung nach Benutzer/Schlüssel/Team auch bei dieser Skalierung funktioniert.

Lesen Sie mehr über die neue Architektur hier

Neuer Nutzungs-Tab

Der neue Nutzungs-Tab bietet nun die Möglichkeit, tägliche Ausgaben pro Modell zu verfolgen. Dies erleichtert das Erkennen von Fehlern bei der Ausgabenverfolgung oder der Token-Zählung, in Kombination mit der Möglichkeit, erfolgreiche Anfragen und die Token-Nutzung anzuzeigen.

Um dies auszuprobieren, gehen Sie einfach zu Experimentell > Neuer Nutzungs-Tab > Aktivität.

Neue Modelle / Aktualisierte Modelle

  1. Databricks - `claude-3-7-sonnet` Kostenverfolgung. PR
  2. VertexAI - Kostenverfolgung für `gemini-2.5-pro-exp-03-25`. PR
  3. VertexAI - Kostenverfolgung für `gemini-2.0-flash`. PR
  4. Groq - Whisper ASR-Modelle zur Kostenübersicht hinzugefügt. PR
  5. IBM - `watsonx/ibm/granite-3-8b-instruct` zur Kostenübersicht hinzugefügt. PR
  6. Google AI Studio - `gemini/gemini-2.5-pro-preview-03-25` zur Kostenübersicht hinzugefügt. PR

LLM-Übersetzung

  1. Vertex AI - `anyOf`-Parameter für OpenAI JSON-Schema-Übersetzung unterstützt. Erste Schritte
  2. Anthropic - `response_format` + `thinking`-Parameter-Unterstützung (funktioniert über Anthropic API, Bedrock, Vertex). Erste Schritte
  3. Anthropic - Wenn `thinking`-Token angegeben sind und `max_tokens` nicht, stellen Sie sicher, dass `max_token` für Anthropic höher ist als die `thinking`-Token (funktioniert über Anthropic API, Bedrock, Vertex). PR
  4. Bedrock - Latenzoptimierte Inferenzunterstützung. Erste Schritte
  5. Sagemaker - Sonderzeichen + Mehrbyte-Zeichencode in der Antwort verarbeiten. Erste Schritte
  6. MCP - Unterstützung für die Verwendung von SSE MCP-Servern hinzugefügt. Erste Schritte
  7. Anthropic - neue `litellm.messages.create`-Schnittstelle zum Aufrufen von Anthropic `/v1/messages` über Passthrough. Erste Schritte
  8. Anthropic - `file`-Inhaltstyp im Nachrichtenparameter unterstützt (funktioniert über Anthropic API, Bedrock, Vertex). Erste Schritte
  9. Anthropic - `openai 'reasoning_effort'` auf Anthropic `thinking`-Parameter abgebildet (funktioniert über Anthropic API, Bedrock, Vertex). Erste Schritte
  10. Google AI Studio (Gemini) -[BETA] `/v1/files` Upload-Unterstützung. Erste Schritte
  11. Azure - Tool-Aufrufe von `o-series` korrigiert. Erste Schritte
  12. Einheitliche Datei-ID -[ALPHA]Mehrere Anbieter mit derselben Datei-ID aufrufen. PR
    • Dies ist experimentell und wird für den Produktionsgebrauch nicht empfohlen.
    • Wir planen, nächste Woche eine produktionsreife Implementierung zu haben.
  13. Google AI Studio (Gemini) - `logprobs` zurückgeben. PR
  14. Anthropic - Prompt Caching für Anthropic Tool Calls unterstützen. Erste Schritte
  15. OpenRouter - Zusätzlichen Body bei OpenRouter-Aufrufen entpacken. PR
  16. VertexAI - Problem mit dem Caching von Anmeldedaten korrigiert. PR
  17. XAI - Parameter 'name' für XAI herausfiltern. PR
  18. Gemini - Unterstützung für Bildgenerierungsausgabe. Erste Schritte
  19. Databricks - Unterstützung für `claude-3-7-sonnet` mit `thinking` + `response_format`. Erste Schritte

Verbesserungen bei der Ausgabenverfolgung

  1. Zuverlässigkeitsfix - Überprüft gesendete und empfangene Modelle für die Kostenberechnung. PR
  2. Vertex AI - Multimodal Embedding Kostenverfolgung. Erste Schritte, PR

Management Endpunkte / UI

  1. Neuer Nutzungs-Tab
    • `total_tokens` melden + erfolgreiche/fehlgeschlagene Aufrufe melden
    • Doppelte Balken beim Scrollen entfernen
    • Sicherstellen, dass das Diagramm "Tägliche Ausgaben" von frühestem bis spätestem Datum sortiert ist
    • Ausgaben pro Modell pro Tag anzeigen
    • Key-Alias im Nutzungs-Tab anzeigen
    • Nicht-Admins erlauben, ihre Aktivität einzusehen
    • Datumsselektor zum neuen Nutzungs-Tab hinzufügen
  2. Virtuelle Schlüssel-Tab
    • 'Standard-Schlüssel' bei Benutzerregistrierung entfernen
    • Anzeige der für die Erstellung persönlicher Schlüssel verfügbaren Benutzermodelle korrigiert
  3. Test Key Tab
    • Testen von Bildgenerierungsmodellen ermöglichen
  4. Modell-Tab
    • Massenhaftes Hinzufügen von Modellen korrigiert
    • Wiederverwendbare Anmeldedaten für Passthrough-Endpunkte unterstützen
    • Teammitgliedern erlauben, Teammodelle anzuzeigen
  5. Team-Tab
    • JSON-Serialisierungsfehler bei der Aktualisierung von Team-Metadaten korrigiert
  6. Request Logs Tab
    • Verfolgung von `reasoning_content`-Tokens über alle Anbieter hinweg beim Streaming hinzufügen
  7. API
  8. SSO
    • Zuweisung von SSO-Benutzern zu Teams bei MSFT SSO ermöglichen. PR

Logging / Guardrail Integrationen

  1. Konsolenprotokolle - JSON-Formatierung für nicht abgefangene Ausnahmen hinzugefügt. PR
  2. Guardrails - AIM Guardrails Unterstützung für virtuelle Schlüssel-basierte Richtlinien. Erste Schritte
  3. Logging - Startzeit der Vervollständigung korrekt verfolgt. PR
  4. Prometheus
    • Authentifizierung an Prometheus `/metrics`-Endpunkten ermöglichen. PR
    • Unterscheidung zwischen LLM-Provider-Ausnahme und LiteLLM-Ausnahme bei der Metrikbenennung. PR
    • Betriebsmetriken für die neue DB-Transaktionsarchitektur ausgeben. PR

Leistungs-/Loadbalancing-/Zuverlässigkeitsverbesserungen

  1. Deadlocks verhindern
    • Reduzierung von DB-Deadlocks durch Speicherung von Ausgabenaktualisierungen in Redis und anschließendes Commit in die DB. PR
    • Sicherstellen, dass keine Deadlocks beim Aktualisieren von `DailyUserSpendTransaction` auftreten. PR
    • High-Traffic-Fix - Sicherstellen, dass die neue DB + Redis-Architektur die Ausgaben korrekt verfolgt. PR
    • Verwendung von Redis für den PodLock Manager anstelle von PG (stellt sicher, dass keine Deadlocks auftreten). PR
    • v2 DB Deadlock Reduzierungsarchitektur – Hinzufügen von Max Size für In-Memory Queue + Backpressure Mechanismus. PR
  2. Prisma Migrationen. Erste Schritte
    • Verbindet den LiteLLM Proxy mit den Prisma Migrationsdateien von LiteLLM.
    • Verarbeitung von DB-Schema-Updates aus dem neuen `litellm-proxy-extras`-SDK.
  3. Redis - Passwortunterstützung für synchrone Sentinel-Clients. PR
  4. Behebung des Fehlers "Circular reference detected" bei `max_parallel_requests = 0`. PR
  5. Code QA - Hartecodierte Zahlen verbannen. PR

Helm

  1. Fix: Falsche Einrückung von `ttlSecondsAfterFinished` im Chart. PR

Allgemeine Proxy-Verbesserungen

  1. Fix - Nur `service_account_settings.enforced_params` bei Service-Konten anwenden. PR
  2. Fix - Behandlung von `metadata` Null bei `/chat/completion`. PR
  3. Fix - Protokollierung von täglichen Benutzer-Transaktionen außerhalb des `disable_spend_logs`-Flags verschieben, da sie nicht zusammenhängen. PR

Demo

Probieren Sie es noch heute in der Demo-Instanz aus. heute

Vollständiger Git-Diff

Sehen Sie den vollständigen Git-Diff seit v1.65.0-stable hier

Krrish Dholakia
Ishaan Jaffer

v1.65.0-stable ist jetzt live. Hier sind die wichtigsten Highlights dieser Version

  • MCP-Unterstützung: Unterstützung für die Hinzufügung und Verwendung von MCP-Servern im LiteLLM-Proxy.
  • UI zeigt Gesamtverbrauch nach 1 Mio.+ Logs an: Sie können nun Nutzungsanalysen anzeigen, nachdem Sie 1 Mio.+ Logs in der DB überschritten haben.

Model Context Protocol (MCP)

Diese Version führt die Unterstützung für die zentrale Hinzufügung von MCP-Servern zu LiteLLM ein. Dies ermöglicht es Ihnen, MCP-Server-Endpunkte hinzuzufügen und Ihre Entwickler können MCP-Tools über LiteLLM `list` und `call`.

Lesen Sie mehr über MCP hier.

MCP-Server über LiteLLM verfügbar machen und nutzen

UI zeigt Gesamtverbrauch nach 1 Mio.+ Logs an

Diese Version bietet die Möglichkeit, die Gesamtnutzungsanalysen auch nach Überschreitung von 1 Million+ Logs in Ihrer Datenbank anzuzeigen. Wir haben eine skalierbare Architektur implementiert, die nur aggregierte Nutzungsdaten speichert, was zu deutlich effizienteren Abfragen und einer reduzierten CPU-Auslastung der Datenbank führt.

Gesamtverbrauch nach 1 Mio.+ Logs anzeigen

  • So funktioniert es

    • Wir aggregieren nun Nutzungsdaten in einer dedizierten `DailyUserSpend`-Tabelle, was die Abfragelast und die CPU-Auslastung auch über 1 Million+ Logs hinaus erheblich reduziert.
  • Daily Spend Breakdown API

    • Granulare tägliche Nutzungsdaten (nach Modell, Anbieter und API-Schlüssel) mit einem einzigen Endpunkt abrufen. Beispielanfrage

      Daily Spend Breakdown API
      curl -L -X GET 'https://:4000/user/daily/activity?start_date=2025-03-20&end_date=2025-03-27' \
      -H 'Authorization: Bearer sk-...'
      Daily Spend Breakdown API-Antwort
      {
      "results": [
      {
      "date": "2025-03-27",
      "metrics": {
      "spend": 0.0177072,
      "prompt_tokens": 111,
      "completion_tokens": 1711,
      "total_tokens": 1822,
      "api_requests": 11
      },
      "breakdown": {
      "models": {
      "gpt-4o-mini": {
      "spend": 1.095e-05,
      "prompt_tokens": 37,
      "completion_tokens": 9,
      "total_tokens": 46,
      "api_requests": 1
      },
      "providers": { "openai": { ... }, "azure_ai": { ... } },
      "api_keys": { "3126b6eaf1...": { ... } }
      }
      }
      ],
      "metadata": {
      "total_spend": 0.7274667,
      "total_prompt_tokens": 280990,
      "total_completion_tokens": 376674,
      "total_api_requests": 14
      }
      }

Neue Modelle / Aktualisierte Modelle

  • Unterstützung für Vertex AI `gemini-2.0-flash-lite` & Google AI Studio `gemini-2.0-flash-lite`. PR
  • Unterstützung für Vertex AI Fine-Tuned LLMs. PR
  • Nova Canvas Bildgenerierungsunterstützung. PR
  • OpenAI `gpt-4o-transcribe`-Unterstützung. PR
  • Neues Vertex AI Text-Embedding-Modell hinzugefügt. PR

LLM-Übersetzung

  • OpenAI Web Search Tool Call-Unterstützung. PR
  • Vertex AI `topLogprobs`-Unterstützung. PR
  • Unterstützung für das Senden von Bildern und Videos an Vertex AI Multimodal Embedding. Doku
  • Unterstützung für `litellm.api_base` für Vertex AI + Gemini über Completion, Embedding, Image Generation. PR
  • Fehlerbehebung bei der Rückgabe von `response_cost` bei Verwendung des LiteLLM Python SDK mit LiteLLM Proxy. PR
  • Unterstützung für `max_completion_tokens` bei der Mistral API. PR
  • Refaktorierung der Vertex AI Passthrough-Routen - behebt unvorhersehbares Verhalten bei der automatischen Einstellung von `default_vertex_region` beim Hinzufügen von Router-Modellen. PR

Verbesserungen bei der Ausgabenverfolgung

  • `api_base` in Spend Logs protokollieren. PR
  • Unterstützung für die Kostenverfolgung von Gemini-Audio-Tokens. PR
  • Kostenverfolgung für OpenAI-Audio-Input-Tokens korrigiert. PR

UI

Modellverwaltung

  • Team-Admins wurde erlaubt, Modelle über die UI hinzuzufügen/zu aktualisieren/zu löschen. PR
  • `supports_web_search` auf dem Modell-Hub rendern hinzugefügt. PR

Request Logs

  • API-Basis und Modell-ID in Request Logs anzeigen. PR
  • Anzeige von Key-Informationen in Request Logs ermöglichen. PR

Nutzungs-Tab

  • Tägliche aggregierte Ausgabenansicht hinzugefügt - ermöglicht die Funktion des UI-Nutzungs-Tabs bei > 1 Mio. Zeilen. PR
  • UI mit der Ausgaben-Tabelle "LiteLLM_DailyUserSpend" verbunden. PR

Logging-Integrationen

  • StandardLoggingPayload für GCS Pub Sub Logging Integration korrigiert. PR
  • `litellm_model_name` in `StandardLoggingPayload` verfolgen. Dokumentation

Leistungs- / Zuverlässigkeitsverbesserungen

  • LiteLLM Redis semantische Caching-Implementierung. PR
  • Ausnahmen beim Ausfall der Datenbank gnädig behandeln. PR
  • Pods starten und `/health/readiness` übergeben, wenn `allow_requests_on_db_unavailable: True` und die DB nicht verfügbar ist. PR

Allgemeine Verbesserungen

  • Unterstützung für die Bereitstellung von MCP-Tools auf dem LiteLLM Proxy. PR
  • Unterstützung für die Erkennung von Gemini, Anthropic, xAI Modellen durch Aufruf ihres `/v1/model`-Endpunkts. PR
  • Routenprüfung für Nicht-Proxy-Admins bei JWT-Authentifizierung korrigiert. PR
  • Baseline Prisma-Datenbankmigrationen hinzugefügt. PR
  • Alle Wildcard-Modelle unter `/model/info` anzeigen. PR

Sicherheit

  • `next` von 14.2.21 auf 14.2.25 im UI-Dashboard aktualisiert. PR

Vollständiger Git-Diff

Hier ist der vollständige Git-Diff

Krrish Dholakia
Ishaan Jaffer

v1.65.0 aktualisiert den Endpunkt `/model/new`, um zu verhindern, dass Nicht-Team-Admins Teammodelle erstellen.

Das bedeutet, dass nur Proxy-Admins oder Team-Admins Teammodelle erstellen können.

Zusätzliche Änderungen

  • Ermöglicht Team-Admins, `/model/update` aufzurufen, um Teammodelle zu aktualisieren.
  • Ermöglicht Team-Admins, `/model/delete` aufzurufen, um Teammodelle zu löschen.
  • Führt den neuen Parameter `user_models_only` für `/v2/model/info` ein - gibt nur Modelle zurück, die von diesem Benutzer hinzugefügt wurden.

Diese Änderungen ermöglichen es Team-Admins, Modelle für ihr Team über die LiteLLM UI + API hinzuzufügen und zu verwalten.

Krrish Dholakia
Ishaan Jaffer

Dies sind die Änderungen seit v1.63.11-stable.

Diese Version bringt

  • LLM-Übersetzungsverbesserungen (MCP-Unterstützung und Bedrock Application Profiles)
  • Leistungsverbesserungen für nutzungsbasiertes Routing
  • Streaming-Guardrail-Unterstützung über WebSockets
  • Azure OpenAI Client-Leistungsfix (aus der vorherigen Version)

Docker Run LiteLLM Proxy

docker run
-e STORE_MODEL_IN_DB=True
-p 4000:4000
ghcr.io/berriai/litellm:main-v1.63.14-stable.patch1

Demo-Instanz

Hier ist eine Demo-Instanz, um Änderungen zu testen

Neue Modelle / Aktualisierte Modelle

  • Azure gpt-4o - Preise auf die neuesten globalen Preise korrigiert - PR
  • O1-Pro - Preise + Modellinformationen hinzugefügt - PR
  • Azure AI - Mistral 3.1 Small-Preise hinzugefügt - PR
  • Azure - gpt-4.5-preview-Preise hinzugefügt - PR

LLM-Übersetzung

  1. Neue LLM-Funktionen
  • Bedrock: Bedrock Application Inference Profiles unterstützen. Dokumentation
    • AWS-Region aus Bedrock Application Profile ID ableiten - (arn:aws:bedrock:us-east-1:...)
  • Ollama - Aufruf über `/v1/completions` unterstützen. Erste Schritte
  • Bedrock - Modellnamen `us.deepseek.r1-v1:0` unterstützen. Dokumentation
  • OpenRouter - `OPENROUTER_API_BASE` Umgebungsvariablen-Unterstützung. Dokumentation
  • Azure - Parameterunterstützung für Audiomodelle hinzugefügt - Dokumentation
  • OpenAI - PDF-Dateiunterstützung. Dokumentation
  • OpenAI - `o1-pro` Streaming-Unterstützung für Antworten-API. Dokumentation
  • [BETA]MCP - MCP-Tools mit LiteLLM SDK verwenden. Dokumentation
  1. Fehlerbehebungen
  • Voyage: Prompt-Token bei Embedding-Tracking-Fix - PR
  • Sagemaker - Fehler 'Too little data for declared Content-Length' korrigiert - PR
  • OpenAI-kompatible Modelle - Problem bei Aufrufen von OpenAI-kompatiblen Modellen mit gesetztem `custom_llm_provider` behoben - PR
  • VertexAI - Unterstützung für 'outputDimensionality' bei Embeddings - PR
  • Anthropic - konsistentes JSON-Antwortformat bei Streaming/Nicht-Streaming zurückgeben - PR

Verbesserungen bei der Ausgabenverfolgung

  • litellm_proxy/ - Lesen des LiteLLM-Antwortkost-Headers vom Proxy unterstützen, wenn das Client-SDK verwendet wird
  • Reset Budget Job - Budget-Reset-Fehler bei Schlüsseln/Teams/Benutzern korrigiert. PR
  • Streaming - Verhindert, dass der letzte Chunk mit Nutzung ignoriert wird (betraf Bedrock Streaming + Kostenverfolgung). PR

UI

  1. Benutzerseite
    • Funktion: Standard-Internen-Benutzereinstellungen steuern. PR
  2. Icons
    • Funktion: Externe "artificialanalysis.ai"-Icons durch lokale SVGs ersetzen. PR
  3. Anmelden/Abmelden
    • Fix: Standard-Login, wenn der Benutzer `default_user_id` nicht in der DB existiert. PR

Logging-Integrationen

  • Unterstützung für Post-Call-Guardrails für Streaming-Antworten. Erste Schritte
  • Arize. Erste Schritte
    • Ungültigen Paketimport behoben. PR
    • Migration zur Verwendung von `StandardLoggingPayload` für Metadaten, um sicherzustellen, dass Spans erfolgreich landen. PR
    • Logging korrigiert, um nur die LLM-Ein-/Ausgaben zu protokollieren. PR
    • Dynamische API-Key-/Space-Parameterunterstützung. Erste Schritte
  • StandardLoggingPayload - `litellm_model_name` in der Payload protokollieren. Ermöglicht die Kenntnis des Modells, das an den API-Anbieter gesendet wurde. Erste Schritte
  • Prompt-Management - Erstellung eigener Prompt-Management-Integrationen ermöglichen. Erste Schritte

Leistungs- / Zuverlässigkeitsverbesserungen

  • Redis Caching - Standard-Timeout von 5 Sekunden hinzugefügt, verhindert, dass hängende Redis-Verbindungen LLM-Aufrufe beeinträchtigen. PR
  • Deaktivieren aller Ausgaben-Updates / -Schreibvorgänge in die DB ermöglichen - Patch zur Deaktivierung aller Ausgaben-Updates in die DB mit einem Flag. PR
  • Azure OpenAI - Azure OpenAI Client korrekt wiederverwenden, behebt Leistungsprobleme aus der vorherigen Stable-Version. PR
  • Azure OpenAI - `litellm.ssl_verify` bei Azure/OpenAI Clients verwenden. PR
  • Nutzungsbasiertes Routing - Wildcard-Modell-Unterstützung. Erste Schritte
  • Nutzungsbasiertes Routing - Batch-Schreiben von Inkrementen nach Redis unterstützen - reduziert die Latenz auf das Niveau von 'simple-shuffle'. PR
  • Router - Grund für die Modellabkühlung bei der Fehlermeldung "no healthy deployments available" anzeigen. PR
  • Caching - Maximale Item-Größe im In-Memory-Cache (1 MB) hinzufügen - verhindert OOM-Fehler bei großen Bild-URLs, die über den Proxy gesendet werden. PR

Allgemeine Verbesserungen

  • Passthrough-Endpunkte - Rückgabe von `api-base` in Passthrough-Endpunkt-Antwortheadern unterstützen. Dokumentation
  • SSL - Lesen des SSL-Sicherheitslevels aus der Umgebungsvariable unterstützen - Ermöglicht dem Benutzer, niedrigere Sicherheitseinstellungen festzulegen. Erste Schritte
  • Anmeldedaten - Nur die Credentials-Tabelle abfragen, wenn `STORE_MODEL_IN_DB` True ist. PR
  • Bild-URL-Verarbeitung - Neue Architektur-Dokumentation zur Bild-URL-Verarbeitung. Dokumentation
  • OpenAI - Upgrade auf `pip install "openai==1.68.2"`. PR
  • Gunicorn - Sicherheitsfix - Bump `gunicorn==23.0.0`. PR

Vollständiger Git-Diff

Hier ist der vollständige Git-Diff

Krrish Dholakia
Ishaan Jaffer

Dies sind die Änderungen seit v1.63.2-stable.

Diese Version konzentriert sich hauptsächlich auf

  • [Beta]Responses API-Unterstützung
  • Snowflake Cortex Unterstützung, Amazon Nova Bildgenerierung
  • UI - Anmeldedatenverwaltung, Wiederverwendung von Anmeldedaten beim Hinzufügen neuer Modelle
  • UI - Testen der Verbindung zum LLM-Anbieter vor dem Hinzufügen eines Modells

Bekannte Probleme

  • 🚨 Bekanntes Problem bei Azure OpenAI - Wir empfehlen kein Upgrade, wenn Sie Azure OpenAI verwenden. Diese Version ist bei unserem Azure OpenAI Lasttest fehlgeschlagen.

Docker Run LiteLLM Proxy

docker run
-e STORE_MODEL_IN_DB=True
-p 4000:4000
ghcr.io/berriai/litellm:main-v1.63.11-stable

Demo-Instanz

Hier ist eine Demo-Instanz, um Änderungen zu testen

Neue Modelle / Aktualisierte Modelle

  • Bildgenerierungsunterstützung für Amazon Nova Canvas. Erste Schritte
  • Preise für neue Jamba-Modelle hinzugefügt. PR
  • Preise für Amazon EU-Modelle hinzugefügt. PR
  • Preise für Bedrock Deepseek R1-Modelle hinzugefügt. PR
  • Gemini-Preise aktualisiert: Gemma 3, Flash 2 Thinking-Update, LearnLM. PR
  • Cohere Embedding 3-Modelle als Multimodal markiert. PR
  • Azure Data Zone Preisgestaltung hinzufügen PR
    • LiteLLM verfolgt Kosten für Modelle in azure/eu und azure/us

LLM-Übersetzung

  1. Neue Endpunkte
  1. Neue LLM-Anbieter
  1. Neue LLM-Funktionen
  • Unterstützt reasoning_content von OpenRouter beim Streaming Erste Schritte
  1. Fehlerbehebungen
  • OpenAI: Gibt code, param und type bei fehlerhaften Anfragen zurück Weitere Informationen zu litellm-Ausnahmen
  • Bedrock: Korrigiert das Parsen von Converse-Chunks, um bei Tool-Nutzung nur ein leeres Dict zurückzugeben PR
  • Bedrock: Unterstützt extra_headers PR
  • Azure: Korrigiert Funktionsaufruf-Bug & aktualisiert Standard-API-Version auf 2025-02-01-preview PR
  • Azure: Korrigiert URL für KI-Dienste PR
  • Vertex AI: Behandelt HTTP-Statuscode 201 in der Antwort PR
  • Perplexity: Korrigiert falsche Streaming-Antwort PR
  • Triton: Korrigiert Bug bei Streaming-Abschlüssen PR
  • Deepgram: Unterstützt Bytes.IO beim Verarbeiten von Audiodateien für Transkriptionen PR
  • Ollama: Korrigiert "system"-Rolle, die inakzeptabel geworden ist PR
  • Alle Anbieter (Streaming): Korrigiert, dass der String data: aus dem gesamten Inhalt gestreamter Antworten entfernt wurde PR

Verbesserungen bei der Ausgabenverfolgung

  1. Unterstützt Bedrock Converse Cache Token Tracking Erste Schritte
  2. Kostenverfolgung für Responses API Erste Schritte
  3. Korrigiert Kostenverfolgung für Azure Whisper Erste Schritte

UI

Anmeldeinformationen in der UI wiederverwenden

Sie können jetzt LLM-Anbieteranmeldeinformationen in der LiteLLM UI integrieren. Sobald diese Anmeldeinformationen hinzugefügt wurden, können Sie sie beim Hinzufügen neuer Modelle wiederverwenden Erste Schritte

Verbindungen testen, bevor Modelle hinzugefügt werden

Bevor Sie ein Modell hinzufügen, können Sie die Verbindung zum LLM-Anbieter testen, um zu überprüfen, ob Sie Ihre API-Basis + API-Schlüssel korrekt eingerichtet haben.

Allgemeine UI-Verbesserungen

  1. Modelle hinzufügen-Seite
    • Ermöglicht das Hinzufügen von Cerebras-, Sambanova-, Perplexity-, Fireworks-, Openrouter-, TogetherAI-Modellen, Text-Completion OpenAI im Admin-UI
    • Ermöglicht das Hinzufügen von EU-OpenAI-Modellen
    • Behebung: Bearbeiten und Löschen von Modellen sofort anzeigen
  2. Schlüssel-Seite
    • Behebung: Neu erstellte Schlüssel sofort im Admin-UI anzeigen (kein Aktualisieren erforderlich)
    • Behebung: Ermöglicht das Klicken auf Top-Schlüssel, wenn Benutzer den Top-API-Schlüssel angezeigt werden
    • Behebung: Ermöglicht das Filtern von Schlüsseln nach Team-Alias, Schlüssel-Alias und Org
    • UI-Verbesserungen: 100 Schlüssel pro Seite anzeigen, volle Höhe nutzen, Breite des Schlüssel-Alias erhöhen
  3. Benutzerseite
    • Behebung: Korrekte Anzahl interner Benutzerschlüssel auf der Benutzerseite anzeigen
    • Behebung: Metadaten werden in der Team-UI nicht aktualisiert
  4. Protokolle-Seite
    • UI-Verbesserungen: Erweitertes Protokoll im Fokus auf LiteLLM UI halten
    • UI-Verbesserungen: Kleinere Verbesserungen auf der Protokollseite
    • Behebung: Ermöglicht internen Benutzern, ihre eigenen Protokolle abzufragen
    • Speicherung von Fehlerprotokollen in der DB ausschalten Erste Schritte
  5. Anmelden/Abmelden
    • Behebung: Korrekte Verwendung von PROXY_LOGOUT_URL, wenn gesetzt Erste Schritte

Sicherheit

  1. Unterstützung für rotierende Master-Schlüssel Erste Schritte
  2. Behebung: Berechtigungen für interne Benutzeransichten, die Rolle internal_user_viewer darf nicht die Test Key Page oder den Create Key Button sehen Weitere Informationen zu rollenbasierter Zugriffskontrolle
  3. Audit-Protokolle für alle Benutzer- und Modellerstellungs-/Update-/Lösch-Endpunkte ausgeben Erste Schritte
  4. JWT
    • Unterstützung für mehrere JWT OIDC-Anbieter Erste Schritte
    • Behebung: JWT-Zugriff mit Gruppen funktioniert nicht, wenn einem Team Zugriff auf alle Proxy-Modelle zugewiesen ist
  5. Verwendung von K/V-Paaren in einem AWS-Secret Erste Schritte

Logging-Integrationen

  1. Prometheus: Metrik für die Latenz der Azure LLM-API verfolgen Erste Schritte
  2. Athina: Tags, Benutzerfeedback und Modelloptionen zu additional_keys hinzugefügt, die an Athina gesendet werden können Erste Schritte

Leistungs- / Zuverlässigkeitsverbesserungen

  1. Redis + litellm router - Korrigiert Redis-Cluster-Modus für litellm-Router PR

Allgemeine Verbesserungen

  1. OpenWebUI-Integration - thinking-Token anzeigen
  • Anleitung für den Einstieg in LiteLLM x OpenWebUI. Erste Schritte
  • thinking-Token auf OpenWebUI anzeigen (Bedrock, Anthropic, Deepseek) Erste Schritte

Vollständiger Git-Diff

Hier ist der vollständige Git-Diff

Krrish Dholakia
Ishaan Jaffer

Dies sind die Änderungen seit v1.61.20-stable.

Diese Version konzentriert sich hauptsächlich auf

  • Verbesserungen der LLM-Übersetzung (weitere Verbesserungen bei thinking-Inhalten)
  • UI-Verbesserungen (Fehlerprotokolle werden jetzt in der UI angezeigt)
Info

Diese Version wird am 03.09.2025 live gehen.

Demo-Instanz

Hier ist eine Demo-Instanz, um Änderungen zu testen

Neue Modelle / Aktualisierte Modelle

  1. supports_pdf_input für spezifische Bedrock Claude-Modelle hinzufügen PR
  2. Preise für Amazon eu-Modelle hinzufügen PR
  3. Azure O1 Mini-Preise korrigieren PR

LLM-Übersetzung

  1. Unterstützt /openai/-Passthrough für Assistant-Endpunkte. Erste Schritte
  2. Bedrock Claude - Korrigiert Tool-Calling-Transformation auf dem Invoke-Endpunkt. Erste Schritte
  3. Bedrock Claude - response_format-Unterstützung für Claude auf dem Invoke-Endpunkt. Erste Schritte
  4. Bedrock - description weitergeben, wenn in response_format gesetzt. Erste Schritte
  5. Bedrock - Korrigiert das Übergeben von response_format: {"type": "text"}. PR
  6. OpenAI - Handhabt das Senden von image_url als String an OpenAI. Erste Schritte
  7. Deepseek - gibt reasoning_content zurück, das beim Streaming fehlt. Erste Schritte
  8. Caching - Unterstützt Caching für Reasoning-Inhalte. Erste Schritte
  9. Bedrock - Verarbeitet thinking-Blöcke in der Assistant-Nachricht. Erste Schritte
  10. Anthropic - gibt signature beim Streaming zurück. Erste Schritte
  • Hinweis: Wir sind auch von signature_delta zu signature migriert. Mehr lesen
  1. Unterstützt den Parameter format zur Angabe des Bildtyps. Erste Schritte
  2. Anthropic - Endpunkt /v1/messages - Unterstützung für den Parameter thinking. Erste Schritte
  • Hinweis: Dies refaktoriert den[BETA]vereinheitlichten /v1/messages-Endpunkt, um nur für die Anthropic API zu funktionieren.
  1. Vertex AI - verarbeitet $id im Antwortschema bei Aufruf von Vertex AI. Erste Schritte

Verbesserungen bei der Ausgabenverfolgung

  1. Batches API - Korrigiert Kostenberechnung für die Ausführung bei retrieve_batch. Erste Schritte
  2. Batches API - Protokolliert Batch-Modelle in Spend-Protokollen / Standard-Logging-Payload. Erste Schritte

Management Endpunkte / UI

  1. Virtuelle Schlüssel-Seite
    • Ermöglicht durchsuchbare Team-/Org-Filter auf der Erstellen-Schlüssel-Seite
    • Felder created_by und updated_by zur Schlüssel-Tabelle hinzugefügt
    • Zeigt 'user_email' in der Schlüssel-Tabelle an
    • 100 Schlüssel pro Seite anzeigen, volle Höhe nutzen, Breite des Schlüssel-Alias erhöhen
  2. Protokolle-Seite
    • Fehlerprotokolle auf der LiteLLM UI anzeigen
    • Internen Benutzern erlauben, ihre eigenen Protokolle anzuzeigen
  3. Interne Benutzer-Seite
    • Administratoren erlauben, den Standardmodellzugriff für interne Benutzer zu steuern
  4. Sitzungsverwaltung mit Cookies korrigiert

Logging / Guardrail Integrationen

  1. Korrigiert Prometheus-Metriken mit benutzerdefinierten Metriken, wenn Schlüssel mit team_id Anfragen stellen. PR

Leistungs-/Loadbalancing-/Zuverlässigkeitsverbesserungen

  1. Wartezeiten - Unterstützt Wartezeiten bei Modellen, die mit clientseitigen Anmeldeinformationen aufgerufen werden. Erste Schritte
  2. Tag-basierte Weiterleitung - stellt tag-basierte Weiterleitung über alle Endpunkte sicher (/embeddings, /image_generation, etc.). Erste Schritte

Allgemeine Proxy-Verbesserungen

  1. Löst BadRequestError aus, wenn ein unbekanntes Modell in der Anfrage übergeben wird
  2. Erzwingt Modellzugriffsbeschränkungen für die Azure OpenAI-Proxy-Route
  3. Zuverlässigkeitskorrektur - Handhabt Emojis in Texten - behebt orjson-Fehler
  4. Modellzugriffs-Patch - überschreibt litellm.anthropic_models nicht beim Ausführen von Authentifizierungsprüfungen
  5. Zeitzoninforamtionen im Docker-Image einstellen

Vollständiger Git-Diff

Hier ist der vollständige Git-Diff

Krrish Dholakia
Ishaan Jaffer

v1.63.0 behebt die Anthropic 'thinking'-Antwort beim Streaming, um den signature-Block zurückzugeben. Github-Problem

Außerdem wird die Antwortstruktur von signature_delta zu signature geändert, um mit Anthropic übereinzustimmen. Anthropic Docs

Diff

"message": {
...
"reasoning_content": "The capital of France is Paris.",
"thinking_blocks": [
{
"type": "thinking",
"thinking": "The capital of France is Paris.",
- "signature_delta": "EqoBCkgIARABGAIiQL2UoU0b1OHYi+..." # 👈 OLD FORMAT
+ "signature": "EqoBCkgIARABGAIiQL2UoU0b1OHYi+..." # 👈 KEY CHANGE
}
]
}

Krrish Dholakia
Ishaan Jaffer

Dies sind die Änderungen seit v1.61.13-stable.

Diese Version konzentriert sich hauptsächlich auf

  • Verbesserungen der LLM-Übersetzung (Unterstützung für claude-3-7-sonnet + 'thinking'/'reasoning_content')
  • UI-Verbesserungen (Modell-Hinzufügen-Fluss, Benutzerverwaltung usw.)

Demo-Instanz

Hier ist eine Demo-Instanz, um Änderungen zu testen

Neue Modelle / Aktualisierte Modelle

  1. Unterstützung für Anthropic 3-7 sonnet + Kostenverfolgung (Anthropic API + Bedrock + Vertex AI + OpenRouter)
    1. Anthropic API Hier starten
    2. Bedrock API Hier starten
    3. Vertex AI API Hier ansehen
    4. OpenRouter Hier ansehen
  2. Unterstützung für Gpt-4.5-preview + Kostenverfolgung Hier ansehen
  3. Azure AI - Phi-4 Kostenverfolgung Hier ansehen
  4. Claude-3.5-sonnet - Vision-Unterstützung auf Anthropic API aktualisiert Hier ansehen
  5. Bedrock Llama Vision-Unterstützung Hier ansehen
  6. Cerebras llama3.3-70b Preisgestaltung Hier ansehen

LLM-Übersetzung

  1. Infinity Rerank - Unterstützt die Rückgabe von Dokumenten, wenn return_documents=True Hier starten
  2. Amazon Deepseek - Extraktion des <think>-Parameters in 'reasoning_content' Hier starten
  3. Amazon Titan Embeddings - Filtert 'aws_'-Parameter aus dem Anfragekörper heraus Hier starten
  4. Anthropic 'thinking' + 'reasoning_content' Übersetzungsunterstützung (Anthropic API, Bedrock, Vertex AI) Hier starten
  5. VLLM - unterstützt 'video_url' Hier starten
  6. Proxy über litellm SDK aufrufen: Unterstützt litellm_proxy/ für Embeddings, Bilderzeugung, Transkription, Sprache, Reranking Hier starten
  7. OpenAI Pass-through - Ermöglicht die Verwendung von Assistants GET, DELETE auf /openai Pass-through-Routen Hier starten
  8. Nachrichtenübersetzung - Korrigiert OpenAI-Nachricht für Assistant-Nachrichten, wenn die Rolle fehlt - OpenAI erlaubt dies
  9. O1/O3 - unterstützt 'drop_params' für o3-mini und den o1 parallel_tool_calls-Parameter (derzeit nicht unterstützt) Hier ansehen

Verbesserungen bei der Ausgabenverfolgung

  1. Kostenverfolgung für Rerank über Bedrock PR ansehen
  2. Anthropic Pass-through - behebt Race Condition, die dazu führt, dass Kosten nicht verfolgt werden PR ansehen
  3. Anthropic Pass-through: Genaue Tokenzählung sicherstellen PR ansehen

Management Endpunkte / UI

  1. Modellseite - Modelle nach "erstellt am" sortieren
  2. Modellseite - Verbesserungen des Modell-Bearbeitungsflusses
  3. Modellseite - Behebung des Hinzufügens von Azure-, Azure AI Studio-Modellen in der UI
  4. Interne Benutzerseite - Massenhaftes Hinzufügen von internen Benutzern in der UI ermöglichen
  5. Interne Benutzerseite - Benutzer nach "erstellt am" sortieren
  6. Virtuelle Schlüssel-Seite - Benutzer-IDs auf dem Dropdown-Menü beim Zuweisen eines Benutzers zu einem Team durchsuchbar machen PR ansehen
  7. Virtuelle Schlüssel-Seite - Ermöglicht das Erstellen eines Benutzers bei der Zuweisung von Schlüsseln an Benutzer PR ansehen
  8. Model Hub-Seite - Problem mit Textüberlauf behoben PR ansehen
  9. Admin-Einstellungen-Seite - MSFT SSO in der UI hinzufügen
  10. Backend - doppelte interne Benutzer in der DB nicht erstellen

Helm

  1. unterstützt ttlSecondsAfterFinished für den Migrationsjob - PR ansehen
  2. Migrationsjob mit zusätzlichen konfigurierbaren Eigenschaften verbessern - PR ansehen

Logging / Guardrail Integrationen

  1. Arize Phoenix Unterstützung
  2. 'no-log' - Korrigiert die Unterstützung des 'no-log'-Parameters bei Embedding-Aufrufen

Leistungs-/Loadbalancing-/Zuverlässigkeitsverbesserungen

  1. Single Deployment Cooldown-Logik - Verwendet allowed_fails oder allowed_fail_policy, falls gesetzt Hier starten

Allgemeine Proxy-Verbesserungen

  1. Hypercorn - Korrigiert das Lesen/Parsen des Anfragekörpers
  2. Windows - Korrigiert das Ausführen des Proxys unter Windows
  3. DD-Trace - Korrigiert die Aktivierung von dd-trace im Proxy

Vollständiger Git-Diff

Vollständiges Git-Diff hier ansehen hier.

Krrish Dholakia
Ishaan Jaffer
Info

Erhalten Sie hier einen 7-tägigen kostenlosen Test für LiteLLM Enterprise hier.

kein Aufruf erforderlich

Neue Modelle / Aktualisierte Modelle

  1. Neuer OpenAI /image/variations Endpunkt BETA-Unterstützung Docs
  2. Topaz API-Unterstützung auf dem OpenAI /image/variations BETA-Endpunkt Docs
  3. Deepseek - r1-Unterstützung mit reasoning_content (Deepseek API, Vertex AI, Bedrock)
  4. Azure - Azure O1-Preise hinzufügen Hier ansehen
  5. Anthropic - -latest-Tag im Modell für die Kostenberechnung handhaben
  6. Gemini-2.0-flash-thinking - Modellpreise hinzufügen (es sind 0,0) Hier ansehen
  7. Bedrock - Preise für das Modell stability sd3 hinzufügen Hier ansehen (s/o Marty Sullivan)
  8. Bedrock - us.amazon.nova-lite-v1:0 zur Modellkosten-Map hinzufügen Hier ansehen
  9. TogetherAI - neue Together_AI Llama3.3-Modelle hinzufügen Hier ansehen

LLM-Übersetzung

  1. LM Studio -> asynchronen Embedding-Aufruf korrigieren
  2. Gpt 4o Modelle - Übersetzung von response_format korrigieren
  3. Bedrock Nova - unterstützte Dokumenttypen auf .md, .csv usw. erweitern Hier starten
  4. Bedrock - Dokumente zur IAM-rollenbasierter Zugriffskontrolle für Bedrock - Hier starten
  5. Bedrock - IAM-Rollenanmeldeinformationen bei Verwendung cachen
  6. Google AI Studio (gemini/) - unterstützt 'frequency_penalty' und 'presence_penalty' von Gemini
  7. Azure O1 - Modellnamensprüfung korrigieren
  8. WatsonX - ZenAPIKey-Unterstützung für WatsonX Docs
  9. Ollama Chat - Unterstützung für JSON-Schema-Antwortformat Hier starten
  10. Bedrock - gibt den korrekten Bedrock-Statuscode und die Fehlermeldung zurück, wenn ein Fehler während des Streamings auftritt
  11. Anthropic - unterstützte verschachtelte JSON-Schemata in Anthropic-Aufrufen
  12. OpenAI - Vorschauunterstützung für den metadata-Parameter
    1. SDK - aktivieren über litellm.enable_preview_features = True
    2. PROXY - aktivieren über litellm_settings::enable_preview_features: true
  13. Replicate - Completion-Antwort bei Status=processing erneut versuchen

Verbesserungen bei der Ausgabenverfolgung

  1. Bedrock - QA-Assertions, dass alle Bedrock-Regionenmodelle die gleichen supported_ wie das Basismodell haben
  2. Bedrock - Kostenverfolgung für Bedrock Converse mit angegebenem Regionsnamen korrigieren
  3. Zuverlässigkeitskorrektur von Spend Logs - wenn user im Anfragekörper als Integer statt als String übergeben wird
  4. Stellt sicher, dass die Kostenverfolgung für 'base_model' über alle Endpunkte hinweg funktioniert
  5. Korrekturen für die Kostenverfolgung bei Bilderzeugung
  6. Anthropic - Kostenverfolgung für Endbenutzer von Anthropic korrigieren
  7. JWT / OIDC Auth - Verfolgung der Endbenutzer-ID aus der JWT-Authentifizierung hinzufügen

Management Endpunkte / UI

  1. Ermöglicht es Teammitgliedern, nach dem Hinzufügen Administrator zu werden (UI + Endpunkte)
  2. Neue Schaltfläche "Bearbeiten/Löschen" zum Aktualisieren der Teammitgliedschaft in der UI
  3. Wenn Team-Admin - zeigt alle Team-Schlüssel an
  4. Model Hub - Kosten von Modellen pro 1 Mio. Token verdeutlichen
  5. Einladungslinks - Ungültige URL korrigieren
  6. Neu - SpendLogs Table Viewer - Ermöglicht Proxy-Admins das Anzeigen von Spend-Protokollen in der UI
    1. Neue Spend-Protokolle - Ermöglicht Proxy-Admins, das Protokollieren von Anfragen/Antworten in der Spend-Protokoll-Tabelle zu aktivieren - ermöglicht einfachere Missbrauchserkennung
    2. Herkunftsland in Spend-Protokollen anzeigen
    3. Paginierung + Filterung nach Schlüsselname/Teamname hinzufügen
  7. /key/delete - Ermöglicht Team-Admins das Löschen von Team-Schlüsseln
  8. Interner Benutzer "Ansicht" - Spendkalkulation korrigieren, wenn ein Team ausgewählt ist
  9. Modellanalysen sind jetzt kostenlos
  10. Nutzungsseite - zeigt Tage mit Spenden = 0 an und rundet Spenden in Diagrammen auf 2 signifikante Stellen
  11. Öffentliche Teams - Ermöglicht Administratoren, Teams für neue Benutzer zum "Beitreten" in der UI anzuzeigen - Hier starten
  12. Guardrails
    1. Guardrails für einen virtuellen Schlüssel festlegen/bearbeiten
    2. Guardrails für ein Team festlegen
    3. Guardrails auf der Erstellungs- und Bearbeitungsseite für Teams festlegen
  13. Unterstützt temporäre Budgeterhöhungen bei /key/update - neue Felder temp_budget_increase und temp_budget_expiry - Hier starten
  14. Unterstützt das Schreiben neuer Schlüssel-Aliase in AWS Secret Manager - bei Schlüsselrotation Hier starten

Helm

  1. securityContext und pull policy-Werte zum Migrationsjob hinzufügen (s/o https://github.com/Hexoplon)
  2. Umgebungsvariablen in values.yaml festlegen
  3. neuer Helm Lint-Test

Logging / Guardrail Integrationen

  1. Verwendeten Prompt protokollieren, wenn Prompt-Management verwendet wird. Hier starten
  2. Unterstützung für S3-Protokollierung mit Team-Alias-Präfixen - Hier starten
  3. Prometheus Hier starten
    1. Korrigiert, dass die Metrik litellm_llm_api_time_to_first_token für Bedrock-Modelle nicht befüllt wird
    2. Restliches Team-Budget-Metrik regelmäßig ausgeben (auch wenn kein Aufruf erfolgt) - ermöglicht stabilere Metriken auf Grafana/etc.
    3. Schlüssel- und Teamebene-Budget-Metriken hinzufügen
    4. litellm_overhead_latency_metric ausgeben
    5. litellm_team_budget_reset_at_metric und litellm_api_key_budget_remaining_hours_metric ausgeben
  4. Datadog - Unterstützt das Protokollieren von Spend-Tags in Datadog. Hier starten
  5. Langfuse - Protokollierung von Request-Tags korrigieren, aus Standard-Logging-Payload lesen
  6. GCS - Payload bei der Protokollierung nicht abschneiden
  7. Neue GCS Pub/Sub Logging-Unterstützung Hier starten
  8. AIM Guardrails-Unterstützung hinzufügen Hier starten

Sicherheit

  1. Neue Enterprise SLA für die Behebung von Sicherheitslücken. Hier ansehen
  2. Hashicorp - Unterstützt die Verwendung von Vault-Namespaces für TLS-Authentifizierung. Hier starten
  3. Azure - DefaultAzureCredential-Unterstützung

Health Checks

  1. Bereinigt Modellnamen nur für Preise aus der Wildcard-Routenliste - verhindert fehlerhafte Health Checks
  2. Ermöglicht die Angabe eines Health-Check-Modells für Wildcard-Routen - https://docs.litellm.de/docs/proxy/health#wildcard-routes
  3. Neuer Parameter health_check_timeout mit einem Standard-Oberlimit von 1 Minute, um zu verhindern, dass ein fehlerhaftes Modell den Health Check blockiert und Pod-Neustarts verursacht. Hier starten
  4. Datadog - fügt Datadog Service Health Check hinzu + stellt den neuen Endpunkt /health/services bereit. Hier starten

Leistungs- / Zuverlässigkeitsverbesserungen

  1. 3x Erhöhung der RPS - Wechsel zu orjson für das Lesen des Anfragekörpers
  2. LLM-Routing-Beschleunigung - Verwendung von gecachtem Modellgruppeninformationsabruf
  3. SDK-Beschleunigung - Verwendung von gecachtem Modellinformationshelfer - reduziert CPU-Arbeit für den Abruf von Modellinformationen
  4. Proxy-Beschleunigung - liest den Anfragekörper nur 1 Mal pro Anfrage
  5. Skripte zur Erkennung von Endlosschleifen zum Codebase hinzugefügt
  6. Bedrock - reine asynchrone Bildtransformationsanfragen
  7. Wartezeiten - Einzelnes Deployment-Modellgruppe, wenn 100% der Aufrufe bei hohem Datenverkehr fehlschlagen - verhindert, dass ein O1-Ausfall andere Aufrufe beeinträchtigt
  8. Antwort-Header - geben Sie zurück
    1. x-litellm-timeout
    2. x-litellm-attempted-retries
    3. x-litellm-overhead-duration-ms
    4. x-litellm-response-duration-ms
  9. Stellt sicher, dass keine doppelten Rückrufe zum Proxy hinzugefügt werden
  10. Requirements.txt - certifi-Version erhöhen

Allgemeine Proxy-Verbesserungen

  1. JWT / OIDC Auth - neuer Parameter enforce_rbac, ermöglicht Proxy-Admin, alle nicht zugeordneten, aber authentifizierten JWT-Tokens vom Aufruf des Proxys abzuhalten. Hier starten
  2. Korrigiert die Generierung von benutzerdefinierten OpenAPI-Schemas für angepasste Swagger-Docs
  3. Anfrage-Header - unterstützt das Lesen des Parameters x-litellm-timeout aus den Anfrage-Headern. Ermöglicht die Steuerung der Modell-Timeout-Zeit bei Verwendung von Vercel's AI SDK + LiteLLM Proxy. Hier starten
  4. JWT / OIDC Auth - neue role-basierte Berechtigungen für die Modellauthentifizierung. Hier ansehen

Vollständiger Git-Diff

Dies ist der Diff zwischen v1.57.8-stable und v1.59.8-stable.

Verwenden Sie dies, um die Änderungen im Codebase zu sehen.

Git Diff

Krrish Dholakia
Ishaan Jaffer
Info

Erhalten Sie hier einen 7-tägigen kostenlosen Test für LiteLLM Enterprise hier.

kein Aufruf erforderlich

UI-Verbesserungen

[Opt-in]Admin UI - Nachrichten / Antworten anzeigen

Sie können jetzt Nachrichten- und Antwortprotokolle in der Admin UI anzeigen.

So aktivieren Sie es - fügen Sie store_prompts_in_spend_logs: true zu Ihrer proxy_config.yaml hinzu

Sobald dieses Flag aktiviert ist, werden Ihre messages und responses in der Tabelle LiteLLM_Spend_Logs gespeichert.

general_settings:
store_prompts_in_spend_logs: true

Datenbankschema-Änderung

messages und responses zur Tabelle LiteLLM_Spend_Logs hinzugefügt.

Standardmäßig wird dies nicht protokolliert. Wenn Sie möchten, dass messages und responses protokolliert werden, müssen Sie sich mit dieser Einstellung anmelden.

general_settings:
store_prompts_in_spend_logs: true

Krrish Dholakia
Ishaan Jaffer

alerting, prometheus, secret management, management endpoints, ui, prompt management, finetuning, batch

Neue / Aktualisierte Modelle

  1. Mistral Large Preisgestaltung - https://github.com/BerriAI/litellm/pull/7452
  2. Cohere command-r7b-12-2024 Preisgestaltung - https://github.com/BerriAI/litellm/pull/7553/files
  3. Voyage - neue Modelle, Preise und Kontextfensterinformationen - https://github.com/BerriAI/litellm/pull/7472
  4. Anthropic - max_output_tokens für Bedrock Claude-3-5-Haiku auf 8192 erhöhen

Allgemeine Proxy-Verbesserungen

  1. Health-Check-Unterstützung für Echtzeitmodelle
  2. Unterstützt das Aufrufen von Azure-Echtzeitrouten über virtuelle Schlüssel
  3. Unterstützt benutzerdefinierte Tokenizer auf /utils/token_counter - nützlich beim Überprüfen der Token-Anzahl für selbst gehostete Modelle
  4. Anforderungspriorisierung - unterstützt auch auf dem /v1/completion-Endpunkt

LLM-Übersetzungsverbesserungen

  1. Deepgram STT-Unterstützung. Hier starten
  2. OpenAI Moderationen - Unterstützung für omni-moderation-latest. Hier starten
  3. Azure O1 - Fake-Streaming-Unterstützung. Dies stellt sicher, dass die Antwort gestreamt wird, wenn stream=true übergeben wird. Hier starten
  4. Anthropic - Behandlung von Nicht-Leerzeichen-Zeichen als Stoppsequenz - PR
  5. Azure OpenAI - Unterstützung für die Authentifizierung basierend auf Benutzername + Passwort von Entra ID. Hier starten
  6. LM Studio - Embedding-Routen-Unterstützung. Hier starten
  7. WatsonX - ZenAPIKeyAuth-Unterstützung. Hier starten

Prompt Management Verbesserungen

  1. Langfuse-Integration
  2. HumanLoop-Integration
  3. Unterstützung für die Verwendung von Lastverteilungsmodellen
  4. Unterstützung für das Laden optionaler Parameter aus dem Prompt-Manager

Hier starten

Finetuning + Batch API Verbesserungen

  1. Verbesserte einheitliche Endpunktunterstützung für Vertex AI Finetuning - PR
  2. Unterstützung für den Abruf von Vertex API Batch-Jobs hinzufügen - PR

NEUE Alerting-Integration

PagerDuty Alerting-Integration.

Behandelt zwei Arten von Alarmen

  • Hohe Ausfallrate der LLM-API. Konfigurieren Sie X Fehler in Y Sekunden, um einen Alarm auszulösen.
  • Hohe Anzahl von hängenden LLM-Anfragen. Konfigurieren Sie X Hänger in Y Sekunden, um einen Alarm auszulösen.

Hier starten

Prometheus Verbesserungen

Unterstützung für die Verfolgung von Latenz/Ausgaben/Tokens basierend auf benutzerdefinierten Metriken hinzugefügt. Hier starten

NEUE Hashicorp Secret Manager Unterstützung

Unterstützung für das Lesen von Anmeldeinformationen + Schreiben von LLM-API-Schlüsseln. Hier starten

Management-Endpunkte / UI-Verbesserungen

  1. Organisationen erstellen und anzeigen + Organisationsadministratoren in der Proxy-UI zuweisen
  2. Unterstützt das Löschen von Schlüsseln nach key_alias
  3. Teams der Organisation in der UI zuweisen
  4. Verhindert die Verwendung des UI-Sitzungs-Tokens für den "Testschlüssel"-Bereich
  5. Anzeige des verwendeten Modells im "Testschlüssel"-Bereich
  6. Unterstützt Markdown-Ausgabe im "Testschlüssel"-Bereich

Helm-Verbesserungen

  1. Verhindert Istio-Injection für den DB-Migrations-Cronjob
  2. migrationJob.enabled-Variable innerhalb des Jobs verwenden

Logging-Verbesserungen

  1. braintrust logging: project_id berücksichtigen, mehr Metriken hinzufügen - https://github.com/BerriAI/litellm/pull/7613
  2. Athina - Basis-URL unterstützen - ATHINA_BASE_URL
  3. Lunary - Übergabe einer benutzerdefinierten übergeordneten Ausführungs-ID an LLM-Aufrufe zulassen

Git-Diff

Dies ist der Diff zwischen v1.56.3-stable und v1.57.8-stable.

Verwenden Sie dies, um die Änderungen im Codebase zu sehen.

Git Diff

Krrish Dholakia
Ishaan Jaffer

langfuse, Management-Endpunkte, UI, prometheus, Geheimnisverwaltung

Langfuse Prompt Management

Langfuse Prompt Management wird als BETA gekennzeichnet. Dies ermöglicht uns, schnell auf Feedback zu reagieren, das wir erhalten, und den Status für Benutzer klarer zu gestalten. Wir erwarten, dass diese Funktion nächsten Monat (Februar 2025) stabil sein wird.

Änderungen

  • Die Client-Nachricht in der LLM API-Anfrage einschließen. (Zuvor wurde nur die Prompt-Vorlage gesendet, und die Client-Nachricht wurde ignoriert).
  • Protokollieren Sie die Prompt-Vorlage in der protokollierten Anfrage (z. B. nach S3/Langfuse).
  • Protokollieren Sie die 'prompt_id' und 'prompt_variables' in der protokollierten Anfrage (z. B. nach S3/Langfuse).

Hier starten

Team-/Organisationsverwaltung + UI-Verbesserungen

Die Verwaltung von Teams und Organisationen in der Benutzeroberfläche ist jetzt einfacher.

Änderungen

  • Unterstützung für die Bearbeitung von Benutzerrollen innerhalb eines Teams in der Benutzeroberfläche.
  • Unterstützung für die Aktualisierung der Rolle eines Teammitglieds auf Administrator über die API - /team/member_update
  • Team-Administratoren zeigen alle Schlüssel für ihr Team an.
  • Organisationen mit Budgets hinzufügen
  • Teams Organisationen auf der Benutzeroberfläche zuweisen
  • SSO-Benutzer automatisch Teams zuweisen

Hier starten

Hashicorp Vault Unterstützung

Wir unterstützen jetzt das Schreiben von LiteLLM Virtual API-Schlüsseln in Hashicorp Vault.

Hier starten

Benutzerdefinierte Prometheus-Metriken

Definieren Sie benutzerdefinierte Prometheus-Metriken und verfolgen Sie Nutzung/Latenz/Anzahl der Anfragen dagegen.

Dies ermöglicht eine feinere Verfolgung - z. B. basierend auf der im Metadaten der Anfrage übergebenen Prompt-Vorlage.

Hier starten

Krrish Dholakia
Ishaan Jaffer

Docker-Image, Sicherheit, Schwachstelle

0 kritische/hohe Schwachstellen

Was hat sich geändert?

  • Das LiteLLMBase-Image verwendet jetzt cgr.dev/chainguard/python:latest-dev

Warum die Änderung?

Um sicherzustellen, dass es 0 kritische/hohe Schwachstellen im LiteLLM Docker-Image gibt.

Migrationsanleitung

  • Wenn Sie ein benutzerdefiniertes Dockerfile mit litellm als Basis-Image + apt-get verwenden.

Verwenden Sie anstelle von apt-get apk, da das Basis-LiteLLM-Image kein apt-get mehr installiert hat.

Sie sind nur betroffen, wenn Sie apt-get in Ihrem Dockerfile verwenden.

# Use the provided base image
FROM ghcr.io/berriai/litellm:main-latest

# Set the working directory
WORKDIR /app

# Install dependencies - CHANGE THIS to `apk`
RUN apt-get update && apt-get install -y dumb-init

Vor der Änderung

RUN apt-get update && apt-get install -y dumb-init

Nach der Änderung

RUN apk update && apk add --no-cache dumb-init

Krrish Dholakia
Ishaan Jaffer

deepgram, fireworks ai, vision, admin-UI, Abhängigkeits-Upgrades

Neue Modelle

Deepgram Speech to Text

Neue Speech-to-Text-Unterstützung für Deepgram-Modelle. Start hier

from litellm import transcription
import os

# set api keys
os.environ["DEEPGRAM_API_KEY"] = ""
audio_file = open("/path/to/audio.mp3", "rb")

response = transcription(model="deepgram/nova-2", file=audio_file)

print(f"response: {response}")

Fireworks AI - Vision Unterstützung für alle Modelle

LiteLLM unterstützt das Inline-Einbetten von Dokumenten für Fireworks AI-Modelle. Dies ist nützlich für Modelle, die keine Vision-Modelle sind, aber dennoch Dokumente/Bilder usw. verarbeiten müssen. LiteLLM fügt #transform=inline zur URL des image_url hinzu, wenn das Modell kein Vision-Modell ist. Code ansehen

Proxy Admin UI

  • Der Tab Test Key zeigt das in der Antwort verwendete Modell an.
  • Der Tab Test Key rendert Inhalte im Format .md, .py (beliebiges Code-/Markdown-Format).

Abhängigkeits-Upgrades

Fehlerbehebungen

Krrish Dholakia
Ishaan Jaffer

guardrails, logging, virtuelles Schlüsselmanagement, neue Modelle

Info

Erhalten Sie hier einen 7-tägigen kostenlosen Test für LiteLLM Enterprise hier.

kein Aufruf erforderlich

Neue Funktionen

✨ Guardrail-Traces protokollieren

Verfolgen Sie die Fehlerrate von Guardrails und ob ein Guardrail fehlerhaft ist und Anfragen ablehnt. Start hier

Erfolgreiche Guardrail-Nachverfolgung

Fehlgeschlagene Guardrail-Nachverfolgung

/guardrails/list

/guardrails/list ermöglicht es Clients, verfügbare Guardrails + unterstützte Guardrail-Parameter anzuzeigen.

curl -X GET 'http://0.0.0.0:4000/guardrails/list'

Erwartete Antwort

{
"guardrails": [
{
"guardrail_name": "aporia-post-guard",
"guardrail_info": {
"params": [
{
"name": "toxicity_score",
"type": "float",
"description": "Score between 0-1 indicating content toxicity level"
},
{
"name": "pii_detection",
"type": "boolean"
}
]
}
}
]
}

✨ Guardrails mit Mock LLM

Senden Sie eine mock_response, um Guardrails zu testen, ohne einen LLM-Aufruf zu tätigen. Weitere Informationen zu mock_response finden Sie hier.

curl -i https://:4000/v1/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer sk-npnwjPQciVRok5yNZgKmFQ" \
-d '{
"model": "gpt-3.5-turbo",
"messages": [
{"role": "user", "content": "hi my email is ishaan@berri.ai"}
],
"mock_response": "This is a mock response",
"guardrails": ["aporia-pre-guard", "aporia-post-guard"]
}'

Schlüssel Benutzern zuweisen

Sie können jetzt Schlüssel über die Proxy-Benutzeroberfläche Benutzern zuweisen.

Neue Modelle

  • openrouter/openai/o1
  • vertex_ai/mistral-large@2411

Korrekturen

Krrish Dholakia
Ishaan Jaffer

Schlüsselverwaltung, Budgets/Ratenbegrenzungen, Protokollierung, Guardrails

Info

Erhalten Sie hier einen 7-tägigen kostenlosen Test für LiteLLM Enterprise hier.

kein Aufruf erforderlich

✨ Budget-/Ratenbegrenzungsschichten

Definieren Sie Schichten mit Ratenbegrenzungen. Weisen Sie sie Schlüsseln zu.

Verwenden Sie dies, um den Zugriff und die Budgets über viele Schlüssel hinweg zu steuern.

Start hier

curl -L -X POST 'http://0.0.0.0:4000/budget/new' \
-H 'Authorization: Bearer sk-1234' \
-H 'Content-Type: application/json' \
-d '{
"budget_id": "high-usage-tier",
"model_max_budget": {
"gpt-4o": {"rpm_limit": 1000000}
}
}'

OTEL-Fehlerbehebung

LiteLLM hat den litellm_request-Span doppelt protokolliert. Dies ist jetzt behoben.

Relevante PR

Protokollierung für Finetuning-Endpunkte

Protokolle für Finetuning-Anfragen sind jetzt bei allen Protokollierungsanbietern (z. B. Datadog) verfügbar.

Was wird pro Anfrage protokolliert

  • file_id
  • finetuning_job_id
  • Alle Schlüssel-/Team-Metadaten

Hier starten

Dynamische Parameter für Guardrails

Sie können jetzt benutzerdefinierte Parameter (wie Erfolgsschwelle) für Ihre Guardrails in jeder Anfrage festlegen.

Weitere Details finden Sie in der Guardrails-Spezifikation.

Krrish Dholakia
Ishaan Jaffer

Batches, Guardrails, Teamverwaltung, benutzerdefinierte Authentifizierung


Info

Erhalten Sie hier eine kostenlose 7-tägige LiteLLM Enterprise Testversion. Start hier

Kein Aufruf erforderlich

✨ Kostenverfolgung, Protokollierung für Batch-API (/batches)

Verfolgen Sie Kosten und Nutzung für Batch-Erstellungsaufträge. Start hier

/guardrails/list Endpunkt

Zeigen Sie verfügbare Guardrails für Benutzer an. Start hier

✨ Teams erlauben, Modelle hinzuzufügen

Dies ermöglicht es Team-Administratoren, ihre eigenen feinabgestimmten Modelle über den LiteLLM-Proxy aufzurufen. Start hier

✨ Allgemeine Prüfungen für benutzerdefinierte Authentifizierung

Der Aufruf der internen common_checks-Funktion in der benutzerdefinierten Authentifizierung ist jetzt als Enterprise-Funktion vorgeschrieben. Dies ermöglicht Administratoren, die Standard-Budget-/Authentifizierungsprüfungen von LiteLLM innerhalb ihrer benutzerdefinierten Authentifizierungsimplementierung zu nutzen. Start hier

✨ Zuweisung von Team-Administratoren

Team-Administratoren wechseln aus der Beta-Phase in unsere Enterprise-Stufe. Dies ermöglicht Proxy-Administratoren, anderen die Verwaltung von Schlüsseln/Modellen für ihre eigenen Teams zu gestatten (nützlich für Produktionsprojekte). Start hier

Krrish Dholakia
Ishaan Jaffer

Eine neue LiteLLM Stable-Version wurde gerade veröffentlicht. Hier sind 5 Updates seit v1.52.2-stable.

langfuse, Fallbacks, neue Modelle, azure_storage

Langfuse Prompt Management

Dies erleichtert das Ausführen von Experimenten oder das Ändern spezifischer Modelle wie gpt-4o zu gpt-4o-mini auf Langfuse, anstatt Änderungen in Ihren Anwendungen vorzunehmen. Start hier

Fallback-Prompts clientseitig steuern

Claude-Prompts unterscheiden sich von OpenAI-Prompts.

Übergabe von modellspezifischen Prompts bei der Verwendung von Fallbacks. Start hier

Neue Anbieter / Modelle

✨ Unterstützung für Azure Data Lake Storage

Senden Sie LLM-Nutzungsdaten (Ausgaben, Token) an Azure Data Lake. Dies erleichtert die Nutzung von Nutzungsdaten auf anderen Diensten (z. B. Databricks) Start hier

Docker Run LiteLLM

docker run \
-e STORE_MODEL_IN_DB=True \
-p 4000:4000 \
ghcr.io/berriai/litellm:litellm_stable_release_branch-v1.55.8-stable

Tägliche Updates erhalten

LiteLLM veröffentlicht täglich neue Versionen. Folgen Sie uns auf LinkedIn, um tägliche Updates zu erhalten.