v1.68.0-stable

3. Mai 2025

Krrish Dholakia

CEO, LiteLLM

Ishaan Jaffer

CTO, LiteLLM

Diese Version bereitstellen

Docker
Pip

docker run litellm
docker run
-e STORE_MODEL_IN_DB=True
-p 4000:4000
ghcr.io/berriai/litellm:main-v1.68.0-stable

pip install litellm

pip install litellm==1.68.0.post1

Wichtige Highlights

LiteLLM v1.68.0-stable ist bald live. Hier sind die wichtigsten Highlights dieser Version

Bedrock Knowledge Base: Sie können jetzt Ihre Bedrock Knowledge Base mit allen LiteLLM-Modellen über die /chat/completion- oder /responses-API abfragen.
Ratenbegrenzungen: Diese Version bietet eine genaue Ratenbegrenzung über mehrere Instanzen hinweg und reduziert Überlaufanfragen auf maximal 10 zusätzliche Anfragen bei hohem Datenverkehr.
Meta Llama API: Unterstützung für die Meta Llama API hinzugefügt Erste Schritte
LlamaFile: Unterstützung für LlamaFile hinzugefügt Erste Schritte

Bedrock Knowledge Base (Vektorspeicher)

Diese Version fügt Unterstützung für Bedrock-Vektorspeicher (Wissensdatenbanken) in LiteLLM hinzu. Mit diesem Update können Sie:

Bedrock-Vektorspeicher im OpenAI /chat/completions-Format mit allen von LiteLLM unterstützten Modellen verwenden.
Alle verfügbaren Vektorspeicher über die LiteLLM-Benutzeroberfläche oder API anzeigen.
Vektorspeicher für bestimmte Modelle dauerhaft aktiv schalten.
Die Nutzung von Vektorspeichern in den LiteLLM-Protokollen verfolgen.

Für die nächste Version planen wir, Ihnen das Festlegen von Berechtigungen für Schlüssel, Benutzer, Teams und Organisationen für Vektorspeicher zu ermöglichen.

Lesen Sie hier mehr

Ratenbegrenzung

Diese Version bringt eine genaue Multi-Instanz-Ratenbegrenzung über Schlüssel/Benutzer/Teams hinweg. Nachfolgend werden die wichtigsten technischen Änderungen erläutert:

Änderung: Instanzen inkrementieren jetzt den Cache-Wert, anstatt ihn zu setzen. Um Redis bei jeder Anfrage nicht aufrufen zu müssen, wird dies alle 0,01s synchronisiert.
Genauigkeit: In Tests sahen wir einen maximalen Überlauf gegenüber den Erwartungen von 10 Anfragen bei hohem Datenverkehr (100 RPS, 3 Instanzen) im Vergleich zu einem aktuellen Überlauf von 189 Anfragen.
Leistung: Unsere Lasttests zeigen, dass dies die mediane Antwortzeit bei hohem Datenverkehr um 100 ms reduziert.

Dies ist derzeit hinter einem Feature-Flag verborgen und wir planen, dies nächste Woche standardmäßig zu aktivieren. Um dies heute zu aktivieren, fügen Sie einfach diese Umgebungsvariable hinzu

export LITELLM_RATE_LIMIT_ACCURACY=true

Lesen Sie hier mehr

Neue Modelle / Aktualisierte Modelle

Gemini (VertexAI + Google AI Studio)
- Mehr JSON-Schema-Konvertierungs-Edge-Cases für OpenAPI-Schemata verarbeiten PR
- Tool-Aufrufe - 'finish_reason="tool_calls"' für Gemini-Tool-Calling-Antworten zurückgeben PR
VertexAI
- Meta/llama-4 Modellunterstützung PR
- Meta/llama3 - Tool-Aufrufergebnis im Inhalt verarbeiten PR
- Meta/* - 'finish_reason="tool_calls"' für Tool-Calling-Antworten zurückgeben PR
Bedrock
- Bilderzeugung - Neue Modelle 'stable-image-core' unterstützen - PR
- Knowledge Bases - Verwendung von Bedrock Knowledge Bases mit /chat/completions unterstützen PR
- Anthropic - 'supports_pdf_input' für claude-3.7-bedrock-Modelle hinzufügen PR, Erste Schritte
OpenAI
- Unterstützung für OPENAI_BASE_URL zusätzlich zu OPENAI_API_BASE PR
- 504 Timeout-Fehler korrekt erneut auslösen PR
- Native GPT-4o-mini-tts-Unterstützung PR
🆕 Meta Llama API Provider PR
🆕 LlamaFile Provider PR

LLM API Endpoints

Response API
- Behebung bei der Verarbeitung von Multi-Turn-Sitzungen PR
Einbettungen
- Caching-Korrekturen - PR
  - Konvertierung von str in list im Cache
  - Nutzungstoken für Cache-Treffer zurückgeben
  - Nutzungstoken bei teilweisen Cache-Treffern kombinieren
🆕 Vektorspeicher
- Konfiguration von Vektorspeichern zulassen - PR
- Neues Feld StandardLoggingPayload für Anfragen, die bei Verwendung eines Vektorspeichers gestellt werden - PR
- Vektorspeicher/KB-Anfragen auf der LiteLLM-Protokollseite anzeigen - PR
- Verwendung von Vektorspeichern in der OpenAI-API-Spezifikation mit Tools zulassen - PR
MCP
- Sicherstellen, dass Nicht-Admin-virtuelle Schlüssel auf /mcp-Routen zugreifen können - PR
  Hinweis: Derzeit können alle virtuellen Schlüssel auf die MCP-Endpunkte zugreifen. Wir arbeiten an einer Funktion, um den MCP-Zugriff nach Schlüsseln/Teams/Benutzern/Organisationen zu beschränken. Folgen Sie hier für Updates.
Moderationen
- Unterstützung für Logging-Callbacks für die /moderations-API hinzufügen - PR

Verbesserungen bei der Ausgabenverfolgung / Budget

OpenAI
- Kostenverfolgung / Preisgestaltung für computer-use-preview PR
- Kostenverfolgung für Eingaben von gpt-4o-mini-tts - PR
Fireworks AI - Preisaktualisierungen - neue Preisstufe für Modelle 0-4b + Preis für Llama4-Modell
Budgets
- Budget-Resets erfolgen jetzt zu Beginn des Tages/der Woche/des Monats - PR
- Soft-Budget-Warnungen auslösen, wenn ein Schlüssel einen Schwellenwert überschreitet - PR
Token-Zählung
- Neufassung der Funktion token_counter(), um Unterzählungen von Tokens zu verhindern - PR

Management Endpunkte / UI

Virtuelle Schlüssel
- Filtern nach Schlüsselalias korrigieren - PR
- Globale Filterung nach Schlüsseln unterstützen - PR
- Paginierung - Klicken auf Vorwärts-/Rückwärts-Schaltflächen in der Tabelle korrigiert - PR
Modelle
- Triton - Hinzufügen von Modellen/Providern in der Benutzeroberfläche unterstützen - PR
- VertexAI - Hinzufügen von Vertex-Modellen mit wiederverwendbaren Anmeldeinformationen korrigiert - PR
- LLM-Anmeldeinformationen - vorhandene Anmeldeinformationen zur einfachen Bearbeitung anzeigen - PR
Teams
- Zuordnung eines Teams zu einer anderen Organisation zulassen - PR
Organisationen
- Anzeige des Organisationsbudgets in der Tabelle korrigiert - PR

Logging / Guardrail Integrationen

Langsmith
- Beachten Sie den Parameter langsmith_batch_size - PR

Leistungs-/Loadbalancing-/Zuverlässigkeitsverbesserungen

Redis
- Sicherstellen, dass alle Redis-Warteschlangen periodisch geleert werden, dies behebt ein Problem, bei dem die Größe der Redis-Warteschlange bei Verwendung von Request-Tags unendlich wuchs - PR
Ratenbegrenzungen
- Unterstützung für Multi-Instanz-Ratenbegrenzung über Schlüssel/Teams/Benutzer/Kunden hinweg - PR, PR, PR
Azure OpenAI OIDC
- Verwendung von LiteLLM-definierten Parametern für OIDC-Authentifizierung zulassen - PR

Allgemeine Proxy-Verbesserungen

Sicherheit
- Web-Crawler blockieren zulassen - PR
Authentifizierung
- Standardmäßige Unterstützung für den Header-Parameter x-litellm-api-key, dies behebt ein Problem aus der vorherigen Version, bei dem x-litellm-api-key bei Vertex-AI-Passthrough-Anfragen nicht verwendet wurde - PR
- Schlüsseln mit maximalem Budget erlauben, Nicht-LLM-API-Endpunkte aufzurufen - PR
🆕 Python-Clientbibliothek für LiteLLM Proxy Management Endpunkte
- Erster PR - PR
- Unterstützung für HTTP-Anfragen - PR
Abhängigkeiten
- uvloop für Windows nicht erforderlich machen - PR

Diese Version bereitstellen​

Wichtige Highlights​

Bedrock Knowledge Base (Vektorspeicher)​

Ratenbegrenzung​

Neue Modelle / Aktualisierte Modelle​

LLM API Endpoints​

Verbesserungen bei der Ausgabenverfolgung / Budget​

Management Endpunkte / UI​

Logging / Guardrail Integrationen​

Leistungs-/Loadbalancing-/Zuverlässigkeitsverbesserungen​

Allgemeine Proxy-Verbesserungen​