Diese Version bereitstellen
- Docker
- Pip
docker run
-e STORE_MODEL_IN_DB=True
-p 4000:4000
ghcr.io/berriai/litellm:main-v1.68.0-stable
pip install litellm==1.68.0.post1
Wichtige Highlights
LiteLLM v1.68.0-stable ist bald live. Hier sind die wichtigsten Highlights dieser Version
- Bedrock Knowledge Base: Sie können jetzt Ihre Bedrock Knowledge Base mit allen LiteLLM-Modellen über die
/chat/completion- oder/responses-API abfragen. - Ratenbegrenzungen: Diese Version bietet eine genaue Ratenbegrenzung über mehrere Instanzen hinweg und reduziert Überlaufanfragen auf maximal 10 zusätzliche Anfragen bei hohem Datenverkehr.
- Meta Llama API: Unterstützung für die Meta Llama API hinzugefügt Erste Schritte
- LlamaFile: Unterstützung für LlamaFile hinzugefügt Erste Schritte
Bedrock Knowledge Base (Vektorspeicher)
Diese Version fügt Unterstützung für Bedrock-Vektorspeicher (Wissensdatenbanken) in LiteLLM hinzu. Mit diesem Update können Sie:
- Bedrock-Vektorspeicher im OpenAI /chat/completions-Format mit allen von LiteLLM unterstützten Modellen verwenden.
- Alle verfügbaren Vektorspeicher über die LiteLLM-Benutzeroberfläche oder API anzeigen.
- Vektorspeicher für bestimmte Modelle dauerhaft aktiv schalten.
- Die Nutzung von Vektorspeichern in den LiteLLM-Protokollen verfolgen.
Für die nächste Version planen wir, Ihnen das Festlegen von Berechtigungen für Schlüssel, Benutzer, Teams und Organisationen für Vektorspeicher zu ermöglichen.
Ratenbegrenzung
Diese Version bringt eine genaue Multi-Instanz-Ratenbegrenzung über Schlüssel/Benutzer/Teams hinweg. Nachfolgend werden die wichtigsten technischen Änderungen erläutert:
- Änderung: Instanzen inkrementieren jetzt den Cache-Wert, anstatt ihn zu setzen. Um Redis bei jeder Anfrage nicht aufrufen zu müssen, wird dies alle 0,01s synchronisiert.
- Genauigkeit: In Tests sahen wir einen maximalen Überlauf gegenüber den Erwartungen von 10 Anfragen bei hohem Datenverkehr (100 RPS, 3 Instanzen) im Vergleich zu einem aktuellen Überlauf von 189 Anfragen.
- Leistung: Unsere Lasttests zeigen, dass dies die mediane Antwortzeit bei hohem Datenverkehr um 100 ms reduziert.
Dies ist derzeit hinter einem Feature-Flag verborgen und wir planen, dies nächste Woche standardmäßig zu aktivieren. Um dies heute zu aktivieren, fügen Sie einfach diese Umgebungsvariable hinzu
export LITELLM_RATE_LIMIT_ACCURACY=true
Neue Modelle / Aktualisierte Modelle
- Gemini (VertexAI + Google AI Studio)
- VertexAI
- Bedrock
- Bilderzeugung - Neue Modelle 'stable-image-core' unterstützen - PR
- Knowledge Bases - Verwendung von Bedrock Knowledge Bases mit
/chat/completionsunterstützen PR - Anthropic - 'supports_pdf_input' für claude-3.7-bedrock-Modelle hinzufügen PR, Erste Schritte
- OpenAI
- 🆕 Meta Llama API Provider PR
- 🆕 LlamaFile Provider PR
LLM API Endpoints
- Response API
- Behebung bei der Verarbeitung von Multi-Turn-Sitzungen PR
- Einbettungen
- Caching-Korrekturen - PR
- Konvertierung von str in list im Cache
- Nutzungstoken für Cache-Treffer zurückgeben
- Nutzungstoken bei teilweisen Cache-Treffern kombinieren
- Caching-Korrekturen - PR
- 🆕 Vektorspeicher
- Konfiguration von Vektorspeichern zulassen - PR
- Neues Feld StandardLoggingPayload für Anfragen, die bei Verwendung eines Vektorspeichers gestellt werden - PR
- Vektorspeicher/KB-Anfragen auf der LiteLLM-Protokollseite anzeigen - PR
- Verwendung von Vektorspeichern in der OpenAI-API-Spezifikation mit Tools zulassen - PR
- MCP
Sicherstellen, dass Nicht-Admin-virtuelle Schlüssel auf /mcp-Routen zugreifen können - PR
Hinweis: Derzeit können alle virtuellen Schlüssel auf die MCP-Endpunkte zugreifen. Wir arbeiten an einer Funktion, um den MCP-Zugriff nach Schlüsseln/Teams/Benutzern/Organisationen zu beschränken. Folgen Sie hier für Updates.
- Moderationen
- Unterstützung für Logging-Callbacks für die
/moderations-API hinzufügen - PR
- Unterstützung für Logging-Callbacks für die
Verbesserungen bei der Ausgabenverfolgung / Budget
- OpenAI
- Kostenverfolgung / Preisgestaltung für computer-use-preview PR
- Kostenverfolgung für Eingaben von gpt-4o-mini-tts - PR
- Fireworks AI - Preisaktualisierungen - neue Preisstufe für Modelle
0-4b+ Preis für Llama4-Modell - Budgets
- Token-Zählung
- Neufassung der Funktion token_counter(), um Unterzählungen von Tokens zu verhindern - PR
Management Endpunkte / UI
- Virtuelle Schlüssel
- Modelle
- Teams
- Zuordnung eines Teams zu einer anderen Organisation zulassen - PR
- Organisationen
- Anzeige des Organisationsbudgets in der Tabelle korrigiert - PR
Logging / Guardrail Integrationen
- Langsmith
- Beachten Sie den Parameter langsmith_batch_size - PR
Leistungs-/Loadbalancing-/Zuverlässigkeitsverbesserungen
- Redis
- Sicherstellen, dass alle Redis-Warteschlangen periodisch geleert werden, dies behebt ein Problem, bei dem die Größe der Redis-Warteschlange bei Verwendung von Request-Tags unendlich wuchs - PR
- Ratenbegrenzungen
- Unterstützung für Multi-Instanz-Ratenbegrenzung über Schlüssel/Teams/Benutzer/Kunden hinweg - PR, PR, PR
- Azure OpenAI OIDC
- Verwendung von LiteLLM-definierten Parametern für OIDC-Authentifizierung zulassen - PR
Allgemeine Proxy-Verbesserungen
- Sicherheit
- Web-Crawler blockieren zulassen - PR
- Authentifizierung
- Standardmäßige Unterstützung für den Header-Parameter
x-litellm-api-key, dies behebt ein Problem aus der vorherigen Version, bei demx-litellm-api-keybei Vertex-AI-Passthrough-Anfragen nicht verwendet wurde - PR - Schlüsseln mit maximalem Budget erlauben, Nicht-LLM-API-Endpunkte aufzurufen - PR
- Standardmäßige Unterstützung für den Header-Parameter
- 🆕 Python-Clientbibliothek für LiteLLM Proxy Management Endpunkte
- Abhängigkeiten
- uvloop für Windows nicht erforderlich machen - PR
