Dies sind die Änderungen seit v1.63.11-stable.
Diese Version bringt
- LLM-Ăśbersetzungsverbesserungen (MCP-UnterstĂĽtzung und Bedrock Application Profiles)
- Leistungsverbesserungen fĂĽr nutzungsbasiertes Routing
- Streaming-Guardrail-UnterstĂĽtzung ĂĽber WebSockets
- Azure OpenAI Client-Leistungsfix (aus der vorherigen Version)
Docker Run LiteLLM Proxy​
docker run
-e STORE_MODEL_IN_DB=True
-p 4000:4000
ghcr.io/berriai/litellm:main-v1.63.14-stable.patch1
Demo-Instanz​
Hier ist eine Demo-Instanz, um Änderungen zu testen
- Instanz: https://demo.litellm.ai/
- Anmeldedaten
- Benutzername: admin
- Passwort: sk-1234
Neue Modelle / Aktualisierte Modelle​
- Azure gpt-4o - Preise auf die neuesten globalen Preise korrigiert - PR
- O1-Pro - Preise + Modellinformationen hinzugefĂĽgt - PR
- Azure AI - Mistral 3.1 Small-Preise hinzugefĂĽgt - PR
- Azure - gpt-4.5-preview-Preise hinzugefĂĽgt - PR
LLM-Übersetzung​
- Neue LLM-Funktionen
- Bedrock: Bedrock Application Inference Profiles unterstĂĽtzen. Dokumentation
- AWS-Region aus Bedrock Application Profile ID ableiten - (
arn:aws:bedrock:us-east-1:...)
- AWS-Region aus Bedrock Application Profile ID ableiten - (
- Ollama - Aufruf ĂĽber `/v1/completions` unterstĂĽtzen. Erste Schritte
- Bedrock - Modellnamen `us.deepseek.r1-v1:0` unterstĂĽtzen. Dokumentation
- OpenRouter - `OPENROUTER_API_BASE` Umgebungsvariablen-UnterstĂĽtzung. Dokumentation
- Azure - ParameterunterstĂĽtzung fĂĽr Audiomodelle hinzugefĂĽgt - Dokumentation
- OpenAI - PDF-DateiunterstĂĽtzung. Dokumentation
- OpenAI - `o1-pro` Streaming-UnterstĂĽtzung fĂĽr Antworten-API. Dokumentation
- [BETA]MCP - MCP-Tools mit LiteLLM SDK verwenden. Dokumentation
- Fehlerbehebungen
- Voyage: Prompt-Token bei Embedding-Tracking-Fix - PR
- Sagemaker - Fehler 'Too little data for declared Content-Length' korrigiert - PR
- OpenAI-kompatible Modelle - Problem bei Aufrufen von OpenAI-kompatiblen Modellen mit gesetztem `custom_llm_provider` behoben - PR
- VertexAI - UnterstĂĽtzung fĂĽr 'outputDimensionality' bei Embeddings - PR
- Anthropic - konsistentes JSON-Antwortformat bei Streaming/Nicht-Streaming zurĂĽckgeben - PR
Verbesserungen bei der Ausgabenverfolgung​
litellm_proxy/- Lesen des LiteLLM-Antwortkost-Headers vom Proxy unterstĂĽtzen, wenn das Client-SDK verwendet wird- Reset Budget Job - Budget-Reset-Fehler bei SchlĂĽsseln/Teams/Benutzern korrigiert. PR
- Streaming - Verhindert, dass der letzte Chunk mit Nutzung ignoriert wird (betraf Bedrock Streaming + Kostenverfolgung). PR
UI​
- Benutzerseite
- Funktion: Standard-Internen-Benutzereinstellungen steuern. PR
- Icons
- Funktion: Externe "artificialanalysis.ai"-Icons durch lokale SVGs ersetzen. PR
- Anmelden/Abmelden
- Fix: Standard-Login, wenn der Benutzer `default_user_id` nicht in der DB existiert. PR
Logging-Integrationen​
- UnterstĂĽtzung fĂĽr Post-Call-Guardrails fĂĽr Streaming-Antworten. Erste Schritte
- Arize. Erste Schritte
- UngĂĽltigen Paketimport behoben. PR
- Migration zur Verwendung von `StandardLoggingPayload` fĂĽr Metadaten, um sicherzustellen, dass Spans erfolgreich landen. PR
- Logging korrigiert, um nur die LLM-Ein-/Ausgaben zu protokollieren. PR
- Dynamische API-Key-/Space-ParameterunterstĂĽtzung. Erste Schritte
- StandardLoggingPayload - `litellm_model_name` in der Payload protokollieren. Ermöglicht die Kenntnis des Modells, das an den API-Anbieter gesendet wurde. Erste Schritte
- Prompt-Management - Erstellung eigener Prompt-Management-Integrationen ermöglichen. Erste Schritte
Leistungs- / Zuverlässigkeitsverbesserungen​
- Redis Caching - Standard-Timeout von 5 Sekunden hinzugefügt, verhindert, dass hängende Redis-Verbindungen LLM-Aufrufe beeinträchtigen. PR
- Deaktivieren aller Ausgaben-Updates / -Schreibvorgänge in die DB ermöglichen - Patch zur Deaktivierung aller Ausgaben-Updates in die DB mit einem Flag. PR
- Azure OpenAI - Azure OpenAI Client korrekt wiederverwenden, behebt Leistungsprobleme aus der vorherigen Stable-Version. PR
- Azure OpenAI - `litellm.ssl_verify` bei Azure/OpenAI Clients verwenden. PR
- Nutzungsbasiertes Routing - Wildcard-Modell-UnterstĂĽtzung. Erste Schritte
- Nutzungsbasiertes Routing - Batch-Schreiben von Inkrementen nach Redis unterstĂĽtzen - reduziert die Latenz auf das Niveau von 'simple-shuffle'. PR
- Router - Grund fĂĽr die ModellabkĂĽhlung bei der Fehlermeldung "no healthy deployments available" anzeigen. PR
- Caching - Maximale Item-Größe im In-Memory-Cache (1 MB) hinzufügen - verhindert OOM-Fehler bei großen Bild-URLs, die über den Proxy gesendet werden. PR
Allgemeine Verbesserungen​
- Passthrough-Endpunkte - RĂĽckgabe von `api-base` in Passthrough-Endpunkt-Antwortheadern unterstĂĽtzen. Dokumentation
- SSL - Lesen des SSL-Sicherheitslevels aus der Umgebungsvariable unterstützen - Ermöglicht dem Benutzer, niedrigere Sicherheitseinstellungen festzulegen. Erste Schritte
- Anmeldedaten - Nur die Credentials-Tabelle abfragen, wenn `STORE_MODEL_IN_DB` True ist. PR
- Bild-URL-Verarbeitung - Neue Architektur-Dokumentation zur Bild-URL-Verarbeitung. Dokumentation
- OpenAI - Upgrade auf `pip install "openai==1.68.2"`. PR
- Gunicorn - Sicherheitsfix - Bump `gunicorn==23.0.0`. PR


