Zum Hauptinhalt springen

v1.63.14-stable

Krrish Dholakia
Ishaan Jaffer

Dies sind die Änderungen seit v1.63.11-stable.

Diese Version bringt

  • LLM-Ăśbersetzungsverbesserungen (MCP-UnterstĂĽtzung und Bedrock Application Profiles)
  • Leistungsverbesserungen fĂĽr nutzungsbasiertes Routing
  • Streaming-Guardrail-UnterstĂĽtzung ĂĽber WebSockets
  • Azure OpenAI Client-Leistungsfix (aus der vorherigen Version)

Docker Run LiteLLM Proxy​

docker run
-e STORE_MODEL_IN_DB=True
-p 4000:4000
ghcr.io/berriai/litellm:main-v1.63.14-stable.patch1

Demo-Instanz​

Hier ist eine Demo-Instanz, um Änderungen zu testen

Neue Modelle / Aktualisierte Modelle​

  • Azure gpt-4o - Preise auf die neuesten globalen Preise korrigiert - PR
  • O1-Pro - Preise + Modellinformationen hinzugefĂĽgt - PR
  • Azure AI - Mistral 3.1 Small-Preise hinzugefĂĽgt - PR
  • Azure - gpt-4.5-preview-Preise hinzugefĂĽgt - PR

LLM-Übersetzung​

  1. Neue LLM-Funktionen
  • Bedrock: Bedrock Application Inference Profiles unterstĂĽtzen. Dokumentation
    • AWS-Region aus Bedrock Application Profile ID ableiten - (arn:aws:bedrock:us-east-1:...)
  • Ollama - Aufruf ĂĽber `/v1/completions` unterstĂĽtzen. Erste Schritte
  • Bedrock - Modellnamen `us.deepseek.r1-v1:0` unterstĂĽtzen. Dokumentation
  • OpenRouter - `OPENROUTER_API_BASE` Umgebungsvariablen-UnterstĂĽtzung. Dokumentation
  • Azure - ParameterunterstĂĽtzung fĂĽr Audiomodelle hinzugefĂĽgt - Dokumentation
  • OpenAI - PDF-DateiunterstĂĽtzung. Dokumentation
  • OpenAI - `o1-pro` Streaming-UnterstĂĽtzung fĂĽr Antworten-API. Dokumentation
  • [BETA]MCP - MCP-Tools mit LiteLLM SDK verwenden. Dokumentation
  1. Fehlerbehebungen
  • Voyage: Prompt-Token bei Embedding-Tracking-Fix - PR
  • Sagemaker - Fehler 'Too little data for declared Content-Length' korrigiert - PR
  • OpenAI-kompatible Modelle - Problem bei Aufrufen von OpenAI-kompatiblen Modellen mit gesetztem `custom_llm_provider` behoben - PR
  • VertexAI - UnterstĂĽtzung fĂĽr 'outputDimensionality' bei Embeddings - PR
  • Anthropic - konsistentes JSON-Antwortformat bei Streaming/Nicht-Streaming zurĂĽckgeben - PR

Verbesserungen bei der Ausgabenverfolgung​

  • litellm_proxy/ - Lesen des LiteLLM-Antwortkost-Headers vom Proxy unterstĂĽtzen, wenn das Client-SDK verwendet wird
  • Reset Budget Job - Budget-Reset-Fehler bei SchlĂĽsseln/Teams/Benutzern korrigiert. PR
  • Streaming - Verhindert, dass der letzte Chunk mit Nutzung ignoriert wird (betraf Bedrock Streaming + Kostenverfolgung). PR

UI​

  1. Benutzerseite
    • Funktion: Standard-Internen-Benutzereinstellungen steuern. PR
  2. Icons
    • Funktion: Externe "artificialanalysis.ai"-Icons durch lokale SVGs ersetzen. PR
  3. Anmelden/Abmelden
    • Fix: Standard-Login, wenn der Benutzer `default_user_id` nicht in der DB existiert. PR

Logging-Integrationen​

  • UnterstĂĽtzung fĂĽr Post-Call-Guardrails fĂĽr Streaming-Antworten. Erste Schritte
  • Arize. Erste Schritte
    • UngĂĽltigen Paketimport behoben. PR
    • Migration zur Verwendung von `StandardLoggingPayload` fĂĽr Metadaten, um sicherzustellen, dass Spans erfolgreich landen. PR
    • Logging korrigiert, um nur die LLM-Ein-/Ausgaben zu protokollieren. PR
    • Dynamische API-Key-/Space-ParameterunterstĂĽtzung. Erste Schritte
  • StandardLoggingPayload - `litellm_model_name` in der Payload protokollieren. Ermöglicht die Kenntnis des Modells, das an den API-Anbieter gesendet wurde. Erste Schritte
  • Prompt-Management - Erstellung eigener Prompt-Management-Integrationen ermöglichen. Erste Schritte

Leistungs- / Zuverlässigkeitsverbesserungen​

  • Redis Caching - Standard-Timeout von 5 Sekunden hinzugefĂĽgt, verhindert, dass hängende Redis-Verbindungen LLM-Aufrufe beeinträchtigen. PR
  • Deaktivieren aller Ausgaben-Updates / -Schreibvorgänge in die DB ermöglichen - Patch zur Deaktivierung aller Ausgaben-Updates in die DB mit einem Flag. PR
  • Azure OpenAI - Azure OpenAI Client korrekt wiederverwenden, behebt Leistungsprobleme aus der vorherigen Stable-Version. PR
  • Azure OpenAI - `litellm.ssl_verify` bei Azure/OpenAI Clients verwenden. PR
  • Nutzungsbasiertes Routing - Wildcard-Modell-UnterstĂĽtzung. Erste Schritte
  • Nutzungsbasiertes Routing - Batch-Schreiben von Inkrementen nach Redis unterstĂĽtzen - reduziert die Latenz auf das Niveau von 'simple-shuffle'. PR
  • Router - Grund fĂĽr die ModellabkĂĽhlung bei der Fehlermeldung "no healthy deployments available" anzeigen. PR
  • Caching - Maximale Item-Größe im In-Memory-Cache (1 MB) hinzufĂĽgen - verhindert OOM-Fehler bei groĂźen Bild-URLs, die ĂĽber den Proxy gesendet werden. PR

Allgemeine Verbesserungen​

  • Passthrough-Endpunkte - RĂĽckgabe von `api-base` in Passthrough-Endpunkt-Antwortheadern unterstĂĽtzen. Dokumentation
  • SSL - Lesen des SSL-Sicherheitslevels aus der Umgebungsvariable unterstĂĽtzen - Ermöglicht dem Benutzer, niedrigere Sicherheitseinstellungen festzulegen. Erste Schritte
  • Anmeldedaten - Nur die Credentials-Tabelle abfragen, wenn `STORE_MODEL_IN_DB` True ist. PR
  • Bild-URL-Verarbeitung - Neue Architektur-Dokumentation zur Bild-URL-Verarbeitung. Dokumentation
  • OpenAI - Upgrade auf `pip install "openai==1.68.2"`. PR
  • Gunicorn - Sicherheitsfix - Bump `gunicorn==23.0.0`. PR

Vollständiger Git-Diff​

Hier ist der vollständige Git-Diff