Zum Hauptinhalt springen

3 Beiträge mit dem Tag "responses_api"

Alle Tags anzeigen

Krrish Dholakia
Ishaan Jaffer

Diese Version bereitstellen​

docker run litellm
docker run
-e STORE_MODEL_IN_DB=True
-p 4000:4000
ghcr.io/berriai/litellm:main-v1.67.4-stable

Wichtige Highlights​

  • Verbessertes Benutzermanagement: Diese Veröffentlichung ermöglicht die Suche und Filterung von Benutzern, SchlĂĽsseln, Teams und Modellen.
  • Responses API Load Balancing: Routet Anfragen ĂĽber Provider-Regionen und sorgt fĂĽr Sitzungskontinuität.
  • UI-Sitzungsprotokolle: Gruppiert mehrere Anfragen an LiteLLM zu einer Sitzung.

Verbessertes Benutzermanagement​


Diese Veröffentlichung erleichtert die Verwaltung von Benutzern und Schlüsseln auf LiteLLM. Sie können jetzt Benutzer, Schlüssel, Teams und Modelle durchsuchen und filtern und Benutzereinstellungen einfacher steuern.

Neue Funktionen umfassen

  • Suche nach Benutzern nach E-Mail, ID, Rolle oder Team.
  • Alle Modelle, Teams und SchlĂĽssel eines Benutzers an einem Ort anzeigen.
  • Benutzerrollen und Modellzugriff direkt vom Tab "Benutzer" ändern.

Diese Änderungen helfen Ihnen, weniger Zeit für die Einrichtung und Verwaltung von Benutzern auf LiteLLM aufzuwenden.

Responses API Load Balancing​


Diese Veröffentlichung führt Load Balancing für die Responses API ein, wodurch Sie Anfragen über Provider-Regionen leiten und die Sitzungskontinuität gewährleisten können. Es funktioniert wie folgt:

  • Wenn eine previous_response_id angegeben ist, leitet LiteLLM die Anfrage an die ursprĂĽngliche Bereitstellung weiter, die die vorherige Antwort generiert hat - wodurch die Sitzungskontinuität gewährleistet wird.
  • Wenn keine previous_response_id angegeben ist, verteilt LiteLLM die Anfragen auf Ihre verfĂĽgbaren Bereitstellungen.

Mehr erfahren

UI-Sitzungsprotokolle​


Diese Veröffentlichung ermöglicht es Ihnen, Anfragen an den LiteLLM-Proxy zu einer Sitzung zu gruppieren. Wenn Sie eine 'litellm_session_id' in Ihrer Anfrage angeben, gruppiert LiteLLM automatisch alle Protokolle in derselben Sitzung. Dies ermöglicht es Ihnen, die Nutzung und den Anfrageinhalt pro Sitzung einfach zu verfolgen.

Mehr erfahren

Neue Modelle / Aktualisierte Modelle​

  • OpenAI
    1. Kostenverfolgung fĂĽr 'gpt-image-1' hinzugefĂĽgt Erste Schritte
    2. Fehlerbehebung: Kostenverfolgung für gpt-image-1 hinzugefügt, wenn die Qualität nicht angegeben ist PR
  • Azure
    1. Zeitstempel-Granularitäten an Whisper in Azure übergeben, korrigiert Erste Schritte
    2. Preise fĂĽr azure/gpt-image-1 hinzugefĂĽgt Erste Schritte, PR
    3. Kostenverfolgung fĂĽr 'azure/computer-use-preview', 'azure/gpt-4o-audio-preview-2024-12-17', 'azure/gpt-4o-mini-audio-preview-2024-12-17' hinzugefĂĽgt PR
  • Bedrock
    1. UnterstĂĽtzung fĂĽr alle kompatiblen Bedrock-Parameter hinzugefĂĽgt, wenn model="arn:.." (Bedrock-Anwendungsinferenzprofil-Modelle) Erste Schritte, PR
    2. Falsche System-Prompt-Transformation korrigiert PR
  • VertexAI / Google AI Studio
    1. Setzen von 'budget_tokens=0' fĂĽr 'gemini-2.5-flash' zulassen Erste Schritte, PR
    2. Sicherstellen, dass die zurĂĽckgegebene 'usage' die Denk-Token-Nutzung einschlieĂźt PR
    3. Kostenverfolgung fĂĽr 'gemini-2.5-pro-preview-03-25' hinzugefĂĽgt PR
  • Cohere
    1. UnterstĂĽtzung fĂĽr cohere command-a-03-2025 hinzugefĂĽgt Erste Schritte, PR
  • SageMaker
    1. UnterstĂĽtzung fĂĽr den Parameter 'max_completion_tokens' hinzugefĂĽgt Erste Schritte, PR
  • Antworten API
    1. UnterstĂĽtzung fĂĽr GET- und DELETE-Operationen hinzugefĂĽgt - /v1/responses/{response_id} Erste Schritte
    2. SitzungsmanagementunterstĂĽtzung fĂĽr Nicht-OpenAI-Modelle hinzugefĂĽgt PR
    3. Routing-Affinität hinzugefügt, um Modellkonsistenz innerhalb von Sitzungen aufrechtzuerhalten Erste Schritte, PR

Verbesserungen bei der Ausgabenverfolgung​

  • Fehlerbehebung: Fehler bei der Spend-Nachverfolgung behoben, sodass Standard-LiteLLM-Parameter nicht im Speicher geändert werden PR
  • Einstellungstermine: Einstellungstermine fĂĽr Azure-, VertexAI-Modelle hinzugefĂĽgt PR

Management Endpunkte / UI​

Benutzer​

  • Filterung und Suche:

    • Benutzer nach user_id, Rolle, Team, sso_id filtern
    • Benutzer nach E-Mail suchen

  • Benutzerinformationsbereich: Ein neuer Benutzerinformationsbereich wurde hinzugefĂĽgt PR

    • Teams, SchlĂĽssel, Modelle anzeigen, die mit dem Benutzer verbunden sind
    • Benutzerrolle, Modellberechtigungen bearbeiten

Teams​

  • Filterung und Suche:

    • Teams nach Organisation, Team-ID filtern PR
    • Teams nach Teamnamen suchen PR

Schlüssel​

  • SchlĂĽsselverwaltung:
    • UnterstĂĽtzung fĂĽr Kreuzfilterung und Filterung nach SchlĂĽssel-Hash PR
    • SchlĂĽssel-Alias-ZurĂĽcksetzung beim ZurĂĽcksetzen von Filtern korrigiert PR
    • Tabellendarstellung bei SchlĂĽssel-Erstellung korrigiert PR

UI-Protokollseite​

  • Sitzungsprotokolle: UI-Sitzungsprotokolle hinzugefĂĽgt Erste Schritte

UI-Authentifizierung & Sicherheit​

  • Authentifizierung erforderlich: FĂĽr alle Dashboard-Seiten ist jetzt eine Authentifizierung erforderlich PR
  • SSO-Korrekturen: UngĂĽltigen Token-Fehler bei der SSO-Benutzeranmeldung behoben PR
  • [BETA] VerschlĂĽsselte Token: UI auf verschlĂĽsselte Token-Nutzung umgestellt PR
  • Token-Ablauf: Token-Aktualisierung durch erneutes Weiterleiten zur Anmeldeseite unterstĂĽtzt (behebt ein Problem, bei dem ein abgelaufener Token eine leere Seite zeigte) PR

Allgemeine UI-Korrekturen​

  • UI-Flackern behoben: UI-Flackerprobleme im Dashboard behoben PR
  • Verbesserte Terminologie: Bessere Lade- und Keine-Daten-Zustände auf den Seiten fĂĽr SchlĂĽssel und Tools PR
  • Azure-ModellunterstĂĽtzung: Bearbeiten von Azure-öffentlichen Modellnamen und Ă„ndern von Modellnamen nach der Erstellung korrigiert PR
  • Team-Modellauswahl: Fehlerbehebung fĂĽr die Team-Modellauswahl PR

Logging / Guardrail Integrationen​

  • Datadog:
    1. Datadog LLM-Observability-Protokollierung korrigiert Erste Schritte, PR
  • Prometheus / Grafana:
    1. Auswahl der Datenquelle auf der LiteLLM Grafana-Vorlage aktiviert Erste Schritte, PR
  • AgentOps:
    1. AgentOps-Integration hinzugefĂĽgt Erste Schritte, PR
  • Arize:
    1. Fehlende Attribute fĂĽr Arize & Phoenix Integration hinzugefĂĽgt Erste Schritte, PR

Allgemeine Proxy-Verbesserungen​

  • Caching: Caching korrigiert, um 'thinking' oder 'reasoning_effort' bei der Berechnung des Cache-SchlĂĽssels zu berĂĽcksichtigen PR
  • Modellgruppen: Handhabung von Fällen korrigiert, in denen der Benutzer 'model_group' innerhalb von 'model_info' setzt PR
  • Passthrough-Endpunkte: Sichergestellt, dass 'PassthroughStandardLoggingPayload' mit Methode, URL, Anfrage-/Antwortkörper protokolliert wird PR
  • SQL-Injection beheben: Mögliche SQL-Injection-Schwachstelle in 'spend_management_endpoints.py' behoben PR

Helm​

  • serviceAccountName im Migrationsjob korrigiert PR

Vollständige Changelog​

Die vollständige Liste der Änderungen finden Sie in den GitHub Release Notes.

Krrish Dholakia
Ishaan Jaffer

Dies sind die Änderungen seit v1.63.11-stable.

Diese Version bringt

  • LLM-Ăśbersetzungsverbesserungen (MCP-UnterstĂĽtzung und Bedrock Application Profiles)
  • Leistungsverbesserungen fĂĽr nutzungsbasiertes Routing
  • Streaming-Guardrail-UnterstĂĽtzung ĂĽber WebSockets
  • Azure OpenAI Client-Leistungsfix (aus der vorherigen Version)

Docker Run LiteLLM Proxy​

docker run
-e STORE_MODEL_IN_DB=True
-p 4000:4000
ghcr.io/berriai/litellm:main-v1.63.14-stable.patch1

Demo-Instanz​

Hier ist eine Demo-Instanz, um Änderungen zu testen

Neue Modelle / Aktualisierte Modelle​

  • Azure gpt-4o - Preise auf die neuesten globalen Preise korrigiert - PR
  • O1-Pro - Preise + Modellinformationen hinzugefĂĽgt - PR
  • Azure AI - Mistral 3.1 Small-Preise hinzugefĂĽgt - PR
  • Azure - gpt-4.5-preview-Preise hinzugefĂĽgt - PR

LLM-Übersetzung​

  1. Neue LLM-Funktionen
  • Bedrock: Bedrock Application Inference Profiles unterstĂĽtzen. Dokumentation
    • AWS-Region aus Bedrock Application Profile ID ableiten - (arn:aws:bedrock:us-east-1:...)
  • Ollama - Aufruf ĂĽber `/v1/completions` unterstĂĽtzen. Erste Schritte
  • Bedrock - Modellnamen `us.deepseek.r1-v1:0` unterstĂĽtzen. Dokumentation
  • OpenRouter - `OPENROUTER_API_BASE` Umgebungsvariablen-UnterstĂĽtzung. Dokumentation
  • Azure - ParameterunterstĂĽtzung fĂĽr Audiomodelle hinzugefĂĽgt - Dokumentation
  • OpenAI - PDF-DateiunterstĂĽtzung. Dokumentation
  • OpenAI - `o1-pro` Streaming-UnterstĂĽtzung fĂĽr Antworten-API. Dokumentation
  • [BETA]MCP - MCP-Tools mit LiteLLM SDK verwenden. Dokumentation
  1. Fehlerbehebungen
  • Voyage: Prompt-Token bei Embedding-Tracking-Fix - PR
  • Sagemaker - Fehler 'Too little data for declared Content-Length' korrigiert - PR
  • OpenAI-kompatible Modelle - Problem bei Aufrufen von OpenAI-kompatiblen Modellen mit gesetztem `custom_llm_provider` behoben - PR
  • VertexAI - UnterstĂĽtzung fĂĽr 'outputDimensionality' bei Embeddings - PR
  • Anthropic - konsistentes JSON-Antwortformat bei Streaming/Nicht-Streaming zurĂĽckgeben - PR

Verbesserungen bei der Ausgabenverfolgung​

  • litellm_proxy/ - Lesen des LiteLLM-Antwortkost-Headers vom Proxy unterstĂĽtzen, wenn das Client-SDK verwendet wird
  • Reset Budget Job - Budget-Reset-Fehler bei SchlĂĽsseln/Teams/Benutzern korrigiert. PR
  • Streaming - Verhindert, dass der letzte Chunk mit Nutzung ignoriert wird (betraf Bedrock Streaming + Kostenverfolgung). PR

UI​

  1. Benutzerseite
    • Funktion: Standard-Internen-Benutzereinstellungen steuern. PR
  2. Icons
    • Funktion: Externe "artificialanalysis.ai"-Icons durch lokale SVGs ersetzen. PR
  3. Anmelden/Abmelden
    • Fix: Standard-Login, wenn der Benutzer `default_user_id` nicht in der DB existiert. PR

Logging-Integrationen​

  • UnterstĂĽtzung fĂĽr Post-Call-Guardrails fĂĽr Streaming-Antworten. Erste Schritte
  • Arize. Erste Schritte
    • UngĂĽltigen Paketimport behoben. PR
    • Migration zur Verwendung von `StandardLoggingPayload` fĂĽr Metadaten, um sicherzustellen, dass Spans erfolgreich landen. PR
    • Logging korrigiert, um nur die LLM-Ein-/Ausgaben zu protokollieren. PR
    • Dynamische API-Key-/Space-ParameterunterstĂĽtzung. Erste Schritte
  • StandardLoggingPayload - `litellm_model_name` in der Payload protokollieren. Ermöglicht die Kenntnis des Modells, das an den API-Anbieter gesendet wurde. Erste Schritte
  • Prompt-Management - Erstellung eigener Prompt-Management-Integrationen ermöglichen. Erste Schritte

Leistungs- / Zuverlässigkeitsverbesserungen​

  • Redis Caching - Standard-Timeout von 5 Sekunden hinzugefĂĽgt, verhindert, dass hängende Redis-Verbindungen LLM-Aufrufe beeinträchtigen. PR
  • Deaktivieren aller Ausgaben-Updates / -Schreibvorgänge in die DB ermöglichen - Patch zur Deaktivierung aller Ausgaben-Updates in die DB mit einem Flag. PR
  • Azure OpenAI - Azure OpenAI Client korrekt wiederverwenden, behebt Leistungsprobleme aus der vorherigen Stable-Version. PR
  • Azure OpenAI - `litellm.ssl_verify` bei Azure/OpenAI Clients verwenden. PR
  • Nutzungsbasiertes Routing - Wildcard-Modell-UnterstĂĽtzung. Erste Schritte
  • Nutzungsbasiertes Routing - Batch-Schreiben von Inkrementen nach Redis unterstĂĽtzen - reduziert die Latenz auf das Niveau von 'simple-shuffle'. PR
  • Router - Grund fĂĽr die ModellabkĂĽhlung bei der Fehlermeldung "no healthy deployments available" anzeigen. PR
  • Caching - Maximale Item-Größe im In-Memory-Cache (1 MB) hinzufĂĽgen - verhindert OOM-Fehler bei groĂźen Bild-URLs, die ĂĽber den Proxy gesendet werden. PR

Allgemeine Verbesserungen​

  • Passthrough-Endpunkte - RĂĽckgabe von `api-base` in Passthrough-Endpunkt-Antwortheadern unterstĂĽtzen. Dokumentation
  • SSL - Lesen des SSL-Sicherheitslevels aus der Umgebungsvariable unterstĂĽtzen - Ermöglicht dem Benutzer, niedrigere Sicherheitseinstellungen festzulegen. Erste Schritte
  • Anmeldedaten - Nur die Credentials-Tabelle abfragen, wenn `STORE_MODEL_IN_DB` True ist. PR
  • Bild-URL-Verarbeitung - Neue Architektur-Dokumentation zur Bild-URL-Verarbeitung. Dokumentation
  • OpenAI - Upgrade auf `pip install "openai==1.68.2"`. PR
  • Gunicorn - Sicherheitsfix - Bump `gunicorn==23.0.0`. PR

Vollständiger Git-Diff​

Hier ist der vollständige Git-Diff

Krrish Dholakia
Ishaan Jaffer

Dies sind die Änderungen seit v1.63.2-stable.

Diese Version konzentriert sich hauptsächlich auf

  • [Beta]Responses API-UnterstĂĽtzung
  • Snowflake Cortex UnterstĂĽtzung, Amazon Nova Bildgenerierung
  • UI - Anmeldedatenverwaltung, Wiederverwendung von Anmeldedaten beim HinzufĂĽgen neuer Modelle
  • UI - Testen der Verbindung zum LLM-Anbieter vor dem HinzufĂĽgen eines Modells

Bekannte Probleme​

  • 🚨 Bekanntes Problem bei Azure OpenAI - Wir empfehlen kein Upgrade, wenn Sie Azure OpenAI verwenden. Diese Version ist bei unserem Azure OpenAI Lasttest fehlgeschlagen.

Docker Run LiteLLM Proxy​

docker run
-e STORE_MODEL_IN_DB=True
-p 4000:4000
ghcr.io/berriai/litellm:main-v1.63.11-stable

Demo-Instanz​

Hier ist eine Demo-Instanz, um Änderungen zu testen

Neue Modelle / Aktualisierte Modelle​

  • BildgenerierungsunterstĂĽtzung fĂĽr Amazon Nova Canvas. Erste Schritte
  • Preise fĂĽr neue Jamba-Modelle hinzugefĂĽgt. PR
  • Preise fĂĽr Amazon EU-Modelle hinzugefĂĽgt. PR
  • Preise fĂĽr Bedrock Deepseek R1-Modelle hinzugefĂĽgt. PR
  • Gemini-Preise aktualisiert: Gemma 3, Flash 2 Thinking-Update, LearnLM. PR
  • Cohere Embedding 3-Modelle als Multimodal markiert. PR
  • Azure Data Zone Preisgestaltung hinzufĂĽgen PR
    • LiteLLM verfolgt Kosten fĂĽr Modelle in azure/eu und azure/us

LLM-Übersetzung​

  1. Neue Endpunkte
  1. Neue LLM-Anbieter
  1. Neue LLM-Funktionen
  • UnterstĂĽtzt reasoning_content von OpenRouter beim Streaming Erste Schritte
  1. Fehlerbehebungen
  • OpenAI: Gibt code, param und type bei fehlerhaften Anfragen zurĂĽck Weitere Informationen zu litellm-Ausnahmen
  • Bedrock: Korrigiert das Parsen von Converse-Chunks, um bei Tool-Nutzung nur ein leeres Dict zurĂĽckzugeben PR
  • Bedrock: UnterstĂĽtzt extra_headers PR
  • Azure: Korrigiert Funktionsaufruf-Bug & aktualisiert Standard-API-Version auf 2025-02-01-preview PR
  • Azure: Korrigiert URL fĂĽr KI-Dienste PR
  • Vertex AI: Behandelt HTTP-Statuscode 201 in der Antwort PR
  • Perplexity: Korrigiert falsche Streaming-Antwort PR
  • Triton: Korrigiert Bug bei Streaming-AbschlĂĽssen PR
  • Deepgram: UnterstĂĽtzt Bytes.IO beim Verarbeiten von Audiodateien fĂĽr Transkriptionen PR
  • Ollama: Korrigiert "system"-Rolle, die inakzeptabel geworden ist PR
  • Alle Anbieter (Streaming): Korrigiert, dass der String data: aus dem gesamten Inhalt gestreamter Antworten entfernt wurde PR

Verbesserungen bei der Ausgabenverfolgung​

  1. UnterstĂĽtzt Bedrock Converse Cache Token Tracking Erste Schritte
  2. Kostenverfolgung fĂĽr Responses API Erste Schritte
  3. Korrigiert Kostenverfolgung fĂĽr Azure Whisper Erste Schritte

UI​

Anmeldeinformationen in der UI wiederverwenden​

Sie können jetzt LLM-Anbieteranmeldeinformationen in der LiteLLM UI integrieren. Sobald diese Anmeldeinformationen hinzugefügt wurden, können Sie sie beim Hinzufügen neuer Modelle wiederverwenden Erste Schritte

Verbindungen testen, bevor Modelle hinzugefügt werden​

Bevor Sie ein Modell hinzufügen, können Sie die Verbindung zum LLM-Anbieter testen, um zu überprüfen, ob Sie Ihre API-Basis + API-Schlüssel korrekt eingerichtet haben.

Allgemeine UI-Verbesserungen​

  1. Modelle hinzufĂĽgen-Seite
    • Ermöglicht das HinzufĂĽgen von Cerebras-, Sambanova-, Perplexity-, Fireworks-, Openrouter-, TogetherAI-Modellen, Text-Completion OpenAI im Admin-UI
    • Ermöglicht das HinzufĂĽgen von EU-OpenAI-Modellen
    • Behebung: Bearbeiten und Löschen von Modellen sofort anzeigen
  2. SchlĂĽssel-Seite
    • Behebung: Neu erstellte SchlĂĽssel sofort im Admin-UI anzeigen (kein Aktualisieren erforderlich)
    • Behebung: Ermöglicht das Klicken auf Top-SchlĂĽssel, wenn Benutzer den Top-API-SchlĂĽssel angezeigt werden
    • Behebung: Ermöglicht das Filtern von SchlĂĽsseln nach Team-Alias, SchlĂĽssel-Alias und Org
    • UI-Verbesserungen: 100 SchlĂĽssel pro Seite anzeigen, volle Höhe nutzen, Breite des SchlĂĽssel-Alias erhöhen
  3. Benutzerseite
    • Behebung: Korrekte Anzahl interner BenutzerschlĂĽssel auf der Benutzerseite anzeigen
    • Behebung: Metadaten werden in der Team-UI nicht aktualisiert
  4. Protokolle-Seite
    • UI-Verbesserungen: Erweitertes Protokoll im Fokus auf LiteLLM UI halten
    • UI-Verbesserungen: Kleinere Verbesserungen auf der Protokollseite
    • Behebung: Ermöglicht internen Benutzern, ihre eigenen Protokolle abzufragen
    • Speicherung von Fehlerprotokollen in der DB ausschalten Erste Schritte
  5. Anmelden/Abmelden
    • Behebung: Korrekte Verwendung von PROXY_LOGOUT_URL, wenn gesetzt Erste Schritte

Sicherheit​

  1. UnterstĂĽtzung fĂĽr rotierende Master-SchlĂĽssel Erste Schritte
  2. Behebung: Berechtigungen fĂĽr interne Benutzeransichten, die Rolle internal_user_viewer darf nicht die Test Key Page oder den Create Key Button sehen Weitere Informationen zu rollenbasierter Zugriffskontrolle
  3. Audit-Protokolle für alle Benutzer- und Modellerstellungs-/Update-/Lösch-Endpunkte ausgeben Erste Schritte
  4. JWT
    • UnterstĂĽtzung fĂĽr mehrere JWT OIDC-Anbieter Erste Schritte
    • Behebung: JWT-Zugriff mit Gruppen funktioniert nicht, wenn einem Team Zugriff auf alle Proxy-Modelle zugewiesen ist
  5. Verwendung von K/V-Paaren in einem AWS-Secret Erste Schritte

Logging-Integrationen​

  1. Prometheus: Metrik fĂĽr die Latenz der Azure LLM-API verfolgen Erste Schritte
  2. Athina: Tags, Benutzerfeedback und Modelloptionen zu additional_keys hinzugefügt, die an Athina gesendet werden können Erste Schritte

Leistungs- / Zuverlässigkeitsverbesserungen​

  1. Redis + litellm router - Korrigiert Redis-Cluster-Modus fĂĽr litellm-Router PR

Allgemeine Verbesserungen​

  1. OpenWebUI-Integration - thinking-Token anzeigen
  • Anleitung fĂĽr den Einstieg in LiteLLM x OpenWebUI. Erste Schritte
  • thinking-Token auf OpenWebUI anzeigen (Bedrock, Anthropic, Deepseek) Erste Schritte

Vollständiger Git-Diff​

Hier ist der vollständige Git-Diff