Zum Hauptinhalt springen

2 Beiträge mit dem Tag "sso"

Alle Tags anzeigen

Krrish Dholakia
Ishaan Jaffer

Wichtige Highlights

  • SCIM-Integration: Ermöglicht Identitätsanbietern (Okta, Azure AD, OneLogin usw.), Benutzer und Teams (Gruppen) automatisch zu provisionieren, zu aktualisieren und zu deprovisionieren
  • Team- und Tag-basierte Nutzungsverfolgung: Sie können nun Nutzung und Ausgaben nach Team und Tag bei über 1 Million Ausgabenprotokollen sehen.
  • Vereinheitlichte Responses API: Unterstützung für den Aufruf von Anthropic, Gemini, Groq usw. über die neue Responses API von OpenAI.

Tauchen wir ein.

SCIM-Integration

Diese Veröffentlichung fügt SCIM-Unterstützung für LiteLLM hinzu. Dies ermöglicht Ihrem SSO-Anbieter (Okta, Azure AD usw.), Benutzer, Teams und Mitgliedschaften auf LiteLLM automatisch zu erstellen/löschen. Das bedeutet, dass Ihr SSO-Anbieter, wenn Sie ein Team in Ihrem SSO-Anbieter entfernen, das entsprechende Team auf LiteLLM automatisch löschen wird.

Mehr erfahren

Team- und Tag-basierte Nutzungsverfolgung

Diese Veröffentlichung verbessert die team- und tagbasierte Nutzungsverfolgung bei über 1 Million Ausgabenprotokollen, was die Überwachung Ihrer LLM-API-Ausgaben in der Produktion erleichtert. Dies umfasst:

  • Tägliche Ausgaben nach Teams + Tags anzeigen
  • Nutzung / Ausgaben nach Schlüssel innerhalb von Teams anzeigen
  • Ausgaben nach mehreren Tags anzeigen
  • Interne Benutzer dazu ermächtigen, die Ausgaben von Teams anzuzeigen, deren Mitglied sie sind

Mehr erfahren

Vereinheitlichte Responses API

Diese Veröffentlichung ermöglicht es Ihnen, Azure OpenAI, Anthropic, AWS Bedrock und Google Vertex AI Modelle über den POST /v1/responses Endpunkt auf LiteLLM aufzurufen. Das bedeutet, dass Sie jetzt beliebte Tools wie OpenAI Codex mit Ihren eigenen Modellen verwenden können.

Mehr erfahren

Neue Modelle / Aktualisierte Modelle

  • OpenAI
    1. gpt-4.1, gpt-4.1-mini, gpt-4.1-nano, o3, o3-mini, o4-mini Preise - Erste Schritte, PR
    2. o4 - o4 korrekt auf OpenAI o_series Modell abbilden
  • Azure AI
    1. Korrektur der Phi-4 Ausgabe-Kosten pro Token - PR
    2. Responses API Unterstützung Erste Schritte, PR
  • Anthropic
    1. Unterstützung für redigierte Nachrichten (thinking) - Erste Schritte, PR
  • Cohere
    1. /v2/chat Passthrough-Endpunktunterstützung mit Kostenverfolgung - Erste Schritte, PR
  • Azure
    1. Unterstützung für Azure tenant_id/client_id Umgebungsvariablen - Erste Schritte, PR
    2. Korrektur der 'response_format'-Prüfung für API-Versionen ab 2025 - PR
    3. Preise für gpt-4.1, gpt-4.1-mini, gpt-4.1-nano, o3, o3-mini, o4-mini hinzufügen
  • VLLM
    1. Dateien - Unterstützung für den Nachrichtentyp 'file' für VLLM-Video-URLs - Erste Schritte, PR
    2. Passthrough - neuer /vllm/ Passthrough-Endpunkt unterstützt - Erste Schritte, PR
  • Mistral
    1. neuer /mistral Passthrough-Endpunkt unterstützt - Erste Schritte, PR
  • AWS
    1. Neu zugeordnete Bedrock-Regionen - PR
  • VertexAI / Google AI Studio
    1. Gemini - Antwortformat - Beibehaltung der Schemabeschreibungsreihenfolge für Google Gemini und Vertex durch Angabe von 'propertyOrdering' - Erste Schritte, PR
    2. Gemini-2.5-flash - Rückgabe von Reasoning-Inhalt Google AI Studio, Vertex AI
    3. Gemini-2.5-flash - Preise + Modellinformationen PR
    4. Passthrough - neue Route /vertex_ai/discovery - ermöglicht den Aufruf von AgentBuilder API-Routen Erste Schritte, PR
  • Fireworks AI
    1. Gibt Tool-Aufruf-Antworten im Feld 'tool_calls' zurück (Fireworks gibt dies fälschlicherweise als JSON-String im Inhalt zurück) PR
  • Triton
    1. Entfernen von festen 'bad_words' / 'stop_words' aus dem '/generate'-Aufruf - Erste Schritte, PR
  • Sonstiges
    1. Unterstützung für alle LiteLLM-Provider auf der Responses API (funktioniert mit Codex) - Erste Schritte, PR
    2. Kombination mehrerer Tool-Aufrufe in gestreamter Antwort korrigiert - Erste Schritte, PR

Verbesserungen bei der Ausgabenverfolgung

  • Kostenkontrolle - Einfügen von Cache-Kontrollpunkten in den Prompt zur Kostensenkung Erste Schritte, PR
  • Spend-Tags - Spend-Tags in Headern - Unterstützung für x-litellm-tags, auch wenn die tagbasierte Weiterleitung nicht aktiviert ist Erste Schritte, PR
  • Gemini-2.5-flash - Berechnung der Kosten für Reasoning-Tokens unterstützen PR

Management Endpunkte / UI

  • Benutzer

    1. created_at und updated_at auf der Benutzerseite anzeigen - PR
  • Virtuelle Schlüssel

    1. Filtern nach Schlüssel-Alias - https://github.com/BerriAI/litellm/pull/10085
  • Nutzungs-Tab

    1. Team-basierte Nutzung

      • Neue Tabelle 'LiteLLM_DailyTeamSpend' für aggregierte teambasierte Nutzungsdatenspeicherung - PR

      • Neues teambasiertes Nutzungs-Dashboard + neue API '/team/daily/activity' - PR

      • Team-Alias auf der API '/team/daily/activity' zurückgeben - PR

      • internen Benutzern ermöglichen, Ausgaben für Teams anzuzeigen, zu denen sie gehören - PR

      • Top-Schlüssel pro Team anzeigen lassen - PR

    2. Tag-basierte Nutzung

      • Neue Tabelle 'LiteLLM_DailyTagSpend' für aggregierte tagbasierte Nutzungsdatenspeicherung - PR
      • Auf Proxy-Admins beschränken - PR
      • Top-Schlüssel nach Tag anzeigen lassen
      • In der Anfrage übergebene Tags (d. h. dynamische Tags) auf der '/tag/list'-API zurückgeben - PR
    3. Prompt-Caching-Metriken in täglichen Benutzer-, Team-, Tag-Tabellen verfolgen - PR

    4. Nutzung pro Schlüssel anzeigen (auf allen, Team- und Tag-Nutzungs-Dashboards) - PR

    5. alten Nutzungs-Tab durch neuen Nutzungs-Tab ersetzen

  • Modelle

    1. Spalten größenveränderbar/ausblendbar machen - PR
  • API-Playground

    1. internem Benutzer erlauben, den API-Playground aufzurufen - PR
  • SCIM

    1. LiteLLM SCIM-Integration für Team- und Benutzerverwaltung hinzufügen - Erste Schritte, PR

Logging / Guardrail Integrationen

  • GCS
    1. GCS Pub/Sub-Protokollierung mit der Umgebungsvariable GCS_PROJECT_ID korrigieren - Erste Schritte, PR
  • AIM
    1. LiteLLM Call-ID-Weiterleitung an Aim-Guardrails bei Pre- und Post-Hook-Aufrufen hinzufügen - Erste Schritte, PR
  • Azure Blob Storage
    1. Sicherstellen, dass die Protokollierung in Szenarien mit hohem Durchsatz funktioniert - Erste Schritte, PR

Allgemeine Proxy-Verbesserungen

  • Unterstützung für das Setzen von 'litellm.modify_params' über Umgebungsvariable PR
  • Modellerkennung - Prüfen Sie die /models Endpunkte des Anbieters beim Aufruf des /v1/models Endpunkts des Proxys - Erste Schritte, PR
  • /utils/token_counter - Abrufen des benutzerdefinierten Tokenizers für DB-Modelle korrigiert - Erste Schritte, PR
  • Prisma-Migration - Umgang mit vorhandenen Spalten in der DB-Tabelle - PR

Krrish Dholakia
Ishaan Jaffer

Diese Version bereitstellen

docker run litellm
docker run
-e STORE_MODEL_IN_DB=True
-p 4000:4000
ghcr.io/berriai/litellm:main-v1.66.0-stable

v1.66.0-stable ist jetzt verfügbar, hier sind die wichtigsten Highlights dieser Veröffentlichung

Wichtige Highlights

  • Echtzeit-API-Kostenverfolgung: Verfolgen Sie die Kosten von Echtzeit-API-Aufrufen
  • Microsoft SSO automatische Synchronisierung: Synchronisieren Sie automatisch Gruppen und Gruppenmitglieder von Azure Entra ID nach LiteLLM
  • xAI grok-3: Unterstützung für xai/grok-3 Modelle hinzugefügt
  • Sicherheitskorrekturen: Schwachstellen CVE-2025-0330 und CVE-2024-6825 behoben

Tauchen wir ein.

Echtzeit-API-Kostenverfolgung

Diese Veröffentlichung fügt Echtzeit-API-Protokollierung + Kostenverfolgung hinzu.

  • Protokollierung: LiteLLM protokolliert nun die vollständige Antwort von Echtzeit-Aufrufen für alle Protokollierungsintegrationen (DB, S3, Langfuse usw.)
  • Kostenverfolgung: Sie können nun 'base_model' und benutzerdefinierte Preise für Echtzeit-Modelle festlegen. Benutzerdefinierte Preise
  • Budgets: Ihre Schlüssel-/Benutzer-/Team-Budgets funktionieren nun auch für Echtzeit-Modelle.

Starten Sie hier

Microsoft SSO automatische Synchronisierung

Synchronisiert automatisch Gruppen und Mitglieder von Azure Entra ID nach LiteLLM

Diese Version fügt Unterstützung für die automatische Synchronisierung von Gruppen und Mitgliedern in Microsoft Entra ID mit LiteLLM hinzu. Das bedeutet, dass LiteLLM Proxy-Administratoren weniger Zeit mit der Verwaltung von Teams und Mitgliedern verbringen müssen und LiteLLM Folgendes übernimmt:

  • Automatische Erstellung von Teams, die in Microsoft Entra ID existieren
  • Synchronisierung von Teammitgliedern in Microsoft Entra ID mit LiteLLM-Teams

Starten Sie hier mit diesem Link

Neue Modelle / Aktualisierte Modelle

  • xAI

    1. Unterstützung für `reasoning_effort` für xai/grok-3-mini-beta hinzugefügt. Erste Schritte
    2. Kostenverfolgung für xai/grok-3-Modelle hinzugefügt. PR
  • Hugging Face

    1. Unterstützung für Inferenz-Anbieter hinzugefügt. Erste Schritte
  • Azure

    1. Kostenverfolgung für `azure/gpt-4o-realtime-audio` hinzugefügt. PR
  • VertexAI

    1. Unterstützung für das `enterpriseWebSearch`-Tool hinzugefügt. Erste Schritte
    2. Nur Schlüssel übergeben, die vom Vertex AI-Antwortschema akzeptiert werden. PR
  • Google AI Studio

    1. Kostenverfolgung für gemini-2.5-pro-Modelle hinzugefügt. PR
    2. Preise für 'gemini/gemini-2.5-pro-preview-03-25' korrigiert. PR
    3. Behandlung von `file_data`, das übergeben wird, korrigiert. PR
  • Azure

    1. Preise für Azure Phi-4 aktualisiert. PR
    2. Kostenverfolgung für `azure/gpt-4o-realtime-audio` hinzugefügt. PR
  • Databricks

    1. `reasoning_effort` aus Parametern entfernt. PR
    2. Überprüfung benutzerdefinierter Endpunkte für Databricks korrigiert. PR
  • Allgemein

    1. Dienstprogramm `litellm.supports_reasoning()` hinzugefügt, um zu verfolgen, ob eine LLM Reasoning unterstützt. Erste Schritte
    2. Function Calling - Pydantic Base Model in Message Tool Calls verarbeitet, `tools = []` verarbeitet und Streaming für Tool Calls bei `meta.llama3-3-70b-instruct-v1:0` unterstützt. PR
    3. LiteLLM Proxy - Parameter `thinking` kann über das Client-SDK an den LiteLLM Proxy übergeben werden. PR
    4. Parameter `thinking` für LiteLLM korrekt übersetzt. PR

Verbesserungen bei der Ausgabenverfolgung

  • OpenAI, Azure
    1. Echtzeit-API-Kostenverfolgung mit Token-Nutzungsmetriken in Spend-Logs. Erste Schritte
  • Anthropic
    1. Preise für Claude Haiku Cache Read pro Token korrigiert. PR
    2. Kostenverfolgung für Claude-Antworten mit `base_model` hinzugefügt. PR
    3. Kostenberechnung für Anthropic Prompt Caching und gekürzte geloggte Nachricht in der DB korrigiert. PR
  • Allgemein
    1. Token-Tracking und Nutzungs-Objekt in Spend-Logs hinzugefügt. PR
    2. Benutzerdefinierte Preise auf Deployment-Ebene verarbeiten. PR

Management Endpunkte / UI

  • Test Key Tab

    1. Darstellung von Reasoning-Inhalten, TTFT (Time to First Byte) und Nutzungsmetriken auf der Test-Key-Seite hinzugefügt. PR

      Anzeige von Input-, Output-, Reasoning-Tokens und TTFT-Metriken.

  • Tag- / Richtlinienverwaltung

    1. Tag-/Richtlinienverwaltung hinzugefügt. Erstellung von Routing-Regeln basierend auf Request-Metadaten. Dies ermöglicht die Durchsetzung, dass Anfragen mit tags="private" nur an bestimmte Modelle weitergeleitet werden. Erste Schritte


      Tags erstellen und verwalten.

  • Login-Bildschirm neu gestaltet

    1. Polierter Login-Bildschirm. PR
  • Microsoft SSO Auto-Sync

    1. Debug-Route hinzugefügt, um Admins die Fehlersuche bei SSO-JWT-Feldern zu ermöglichen. PR
    2. Möglichkeit hinzugefügt, die MSFT Graph API zur Zuweisung von Benutzern zu Teams zu verwenden. PR
    3. LiteLLM mit Microsoft Entra ID Enterprise Application verbunden. PR
    4. Möglichkeit für Admins hinzugefügt, `default_team_params` festzulegen, wenn LiteLLM SSO Standard-Teams erstellt. PR
    5. MSFT SSO korrigiert, um das richtige Feld für die Benutzere-Mail zu verwenden. PR
    6. UI-Unterstützung für die Einstellung von "Default Team" hinzugefügt, wenn LiteLLM SSO automatisch Teams erstellt. PR
  • UI-Fehlerbehebungen

    1. Verhindert, dass numerische Werte für Teams, Keys, Organisationen und Modelle beim Scrollen geändert werden. PR
    2. Key- und Team-Updates werden sofort in der UI widergespiegelt. PR

Verbesserungen bei Logging / Guardrails.

  • Prometheus
    1. Key- und Team-Budgetmetriken werden als Cronjob geplant ausgegeben. Erste Schritte

Sicherheitskorrekturen.

  • Gefixed CVE-2025-0330 - Leakage von Langfuse API-Schlüsseln bei der Team-Ausnahmebehandlung. PR
  • Gefixed CVE-2024-6825 - Remote Code Execution in Post-Call-Regeln. PR

Helm

  • Service-Annotationen zum LiteLLM-Helm-Chart hinzugefügt. PR
  • Zusätzliche Umgebungsvariablen (`extraEnvVars`) zum Helm-Deployment hinzugefügt. PR

Demo

Probieren Sie es noch heute in der Demo-Instanz aus. heute

Vollständiger Git-Diff

Sehen Sie den vollständigen Git-Diff seit v1.65.4-stable hier