Zum Hauptinhalt springen

v1.66.0-stable - Realtime API Cost Tracking

Krrish Dholakia
Ishaan Jaffer

Diese Version bereitstellen

docker run litellm
docker run
-e STORE_MODEL_IN_DB=True
-p 4000:4000
ghcr.io/berriai/litellm:main-v1.66.0-stable

v1.66.0-stable ist jetzt verfügbar, hier sind die wichtigsten Highlights dieser Veröffentlichung

Wichtige Highlights

  • Echtzeit-API-Kostenverfolgung: Verfolgen Sie die Kosten von Echtzeit-API-Aufrufen
  • Microsoft SSO automatische Synchronisierung: Synchronisieren Sie automatisch Gruppen und Gruppenmitglieder von Azure Entra ID nach LiteLLM
  • xAI grok-3: Unterstützung für xai/grok-3 Modelle hinzugefügt
  • Sicherheitskorrekturen: Schwachstellen CVE-2025-0330 und CVE-2024-6825 behoben

Tauchen wir ein.

Echtzeit-API-Kostenverfolgung

Diese Veröffentlichung fügt Echtzeit-API-Protokollierung + Kostenverfolgung hinzu.

  • Protokollierung: LiteLLM protokolliert nun die vollständige Antwort von Echtzeit-Aufrufen für alle Protokollierungsintegrationen (DB, S3, Langfuse usw.)
  • Kostenverfolgung: Sie können nun 'base_model' und benutzerdefinierte Preise für Echtzeit-Modelle festlegen. Benutzerdefinierte Preise
  • Budgets: Ihre Schlüssel-/Benutzer-/Team-Budgets funktionieren nun auch für Echtzeit-Modelle.

Starten Sie hier

Microsoft SSO automatische Synchronisierung

Synchronisiert automatisch Gruppen und Mitglieder von Azure Entra ID nach LiteLLM

Diese Version fügt Unterstützung für die automatische Synchronisierung von Gruppen und Mitgliedern in Microsoft Entra ID mit LiteLLM hinzu. Das bedeutet, dass LiteLLM Proxy-Administratoren weniger Zeit mit der Verwaltung von Teams und Mitgliedern verbringen müssen und LiteLLM Folgendes übernimmt:

  • Automatische Erstellung von Teams, die in Microsoft Entra ID existieren
  • Synchronisierung von Teammitgliedern in Microsoft Entra ID mit LiteLLM-Teams

Starten Sie hier mit diesem Link

Neue Modelle / Aktualisierte Modelle

  • xAI

    1. Unterstützung für `reasoning_effort` für xai/grok-3-mini-beta hinzugefügt. Erste Schritte
    2. Kostenverfolgung für xai/grok-3-Modelle hinzugefügt. PR
  • Hugging Face

    1. Unterstützung für Inferenz-Anbieter hinzugefügt. Erste Schritte
  • Azure

    1. Kostenverfolgung für `azure/gpt-4o-realtime-audio` hinzugefügt. PR
  • VertexAI

    1. Unterstützung für das `enterpriseWebSearch`-Tool hinzugefügt. Erste Schritte
    2. Nur Schlüssel übergeben, die vom Vertex AI-Antwortschema akzeptiert werden. PR
  • Google AI Studio

    1. Kostenverfolgung für gemini-2.5-pro-Modelle hinzugefügt. PR
    2. Preise für 'gemini/gemini-2.5-pro-preview-03-25' korrigiert. PR
    3. Behandlung von `file_data`, das übergeben wird, korrigiert. PR
  • Azure

    1. Preise für Azure Phi-4 aktualisiert. PR
    2. Kostenverfolgung für `azure/gpt-4o-realtime-audio` hinzugefügt. PR
  • Databricks

    1. `reasoning_effort` aus Parametern entfernt. PR
    2. Überprüfung benutzerdefinierter Endpunkte für Databricks korrigiert. PR
  • Allgemein

    1. Dienstprogramm `litellm.supports_reasoning()` hinzugefügt, um zu verfolgen, ob eine LLM Reasoning unterstützt. Erste Schritte
    2. Function Calling - Pydantic Base Model in Message Tool Calls verarbeitet, `tools = []` verarbeitet und Streaming für Tool Calls bei `meta.llama3-3-70b-instruct-v1:0` unterstützt. PR
    3. LiteLLM Proxy - Parameter `thinking` kann über das Client-SDK an den LiteLLM Proxy übergeben werden. PR
    4. Parameter `thinking` für LiteLLM korrekt übersetzt. PR

Verbesserungen bei der Ausgabenverfolgung

  • OpenAI, Azure
    1. Echtzeit-API-Kostenverfolgung mit Token-Nutzungsmetriken in Spend-Logs. Erste Schritte
  • Anthropic
    1. Preise für Claude Haiku Cache Read pro Token korrigiert. PR
    2. Kostenverfolgung für Claude-Antworten mit `base_model` hinzugefügt. PR
    3. Kostenberechnung für Anthropic Prompt Caching und gekürzte geloggte Nachricht in der DB korrigiert. PR
  • Allgemein
    1. Token-Tracking und Nutzungs-Objekt in Spend-Logs hinzugefügt. PR
    2. Benutzerdefinierte Preise auf Deployment-Ebene verarbeiten. PR

Management Endpunkte / UI

  • Test Key Tab

    1. Darstellung von Reasoning-Inhalten, TTFT (Time to First Byte) und Nutzungsmetriken auf der Test-Key-Seite hinzugefügt. PR

      Anzeige von Input-, Output-, Reasoning-Tokens und TTFT-Metriken.

  • Tag- / Richtlinienverwaltung

    1. Tag-/Richtlinienverwaltung hinzugefügt. Erstellung von Routing-Regeln basierend auf Request-Metadaten. Dies ermöglicht die Durchsetzung, dass Anfragen mit tags="private" nur an bestimmte Modelle weitergeleitet werden. Erste Schritte


      Tags erstellen und verwalten.

  • Login-Bildschirm neu gestaltet

    1. Polierter Login-Bildschirm. PR
  • Microsoft SSO Auto-Sync

    1. Debug-Route hinzugefügt, um Admins die Fehlersuche bei SSO-JWT-Feldern zu ermöglichen. PR
    2. Möglichkeit hinzugefügt, die MSFT Graph API zur Zuweisung von Benutzern zu Teams zu verwenden. PR
    3. LiteLLM mit Microsoft Entra ID Enterprise Application verbunden. PR
    4. Möglichkeit für Admins hinzugefügt, `default_team_params` festzulegen, wenn LiteLLM SSO Standard-Teams erstellt. PR
    5. MSFT SSO korrigiert, um das richtige Feld für die Benutzere-Mail zu verwenden. PR
    6. UI-Unterstützung für die Einstellung von "Default Team" hinzugefügt, wenn LiteLLM SSO automatisch Teams erstellt. PR
  • UI-Fehlerbehebungen

    1. Verhindert, dass numerische Werte für Teams, Keys, Organisationen und Modelle beim Scrollen geändert werden. PR
    2. Key- und Team-Updates werden sofort in der UI widergespiegelt. PR

Verbesserungen bei Logging / Guardrails.

  • Prometheus
    1. Key- und Team-Budgetmetriken werden als Cronjob geplant ausgegeben. Erste Schritte

Sicherheitskorrekturen.

  • Gefixed CVE-2025-0330 - Leakage von Langfuse API-Schlüsseln bei der Team-Ausnahmebehandlung. PR
  • Gefixed CVE-2024-6825 - Remote Code Execution in Post-Call-Regeln. PR

Helm

  • Service-Annotationen zum LiteLLM-Helm-Chart hinzugefügt. PR
  • Zusätzliche Umgebungsvariablen (`extraEnvVars`) zum Helm-Deployment hinzugefügt. PR

Demo

Probieren Sie es noch heute in der Demo-Instanz aus. heute

Vollständiger Git-Diff

Sehen Sie den vollständigen Git-Diff seit v1.65.4-stable hier