Zum Hauptinhalt springen

v1.69.0-stable - Loadbalance Batch API Models

Krrish Dholakia
Ishaan Jaffer

Diese Version bereitstellen​

docker run litellm
docker run
-e STORE_MODEL_IN_DB=True
-p 4000:4000
ghcr.io/berriai/litellm:main-v1.69.0-stable

Wichtige Highlights​

LiteLLM v1.69.0-stable bringt die folgenden Hauptverbesserungen

  • Loadbalance Batch API Models: Einfaches Loadbalancing ĂĽber mehrere Azure Batch-Bereitstellungen mit LiteLLM Managed Files
  • E-Mail-Einladungen 2.0: Senden Sie neu bei LiteLLM registrierten Benutzern eine E-Mail-Einladung.
  • Nscale: LLM-API fĂĽr die Einhaltung europäischer Vorschriften.
  • Bedrock /v1/messages: Verwenden Sie Bedrock Anthropic-Modelle mit den /v1/messages von Anthropic.

Batch-API-Loadbalancing​

Diese Veröffentlichung bringt die Unterstützung für LiteLLM Managed Files für Batches. Dies ist großartig für

  • Proxy-Administratoren: Sie können jetzt steuern, welche Batch-Modelle Benutzer aufrufen können.
  • Entwickler: Sie mĂĽssen den Azure-Bereitstellungsnamen nicht mehr kennen, wenn Sie Ihre Batch-.jsonl-Dateien erstellen – geben Sie einfach das Modell an, auf das Ihr LiteLLM-SchlĂĽssel Zugriff hat.

Im Laufe der Zeit erwarten wir, dass LiteLLM Managed Files die Methode sein wird, mit der die meisten Teams Dateien ĂĽber die Endpunkte /chat/completions, /batch und /fine_tuning verwenden.

Lesen Sie hier mehr

E-Mail-Einladungen​

Diese Veröffentlichung bringt die folgenden Verbesserungen für unsere E-Mail-Einladungs-Integration

  • Neue Vorlagen fĂĽr die Ereignisse Benutzer eingeladen und SchlĂĽssel erstellt.
  • Korrekturen bei der Verwendung von SMTP-E-Mail-Anbietern.
  • Native UnterstĂĽtzung fĂĽr die Resend API.
  • Möglichkeit fĂĽr Proxy-Administratoren, E-Mail-Ereignisse zu steuern.

Für LiteLLM Cloud-Benutzer, kontaktieren Sie uns bitte, wenn Sie dies für Ihre Instanz aktivieren möchten.

Lesen Sie hier mehr

Neue Modelle / Aktualisierte Modelle​

  • Gemini (VertexAI + Google AI Studio)
    • Modelle gemini-2.5-pro-preview-05-06 mit Preis- und Kontextfensterinformationen hinzugefĂĽgt – PR
    • Korrekte Kontextfensterlänge fĂĽr alle Gemini 2.5-Varianten festgelegt – PR
  • Perplexity:
    • Neue Perplexity-Modelle hinzugefĂĽgt – PR
    • Preisinformationen fĂĽr das sonar-deep-research-Modell hinzugefĂĽgt – PR
  • Azure OpenAI:
    • Weitergabe des Parameters `azure_ad_token_provider` korrigiert – PR
  • OpenAI:
    • UnterstĂĽtzung fĂĽr PDF-URLs im 'file'-Parameter hinzugefĂĽgt – PR
  • Sagemaker:
    • Inhaltslänge fĂĽr den sagemaker_chat-Provider korrigiert – PR
  • Azure AI Foundry:
    • Kostenverfolgung fĂĽr die folgenden Modelle hinzugefĂĽgt PR
      • DeepSeek V3 0324
      • Llama 4 Scout
      • Llama 4 Maverick
  • Bedrock:
    • Kostenverfolgung fĂĽr Bedrock Llama 4-Modelle hinzugefĂĽgt – PR
    • Vorlagenkonvertierung fĂĽr Llama 4-Modelle in Bedrock korrigiert – PR
    • UnterstĂĽtzung fĂĽr die Verwendung von Bedrock Anthropic-Modellen im /v1/messages-Format hinzugefĂĽgt – PR
    • Streaming-UnterstĂĽtzung fĂĽr Bedrock Anthropic-Modelle im /v1/messages-Format hinzugefĂĽgt – PR
  • OpenAI: UnterstĂĽtzung fĂĽr reasoning_effort fĂĽr o3-Modelle hinzugefĂĽgt – PR
  • Databricks:
    • Problem bei der Verwendung von externen Modellen durch Databricks behoben, bei dem Delta leer sein konnte – PR
  • Cerebras: Preis und Kontextfenster fĂĽr das Llama-3.1-70b-Modell korrigiert – PR
  • Ollama:
    • Kostenverfolgung fĂĽr benutzerdefinierte Preise und UnterstĂĽtzung fĂĽr 'max_completion_token' korrigiert – PR
    • KeyError bei der Verwendung des JSON-Antwortformats behoben – PR
  • 🆕 Nscale
    • UnterstĂĽtzung fĂĽr Chat- und Bildgenerierungs-Endpunkte hinzugefĂĽgt – PR

LLM API Endpoints​

  • Messages API:
    • 🆕 UnterstĂĽtzung fĂĽr die Verwendung von Bedrock Anthropic-Modellen im /v1/messages-Format hinzugefĂĽgt – PR und Streaming-UnterstĂĽtzung – PR
  • Moderations API:
    • Fehler behoben, um die Verwendung von LiteLLM UI-Anmeldeinformationen fĂĽr die /moderations API zu ermöglichen – PR
  • Realtime API:
    • Behebung des Setzens von 'headers' im Scope fĂĽr WebSocket-Authentifizierungsanfragen und Probleme mit Endlosschleifen – PR
  • Files API:
    • Vereinheitlichte UnterstĂĽtzung fĂĽr die Ausgabe von File-IDs – PR
    • UnterstĂĽtzung fĂĽr das Schreiben von Dateien in alle Bereitstellungen – PR
    • Validierung des Zielmodellnamens hinzugefĂĽgt – PR
  • Batches API:
    • Vollständige vereinheitlichte Batch-ID-UnterstĂĽtzung – Ersetzung des Modells in jsonl durch den Bereitstellungsmodellnamen – PR
    • Beta-UnterstĂĽtzung fĂĽr vereinheitlichte Datei-IDs (Managed Files) fĂĽr Batches – PR

Verbesserungen bei der Ausgabenverfolgung / Budget​

  • Bugfix - PostgreSQL Integer Overflow Fehler bei der DB Spend Tracking – PR

Management Endpunkte / UI​

  • Modelle
    • Modellinformationen-Ăśberschreibung beim Bearbeiten eines Modells in der Benutzeroberfläche behoben – PR
    • Team-Admin-Modellaktualisierungen und Organisationerstellung mit spezifischen Modellen behoben – PR
  • Logs:
    • Bugfix - Kopieren von Request/Response auf der Logs-Seite – PR
    • Bugfix - Log blieb auf der QA Logs-Seite nicht im Fokus + TextĂĽberlauf bei Fehlerprotokollen – PR
    • Index fĂĽr `session_id` in LiteLLM_SpendLogs fĂĽr bessere Abfrageleistung hinzugefĂĽgt – PR
  • Benutzerverwaltung:
    • Benutzerverwaltungsfunktionalität zur Python-Clientbibliothek & CLI hinzugefĂĽgt – PR
    • Bugfix - SCIM-Token-Erstellung auf der Admin-UI behoben – PR
    • Bugfix - 404-Antwort hinzugefĂĽgt, wenn versucht wird, nicht existierende Verifizierungstoken zu löschen – PR

Logging / Guardrail Integrationen​

  • Custom Logger API: V2 Custom Callback API (LLM-Logs an benutzerdefinierte API senden) – PR, Erste Schritte
  • OpenTelemetry:
    • OpenTelemetry so angepasst, dass es den semantischen Konventionen von GenAI folgt + UnterstĂĽtzung fĂĽr den Parameter 'instructions' fĂĽr TTS – PR
  • Bedrock PII:
    • UnterstĂĽtzung fĂĽr PII-Maskierung mit Bedrock Guardrails hinzugefĂĽgt – Erste Schritte, PR
  • Dokumentation:
    • Dokumentation fĂĽr StandardLoggingVectorStoreRequest hinzugefĂĽgt – PR

Leistungs- / Zuverlässigkeitsverbesserungen​

  • Python-Kompatibilität:
    • UnterstĂĽtzung fĂĽr Python 3.11- hinzugefĂĽgt (UTC-Handling fĂĽr Datum/Uhrzeit korrigiert) – PR
    • UnicodeDecodeError: 'charmap' unter Windows bei der litellm-Importierung behoben – PR
  • Caching:
    • Caching-Ergebnis fĂĽr Embedding-Strings korrigiert – PR
    • Cache-Fehler fĂĽr Gemini-Modelle mit `response_format` behoben – PR

Allgemeine Proxy-Verbesserungen​

  • Proxy CLI:
    • --version-Flag zur litellm-proxy CLI hinzugefĂĽgt – PR
    • Dedizierte litellm-proxy CLI hinzugefĂĽgt – PR
  • Alerting:
    • Slack-Benachrichtigungen, wenn eine DB verwendet wird, funktionieren nicht mehr – PR
  • E-Mail-Einladungen:
    • V2-E-Mails mit Korrekturen fĂĽr das Senden von E-Mails beim Erstellen von SchlĂĽsseln + Resend API-UnterstĂĽtzung hinzugefĂĽgt – PR
    • Benutzer-Einladungs-E-Mails hinzugefĂĽgt – PR
    • Endpunkte zur Verwaltung von E-Mail-Einstellungen hinzugefĂĽgt – PR
  • Allgemein:
    • Fehler behoben, bei dem doppelte JSON-Logs ausgegeben wurden – PR

Neue Mitwirkende​