Zum Hauptinhalt springen

v1.68.0-stable

Krrish Dholakia
Ishaan Jaffer

Diese Version bereitstellen

docker run litellm
docker run
-e STORE_MODEL_IN_DB=True
-p 4000:4000
ghcr.io/berriai/litellm:main-v1.68.0-stable

Wichtige Highlights

LiteLLM v1.68.0-stable ist bald live. Hier sind die wichtigsten Highlights dieser Version

  • Bedrock Knowledge Base: Sie können jetzt Ihre Bedrock Knowledge Base mit allen LiteLLM-Modellen über die /chat/completion- oder /responses-API abfragen.
  • Ratenbegrenzungen: Diese Version bietet eine genaue Ratenbegrenzung über mehrere Instanzen hinweg und reduziert Überlaufanfragen auf maximal 10 zusätzliche Anfragen bei hohem Datenverkehr.
  • Meta Llama API: Unterstützung für die Meta Llama API hinzugefügt Erste Schritte
  • LlamaFile: Unterstützung für LlamaFile hinzugefügt Erste Schritte

Bedrock Knowledge Base (Vektorspeicher)


Diese Version fügt Unterstützung für Bedrock-Vektorspeicher (Wissensdatenbanken) in LiteLLM hinzu. Mit diesem Update können Sie:

  • Bedrock-Vektorspeicher im OpenAI /chat/completions-Format mit allen von LiteLLM unterstützten Modellen verwenden.
  • Alle verfügbaren Vektorspeicher über die LiteLLM-Benutzeroberfläche oder API anzeigen.
  • Vektorspeicher für bestimmte Modelle dauerhaft aktiv schalten.
  • Die Nutzung von Vektorspeichern in den LiteLLM-Protokollen verfolgen.

Für die nächste Version planen wir, Ihnen das Festlegen von Berechtigungen für Schlüssel, Benutzer, Teams und Organisationen für Vektorspeicher zu ermöglichen.

Lesen Sie hier mehr

Ratenbegrenzung


Diese Version bringt eine genaue Multi-Instanz-Ratenbegrenzung über Schlüssel/Benutzer/Teams hinweg. Nachfolgend werden die wichtigsten technischen Änderungen erläutert:

  • Änderung: Instanzen inkrementieren jetzt den Cache-Wert, anstatt ihn zu setzen. Um Redis bei jeder Anfrage nicht aufrufen zu müssen, wird dies alle 0,01s synchronisiert.
  • Genauigkeit: In Tests sahen wir einen maximalen Überlauf gegenüber den Erwartungen von 10 Anfragen bei hohem Datenverkehr (100 RPS, 3 Instanzen) im Vergleich zu einem aktuellen Überlauf von 189 Anfragen.
  • Leistung: Unsere Lasttests zeigen, dass dies die mediane Antwortzeit bei hohem Datenverkehr um 100 ms reduziert.

Dies ist derzeit hinter einem Feature-Flag verborgen und wir planen, dies nächste Woche standardmäßig zu aktivieren. Um dies heute zu aktivieren, fügen Sie einfach diese Umgebungsvariable hinzu

export LITELLM_RATE_LIMIT_ACCURACY=true

Lesen Sie hier mehr

Neue Modelle / Aktualisierte Modelle

  • Gemini (VertexAI + Google AI Studio)
    • Mehr JSON-Schema-Konvertierungs-Edge-Cases für OpenAPI-Schemata verarbeiten PR
    • Tool-Aufrufe - 'finish_reason="tool_calls"' für Gemini-Tool-Calling-Antworten zurückgeben PR
  • VertexAI
    • Meta/llama-4 Modellunterstützung PR
    • Meta/llama3 - Tool-Aufrufergebnis im Inhalt verarbeiten PR
    • Meta/* - 'finish_reason="tool_calls"' für Tool-Calling-Antworten zurückgeben PR
  • Bedrock
  • OpenAI
    • Unterstützung für OPENAI_BASE_URL zusätzlich zu OPENAI_API_BASE PR
    • 504 Timeout-Fehler korrekt erneut auslösen PR
    • Native GPT-4o-mini-tts-Unterstützung PR
  • 🆕 Meta Llama API Provider PR
  • 🆕 LlamaFile Provider PR

LLM API Endpoints

  • Response API
    • Behebung bei der Verarbeitung von Multi-Turn-Sitzungen PR
  • Einbettungen
    • Caching-Korrekturen - PR
      • Konvertierung von str in list im Cache
      • Nutzungstoken für Cache-Treffer zurückgeben
      • Nutzungstoken bei teilweisen Cache-Treffern kombinieren
  • 🆕 Vektorspeicher
    • Konfiguration von Vektorspeichern zulassen - PR
    • Neues Feld StandardLoggingPayload für Anfragen, die bei Verwendung eines Vektorspeichers gestellt werden - PR
    • Vektorspeicher/KB-Anfragen auf der LiteLLM-Protokollseite anzeigen - PR
    • Verwendung von Vektorspeichern in der OpenAI-API-Spezifikation mit Tools zulassen - PR
  • MCP
    • Sicherstellen, dass Nicht-Admin-virtuelle Schlüssel auf /mcp-Routen zugreifen können - PR

      Hinweis: Derzeit können alle virtuellen Schlüssel auf die MCP-Endpunkte zugreifen. Wir arbeiten an einer Funktion, um den MCP-Zugriff nach Schlüsseln/Teams/Benutzern/Organisationen zu beschränken. Folgen Sie hier für Updates.

  • Moderationen
    • Unterstützung für Logging-Callbacks für die /moderations-API hinzufügen - PR

Verbesserungen bei der Ausgabenverfolgung / Budget

  • OpenAI
  • Fireworks AI - Preisaktualisierungen - neue Preisstufe für Modelle 0-4b + Preis für Llama4-Modell
  • Budgets
    • Budget-Resets erfolgen jetzt zu Beginn des Tages/der Woche/des Monats - PR
    • Soft-Budget-Warnungen auslösen, wenn ein Schlüssel einen Schwellenwert überschreitet - PR
  • Token-Zählung
    • Neufassung der Funktion token_counter(), um Unterzählungen von Tokens zu verhindern - PR

Management Endpunkte / UI

  • Virtuelle Schlüssel
    • Filtern nach Schlüsselalias korrigieren - PR
    • Globale Filterung nach Schlüsseln unterstützen - PR
    • Paginierung - Klicken auf Vorwärts-/Rückwärts-Schaltflächen in der Tabelle korrigiert - PR
  • Modelle
    • Triton - Hinzufügen von Modellen/Providern in der Benutzeroberfläche unterstützen - PR
    • VertexAI - Hinzufügen von Vertex-Modellen mit wiederverwendbaren Anmeldeinformationen korrigiert - PR
    • LLM-Anmeldeinformationen - vorhandene Anmeldeinformationen zur einfachen Bearbeitung anzeigen - PR
  • Teams
    • Zuordnung eines Teams zu einer anderen Organisation zulassen - PR
  • Organisationen
    • Anzeige des Organisationsbudgets in der Tabelle korrigiert - PR

Logging / Guardrail Integrationen

Leistungs-/Loadbalancing-/Zuverlässigkeitsverbesserungen

Allgemeine Proxy-Verbesserungen

  • Sicherheit
    • Web-Crawler blockieren zulassen - PR
  • Authentifizierung
    • Standardmäßige Unterstützung für den Header-Parameter x-litellm-api-key, dies behebt ein Problem aus der vorherigen Version, bei dem x-litellm-api-key bei Vertex-AI-Passthrough-Anfragen nicht verwendet wurde - PR
    • Schlüsseln mit maximalem Budget erlauben, Nicht-LLM-API-Endpunkte aufzurufen - PR
  • 🆕 Python-Clientbibliothek für LiteLLM Proxy Management Endpunkte
    • Erster PR - PR
    • Unterstützung für HTTP-Anfragen - PR
  • Abhängigkeiten
    • uvloop für Windows nicht erforderlich machen - PR