Zum Hauptinhalt springen

v1.65.0-stable - Model Context Protocol

Krrish Dholakia
Ishaan Jaffer

v1.65.0-stable ist jetzt live. Hier sind die wichtigsten Highlights dieser Version

  • MCP-UnterstĂĽtzung: UnterstĂĽtzung fĂĽr die HinzufĂĽgung und Verwendung von MCP-Servern im LiteLLM-Proxy.
  • UI zeigt Gesamtverbrauch nach 1 Mio.+ Logs an: Sie können nun Nutzungsanalysen anzeigen, nachdem Sie 1 Mio.+ Logs in der DB ĂĽberschritten haben.

Model Context Protocol (MCP)​

Diese Version führt die Unterstützung für die zentrale Hinzufügung von MCP-Servern zu LiteLLM ein. Dies ermöglicht es Ihnen, MCP-Server-Endpunkte hinzuzufügen und Ihre Entwickler können MCP-Tools über LiteLLM `list` und `call`.

Lesen Sie mehr ĂĽber MCP hier.

MCP-Server ĂĽber LiteLLM verfĂĽgbar machen und nutzen

UI zeigt Gesamtverbrauch nach 1 Mio.+ Logs an​

Diese Version bietet die Möglichkeit, die Gesamtnutzungsanalysen auch nach Überschreitung von 1 Million+ Logs in Ihrer Datenbank anzuzeigen. Wir haben eine skalierbare Architektur implementiert, die nur aggregierte Nutzungsdaten speichert, was zu deutlich effizienteren Abfragen und einer reduzierten CPU-Auslastung der Datenbank führt.

Gesamtverbrauch nach 1 Mio.+ Logs anzeigen

  • So funktioniert es

    • Wir aggregieren nun Nutzungsdaten in einer dedizierten `DailyUserSpend`-Tabelle, was die Abfragelast und die CPU-Auslastung auch ĂĽber 1 Million+ Logs hinaus erheblich reduziert.
  • Daily Spend Breakdown API

    • Granulare tägliche Nutzungsdaten (nach Modell, Anbieter und API-SchlĂĽssel) mit einem einzigen Endpunkt abrufen. Beispielanfrage

      Daily Spend Breakdown API
      curl -L -X GET 'https://:4000/user/daily/activity?start_date=2025-03-20&end_date=2025-03-27' \
      -H 'Authorization: Bearer sk-...'
      Daily Spend Breakdown API-Antwort
      {
      "results": [
      {
      "date": "2025-03-27",
      "metrics": {
      "spend": 0.0177072,
      "prompt_tokens": 111,
      "completion_tokens": 1711,
      "total_tokens": 1822,
      "api_requests": 11
      },
      "breakdown": {
      "models": {
      "gpt-4o-mini": {
      "spend": 1.095e-05,
      "prompt_tokens": 37,
      "completion_tokens": 9,
      "total_tokens": 46,
      "api_requests": 1
      },
      "providers": { "openai": { ... }, "azure_ai": { ... } },
      "api_keys": { "3126b6eaf1...": { ... } }
      }
      }
      ],
      "metadata": {
      "total_spend": 0.7274667,
      "total_prompt_tokens": 280990,
      "total_completion_tokens": 376674,
      "total_api_requests": 14
      }
      }

Neue Modelle / Aktualisierte Modelle​

  • UnterstĂĽtzung fĂĽr Vertex AI `gemini-2.0-flash-lite` & Google AI Studio `gemini-2.0-flash-lite`. PR
  • UnterstĂĽtzung fĂĽr Vertex AI Fine-Tuned LLMs. PR
  • Nova Canvas BildgenerierungsunterstĂĽtzung. PR
  • OpenAI `gpt-4o-transcribe`-UnterstĂĽtzung. PR
  • Neues Vertex AI Text-Embedding-Modell hinzugefĂĽgt. PR

LLM-Übersetzung​

  • OpenAI Web Search Tool Call-UnterstĂĽtzung. PR
  • Vertex AI `topLogprobs`-UnterstĂĽtzung. PR
  • UnterstĂĽtzung fĂĽr das Senden von Bildern und Videos an Vertex AI Multimodal Embedding. Doku
  • UnterstĂĽtzung fĂĽr `litellm.api_base` fĂĽr Vertex AI + Gemini ĂĽber Completion, Embedding, Image Generation. PR
  • Fehlerbehebung bei der RĂĽckgabe von `response_cost` bei Verwendung des LiteLLM Python SDK mit LiteLLM Proxy. PR
  • UnterstĂĽtzung fĂĽr `max_completion_tokens` bei der Mistral API. PR
  • Refaktorierung der Vertex AI Passthrough-Routen - behebt unvorhersehbares Verhalten bei der automatischen Einstellung von `default_vertex_region` beim HinzufĂĽgen von Router-Modellen. PR

Verbesserungen bei der Ausgabenverfolgung​

  • `api_base` in Spend Logs protokollieren. PR
  • UnterstĂĽtzung fĂĽr die Kostenverfolgung von Gemini-Audio-Tokens. PR
  • Kostenverfolgung fĂĽr OpenAI-Audio-Input-Tokens korrigiert. PR

UI​

Modellverwaltung​

  • Team-Admins wurde erlaubt, Modelle ĂĽber die UI hinzuzufĂĽgen/zu aktualisieren/zu löschen. PR
  • `supports_web_search` auf dem Modell-Hub rendern hinzugefĂĽgt. PR

Request Logs​

  • API-Basis und Modell-ID in Request Logs anzeigen. PR
  • Anzeige von Key-Informationen in Request Logs ermöglichen. PR

Nutzungs-Tab​

  • Tägliche aggregierte Ausgabenansicht hinzugefĂĽgt - ermöglicht die Funktion des UI-Nutzungs-Tabs bei > 1 Mio. Zeilen. PR
  • UI mit der Ausgaben-Tabelle "LiteLLM_DailyUserSpend" verbunden. PR

Logging-Integrationen​

  • StandardLoggingPayload fĂĽr GCS Pub Sub Logging Integration korrigiert. PR
  • `litellm_model_name` in `StandardLoggingPayload` verfolgen. Dokumentation

Leistungs- / Zuverlässigkeitsverbesserungen​

  • LiteLLM Redis semantische Caching-Implementierung. PR
  • Ausnahmen beim Ausfall der Datenbank gnädig behandeln. PR
  • Pods starten und `/health/readiness` ĂĽbergeben, wenn `allow_requests_on_db_unavailable: True` und die DB nicht verfĂĽgbar ist. PR

Allgemeine Verbesserungen​

  • UnterstĂĽtzung fĂĽr die Bereitstellung von MCP-Tools auf dem LiteLLM Proxy. PR
  • UnterstĂĽtzung fĂĽr die Erkennung von Gemini, Anthropic, xAI Modellen durch Aufruf ihres `/v1/model`-Endpunkts. PR
  • RoutenprĂĽfung fĂĽr Nicht-Proxy-Admins bei JWT-Authentifizierung korrigiert. PR
  • Baseline Prisma-Datenbankmigrationen hinzugefĂĽgt. PR
  • Alle Wildcard-Modelle unter `/model/info` anzeigen. PR

Sicherheit​

  • `next` von 14.2.21 auf 14.2.25 im UI-Dashboard aktualisiert. PR

Vollständiger Git-Diff​

Hier ist der vollständige Git-Diff