v1.65.0-stable ist jetzt live. Hier sind die wichtigsten Highlights dieser Version
- MCP-UnterstĂĽtzung: UnterstĂĽtzung fĂĽr die HinzufĂĽgung und Verwendung von MCP-Servern im LiteLLM-Proxy.
- UI zeigt Gesamtverbrauch nach 1 Mio.+ Logs an: Sie können nun Nutzungsanalysen anzeigen, nachdem Sie 1 Mio.+ Logs in der DB überschritten haben.
Model Context Protocol (MCP)​
Diese Version führt die Unterstützung für die zentrale Hinzufügung von MCP-Servern zu LiteLLM ein. Dies ermöglicht es Ihnen, MCP-Server-Endpunkte hinzuzufügen und Ihre Entwickler können MCP-Tools über LiteLLM `list` und `call`.
Lesen Sie mehr ĂĽber MCP hier.
MCP-Server ĂĽber LiteLLM verfĂĽgbar machen und nutzen
UI zeigt Gesamtverbrauch nach 1 Mio.+ Logs an​
Diese Version bietet die Möglichkeit, die Gesamtnutzungsanalysen auch nach Überschreitung von 1 Million+ Logs in Ihrer Datenbank anzuzeigen. Wir haben eine skalierbare Architektur implementiert, die nur aggregierte Nutzungsdaten speichert, was zu deutlich effizienteren Abfragen und einer reduzierten CPU-Auslastung der Datenbank führt.
Gesamtverbrauch nach 1 Mio.+ Logs anzeigen
So funktioniert es
- Wir aggregieren nun Nutzungsdaten in einer dedizierten `DailyUserSpend`-Tabelle, was die Abfragelast und die CPU-Auslastung auch ĂĽber 1 Million+ Logs hinaus erheblich reduziert.
Daily Spend Breakdown API
Granulare tägliche Nutzungsdaten (nach Modell, Anbieter und API-Schlüssel) mit einem einzigen Endpunkt abrufen. Beispielanfrage
Daily Spend Breakdown APIcurl -L -X GET 'https://:4000/user/daily/activity?start_date=2025-03-20&end_date=2025-03-27' \
-H 'Authorization: Bearer sk-...'Daily Spend Breakdown API-Antwort{
"results": [
{
"date": "2025-03-27",
"metrics": {
"spend": 0.0177072,
"prompt_tokens": 111,
"completion_tokens": 1711,
"total_tokens": 1822,
"api_requests": 11
},
"breakdown": {
"models": {
"gpt-4o-mini": {
"spend": 1.095e-05,
"prompt_tokens": 37,
"completion_tokens": 9,
"total_tokens": 46,
"api_requests": 1
},
"providers": { "openai": { ... }, "azure_ai": { ... } },
"api_keys": { "3126b6eaf1...": { ... } }
}
}
],
"metadata": {
"total_spend": 0.7274667,
"total_prompt_tokens": 280990,
"total_completion_tokens": 376674,
"total_api_requests": 14
}
}
Neue Modelle / Aktualisierte Modelle​
- UnterstĂĽtzung fĂĽr Vertex AI `gemini-2.0-flash-lite` & Google AI Studio `gemini-2.0-flash-lite`. PR
- UnterstĂĽtzung fĂĽr Vertex AI Fine-Tuned LLMs. PR
- Nova Canvas BildgenerierungsunterstĂĽtzung. PR
- OpenAI `gpt-4o-transcribe`-UnterstĂĽtzung. PR
- Neues Vertex AI Text-Embedding-Modell hinzugefĂĽgt. PR
LLM-Übersetzung​
- OpenAI Web Search Tool Call-UnterstĂĽtzung. PR
- Vertex AI `topLogprobs`-UnterstĂĽtzung. PR
- UnterstĂĽtzung fĂĽr das Senden von Bildern und Videos an Vertex AI Multimodal Embedding. Doku
- UnterstĂĽtzung fĂĽr `litellm.api_base` fĂĽr Vertex AI + Gemini ĂĽber Completion, Embedding, Image Generation. PR
- Fehlerbehebung bei der RĂĽckgabe von `response_cost` bei Verwendung des LiteLLM Python SDK mit LiteLLM Proxy. PR
- UnterstĂĽtzung fĂĽr `max_completion_tokens` bei der Mistral API. PR
- Refaktorierung der Vertex AI Passthrough-Routen - behebt unvorhersehbares Verhalten bei der automatischen Einstellung von `default_vertex_region` beim HinzufĂĽgen von Router-Modellen. PR
Verbesserungen bei der Ausgabenverfolgung​
- `api_base` in Spend Logs protokollieren. PR
- UnterstĂĽtzung fĂĽr die Kostenverfolgung von Gemini-Audio-Tokens. PR
- Kostenverfolgung fĂĽr OpenAI-Audio-Input-Tokens korrigiert. PR
UI​
Modellverwaltung​
- Team-Admins wurde erlaubt, Modelle über die UI hinzuzufügen/zu aktualisieren/zu löschen. PR
- `supports_web_search` auf dem Modell-Hub rendern hinzugefĂĽgt. PR
Request Logs​
- API-Basis und Modell-ID in Request Logs anzeigen. PR
- Anzeige von Key-Informationen in Request Logs ermöglichen. PR
Nutzungs-Tab​
- Tägliche aggregierte Ausgabenansicht hinzugefügt - ermöglicht die Funktion des UI-Nutzungs-Tabs bei > 1 Mio. Zeilen. PR
- UI mit der Ausgaben-Tabelle "LiteLLM_DailyUserSpend" verbunden. PR
Logging-Integrationen​
- StandardLoggingPayload fĂĽr GCS Pub Sub Logging Integration korrigiert. PR
- `litellm_model_name` in `StandardLoggingPayload` verfolgen. Dokumentation
Leistungs- / Zuverlässigkeitsverbesserungen​
- LiteLLM Redis semantische Caching-Implementierung. PR
- Ausnahmen beim Ausfall der Datenbank gnädig behandeln. PR
- Pods starten und `/health/readiness` ĂĽbergeben, wenn `allow_requests_on_db_unavailable: True` und die DB nicht verfĂĽgbar ist. PR
Allgemeine Verbesserungen​
- UnterstĂĽtzung fĂĽr die Bereitstellung von MCP-Tools auf dem LiteLLM Proxy. PR
- UnterstĂĽtzung fĂĽr die Erkennung von Gemini, Anthropic, xAI Modellen durch Aufruf ihres `/v1/model`-Endpunkts. PR
- RoutenprĂĽfung fĂĽr Nicht-Proxy-Admins bei JWT-Authentifizierung korrigiert. PR
- Baseline Prisma-Datenbankmigrationen hinzugefĂĽgt. PR
- Alle Wildcard-Modelle unter `/model/info` anzeigen. PR
Sicherheit​
- `next` von 14.2.21 auf 14.2.25 im UI-Dashboard aktualisiert. PR
