Ein Beitrag mit dem Tag "custom_prompt_management"

v1.65.0-stable - Model Context Protocol

30. März 2025

Krrish Dholakia

CEO, LiteLLM

Ishaan Jaffer

CTO, LiteLLM

v1.65.0-stable ist jetzt live. Hier sind die wichtigsten Highlights dieser Version

MCP-Unterstützung: Unterstützung für die Hinzufügung und Verwendung von MCP-Servern im LiteLLM-Proxy.
UI zeigt Gesamtverbrauch nach 1 Mio.+ Logs an: Sie können nun Nutzungsanalysen anzeigen, nachdem Sie 1 Mio.+ Logs in der DB überschritten haben.

Model Context Protocol (MCP)

Diese Version führt die Unterstützung für die zentrale Hinzufügung von MCP-Servern zu LiteLLM ein. Dies ermöglicht es Ihnen, MCP-Server-Endpunkte hinzuzufügen und Ihre Entwickler können MCP-Tools über LiteLLM `list` und `call`.

Lesen Sie mehr über MCP hier.

MCP-Server über LiteLLM verfügbar machen und nutzen

UI zeigt Gesamtverbrauch nach 1 Mio.+ Logs an

Diese Version bietet die Möglichkeit, die Gesamtnutzungsanalysen auch nach Überschreitung von 1 Million+ Logs in Ihrer Datenbank anzuzeigen. Wir haben eine skalierbare Architektur implementiert, die nur aggregierte Nutzungsdaten speichert, was zu deutlich effizienteren Abfragen und einer reduzierten CPU-Auslastung der Datenbank führt.

Gesamtverbrauch nach 1 Mio.+ Logs anzeigen

So funktioniert es
- Wir aggregieren nun Nutzungsdaten in einer dedizierten `DailyUserSpend`-Tabelle, was die Abfragelast und die CPU-Auslastung auch über 1 Million+ Logs hinaus erheblich reduziert.

Daily Spend Breakdown API

Granulare tägliche Nutzungsdaten (nach Modell, Anbieter und API-Schlüssel) mit einem einzigen Endpunkt abrufen. Beispielanfrage

Daily Spend Breakdown API
curl -L -X GET 'https://:4000/user/daily/activity?start_date=2025-03-20&end_date=2025-03-27' \
-H 'Authorization: Bearer sk-...'

Daily Spend Breakdown API-Antwort
{
    "results": [
        {
            "date": "2025-03-27",
            "metrics": {
                "spend": 0.0177072,
                "prompt_tokens": 111,
                "completion_tokens": 1711,
                "total_tokens": 1822,
                "api_requests": 11
            },
            "breakdown": {
                "models": {
                    "gpt-4o-mini": {
                        "spend": 1.095e-05,
                        "prompt_tokens": 37,
                        "completion_tokens": 9,
                        "total_tokens": 46,
                        "api_requests": 1
                },
                "providers": { "openai": { ... }, "azure_ai": { ... } },
                "api_keys": { "3126b6eaf1...": { ... } }
            }
        }
    ],
    "metadata": {
        "total_spend": 0.7274667,
        "total_prompt_tokens": 280990,
        "total_completion_tokens": 376674,
        "total_api_requests": 14
    }
}

Neue Modelle / Aktualisierte Modelle

Unterstützung für Vertex AI `gemini-2.0-flash-lite` & Google AI Studio `gemini-2.0-flash-lite`. PR
Unterstützung für Vertex AI Fine-Tuned LLMs. PR
Nova Canvas Bildgenerierungsunterstützung. PR
OpenAI `gpt-4o-transcribe`-Unterstützung. PR
Neues Vertex AI Text-Embedding-Modell hinzugefügt. PR

LLM-Übersetzung

OpenAI Web Search Tool Call-Unterstützung. PR
Vertex AI `topLogprobs`-Unterstützung. PR
Unterstützung für das Senden von Bildern und Videos an Vertex AI Multimodal Embedding. Doku
Unterstützung für `litellm.api_base` für Vertex AI + Gemini über Completion, Embedding, Image Generation. PR
Fehlerbehebung bei der Rückgabe von `response_cost` bei Verwendung des LiteLLM Python SDK mit LiteLLM Proxy. PR
Unterstützung für `max_completion_tokens` bei der Mistral API. PR
Refaktorierung der Vertex AI Passthrough-Routen - behebt unvorhersehbares Verhalten bei der automatischen Einstellung von `default_vertex_region` beim Hinzufügen von Router-Modellen. PR

Verbesserungen bei der Ausgabenverfolgung

`api_base` in Spend Logs protokollieren. PR
Unterstützung für die Kostenverfolgung von Gemini-Audio-Tokens. PR
Kostenverfolgung für OpenAI-Audio-Input-Tokens korrigiert. PR

UI

Modellverwaltung

Team-Admins wurde erlaubt, Modelle über die UI hinzuzufügen/zu aktualisieren/zu löschen. PR
`supports_web_search` auf dem Modell-Hub rendern hinzugefügt. PR

Request Logs

API-Basis und Modell-ID in Request Logs anzeigen. PR
Anzeige von Key-Informationen in Request Logs ermöglichen. PR

Nutzungs-Tab

Tägliche aggregierte Ausgabenansicht hinzugefügt - ermöglicht die Funktion des UI-Nutzungs-Tabs bei > 1 Mio. Zeilen. PR
UI mit der Ausgaben-Tabelle "LiteLLM_DailyUserSpend" verbunden. PR

Logging-Integrationen

StandardLoggingPayload für GCS Pub Sub Logging Integration korrigiert. PR
`litellm_model_name` in `StandardLoggingPayload` verfolgen. Dokumentation

Leistungs- / Zuverlässigkeitsverbesserungen

LiteLLM Redis semantische Caching-Implementierung. PR
Ausnahmen beim Ausfall der Datenbank gnädig behandeln. PR
Pods starten und `/health/readiness` übergeben, wenn `allow_requests_on_db_unavailable: True` und die DB nicht verfügbar ist. PR

Allgemeine Verbesserungen

Unterstützung für die Bereitstellung von MCP-Tools auf dem LiteLLM Proxy. PR
Unterstützung für die Erkennung von Gemini, Anthropic, xAI Modellen durch Aufruf ihres `/v1/model`-Endpunkts. PR
Routenprüfung für Nicht-Proxy-Admins bei JWT-Authentifizierung korrigiert. PR
Baseline Prisma-Datenbankmigrationen hinzugefügt. PR
Alle Wildcard-Modelle unter `/model/info` anzeigen. PR

Sicherheit

`next` von 14.2.21 auf 14.2.25 im UI-Dashboard aktualisiert. PR

Vollständiger Git-Diff

Hier ist der vollständige Git-Diff

Model Context Protocol (MCP)​

UI zeigt Gesamtverbrauch nach 1 Mio.+ Logs an​

Neue Modelle / Aktualisierte Modelle​

LLM-Übersetzung​

Verbesserungen bei der Ausgabenverfolgung​

UI​

Modellverwaltung​

Request Logs​

Nutzungs-Tab​

Logging-Integrationen​

Leistungs- / Zuverlässigkeitsverbesserungen​

Allgemeine Verbesserungen​

Sicherheit​

Vollständiger Git-Diff​