alerting, prometheus, secret management, management endpoints, ui, prompt management, finetuning, batch
Neue / Aktualisierte Modelle​
- Mistral Large Preisgestaltung - https://github.com/BerriAI/litellm/pull/7452
- Cohere command-r7b-12-2024 Preisgestaltung - https://github.com/BerriAI/litellm/pull/7553/files
- Voyage - neue Modelle, Preise und Kontextfensterinformationen - https://github.com/BerriAI/litellm/pull/7472
- Anthropic -
max_output_tokensfür Bedrock Claude-3-5-Haiku auf 8192 erhöhen
Allgemeine Proxy-Verbesserungen​
- Health-Check-UnterstĂĽtzung fĂĽr Echtzeitmodelle
- UnterstĂĽtzt das Aufrufen von Azure-Echtzeitrouten ĂĽber virtuelle SchlĂĽssel
- UnterstĂĽtzt benutzerdefinierte Tokenizer auf
/utils/token_counter- nĂĽtzlich beim ĂśberprĂĽfen der Token-Anzahl fĂĽr selbst gehostete Modelle - Anforderungspriorisierung - unterstĂĽtzt auch auf dem
/v1/completion-Endpunkt
LLM-Übersetzungsverbesserungen​
- Deepgram STT-UnterstĂĽtzung. Hier starten
- OpenAI Moderationen - UnterstĂĽtzung fĂĽr
omni-moderation-latest. Hier starten - Azure O1 - Fake-Streaming-UnterstĂĽtzung. Dies stellt sicher, dass die Antwort gestreamt wird, wenn
stream=trueĂĽbergeben wird. Hier starten - Anthropic - Behandlung von Nicht-Leerzeichen-Zeichen als Stoppsequenz - PR
- Azure OpenAI - UnterstĂĽtzung fĂĽr die Authentifizierung basierend auf Benutzername + Passwort von Entra ID. Hier starten
- LM Studio - Embedding-Routen-UnterstĂĽtzung. Hier starten
- WatsonX - ZenAPIKeyAuth-UnterstĂĽtzung. Hier starten
Prompt Management Verbesserungen​
- Langfuse-Integration
- HumanLoop-Integration
- UnterstĂĽtzung fĂĽr die Verwendung von Lastverteilungsmodellen
- UnterstĂĽtzung fĂĽr das Laden optionaler Parameter aus dem Prompt-Manager
Finetuning + Batch API Verbesserungen​
- Verbesserte einheitliche EndpunktunterstĂĽtzung fĂĽr Vertex AI Finetuning - PR
- UnterstĂĽtzung fĂĽr den Abruf von Vertex API Batch-Jobs hinzufĂĽgen - PR
NEUE Alerting-Integration​
PagerDuty Alerting-Integration.
Behandelt zwei Arten von Alarmen
- Hohe Ausfallrate der LLM-API. Konfigurieren Sie X Fehler in Y Sekunden, um einen Alarm auszulösen.
- Hohe Anzahl von hängenden LLM-Anfragen. Konfigurieren Sie X Hänger in Y Sekunden, um einen Alarm auszulösen.
Prometheus Verbesserungen​
UnterstĂĽtzung fĂĽr die Verfolgung von Latenz/Ausgaben/Tokens basierend auf benutzerdefinierten Metriken hinzugefĂĽgt. Hier starten
NEUE Hashicorp Secret Manager Unterstützung​
UnterstĂĽtzung fĂĽr das Lesen von Anmeldeinformationen + Schreiben von LLM-API-SchlĂĽsseln. Hier starten
Management-Endpunkte / UI-Verbesserungen​
- Organisationen erstellen und anzeigen + Organisationsadministratoren in der Proxy-UI zuweisen
- Unterstützt das Löschen von Schlüsseln nach
key_alias - Teams der Organisation in der UI zuweisen
- Verhindert die Verwendung des UI-Sitzungs-Tokens fĂĽr den "TestschlĂĽssel"-Bereich
- Anzeige des verwendeten Modells im "TestschlĂĽssel"-Bereich
- UnterstĂĽtzt Markdown-Ausgabe im "TestschlĂĽssel"-Bereich
Helm-Verbesserungen​
- Verhindert Istio-Injection fĂĽr den DB-Migrations-Cronjob
migrationJob.enabled-Variable innerhalb des Jobs verwenden
Logging-Verbesserungen​
- braintrust logging: project_id berĂĽcksichtigen, mehr Metriken hinzufĂĽgen - https://github.com/BerriAI/litellm/pull/7613
- Athina - Basis-URL unterstĂĽtzen -
ATHINA_BASE_URL - Lunary - Ăśbergabe einer benutzerdefinierten ĂĽbergeordneten AusfĂĽhrungs-ID an LLM-Aufrufe zulassen
Git-Diff​
Dies ist der Diff zwischen v1.56.3-stable und v1.57.8-stable.
Verwenden Sie dies, um die Änderungen im Codebase zu sehen.