Alle Einstellungen
environment_variables: {}
model_list:
- model_name: string
litellm_params: {}
model_info:
id: string
mode: embedding
input_cost_per_token: 0
output_cost_per_token: 0
max_tokens: 2048
base_model: gpt-4-1106-preview
additionalProp1: {}
litellm_settings:
# Logging/Callback settings
success_callback: ["langfuse"] # list of success callbacks
failure_callback: ["sentry"] # list of failure callbacks
callbacks: ["otel"] # list of callbacks - runs on success and failure
service_callbacks: ["datadog", "prometheus"] # logs redis, postgres failures on datadog, prometheus
turn_off_message_logging: boolean # prevent the messages and responses from being logged to on your callbacks, but request metadata will still be logged.
redact_user_api_key_info: boolean # Redact information about the user api key (hashed token, user_id, team id, etc.), from logs. Currently supported for Langfuse, OpenTelemetry, Logfire, ArizeAI logging.
langfuse_default_tags: ["cache_hit", "cache_key", "proxy_base_url", "user_api_key_alias", "user_api_key_user_id", "user_api_key_user_email", "user_api_key_team_alias", "semantic-similarity", "proxy_base_url"] # default tags for Langfuse Logging
# Networking settings
request_timeout: 10 # (int) llm requesttimeout in seconds. Raise Timeout error if call takes longer than 10s. Sets litellm.request_timeout
force_ipv4: boolean # If true, litellm will force ipv4 for all LLM requests. Some users have seen httpx ConnectionError when using ipv6 + Anthropic API
set_verbose: boolean # sets litellm.set_verbose=True to view verbose debug logs. DO NOT LEAVE THIS ON IN PRODUCTION
json_logs: boolean # if true, logs will be in json format
# Fallbacks, reliability
default_fallbacks: ["claude-opus"] # set default_fallbacks, in case a specific model group is misconfigured / bad.
content_policy_fallbacks: [{"gpt-3.5-turbo-small": ["claude-opus"]}] # fallbacks for ContentPolicyErrors
context_window_fallbacks: [{"gpt-3.5-turbo-small": ["gpt-3.5-turbo-large", "claude-opus"]}] # fallbacks for ContextWindowExceededErrors
# Caching settings
cache: true
cache_params: # set cache params for redis
type: redis # type of cache to initialize
# Optional - Redis Settings
host: "localhost" # The host address for the Redis cache. Required if type is "redis".
port: 6379 # The port number for the Redis cache. Required if type is "redis".
password: "your_password" # The password for the Redis cache. Required if type is "redis".
namespace: "litellm.caching.caching" # namespace for redis cache
# Optional - Redis Cluster Settings
redis_startup_nodes: [{"host": "127.0.0.1", "port": "7001"}]
# Optional - Redis Sentinel Settings
service_name: "mymaster"
sentinel_nodes: [["localhost", 26379]]
# Optional - Qdrant Semantic Cache Settings
qdrant_semantic_cache_embedding_model: openai-embedding # the model should be defined on the model_list
qdrant_collection_name: test_collection
qdrant_quantization_config: binary
similarity_threshold: 0.8 # similarity threshold for semantic cache
# Optional - S3 Cache Settings
s3_bucket_name: cache-bucket-litellm # AWS Bucket Name for S3
s3_region_name: us-west-2 # AWS Region Name for S3
s3_aws_access_key_id: os.environ/AWS_ACCESS_KEY_ID # us os.environ/<variable name> to pass environment variables. This is AWS Access Key ID for S3
s3_aws_secret_access_key: os.environ/AWS_SECRET_ACCESS_KEY # AWS Secret Access Key for S3
s3_endpoint_url: https://s3.amazonaws.com # [OPTIONAL] S3 endpoint URL, if you want to use Backblaze/cloudflare s3 bucket
# Common Cache settings
# Optional - Supported call types for caching
supported_call_types: ["acompletion", "atext_completion", "aembedding", "atranscription"]
# /chat/completions, /completions, /embeddings, /audio/transcriptions
mode: default_off # if default_off, you need to opt in to caching on a per call basis
ttl: 600 # ttl for caching
callback_settings:
otel:
message_logging: boolean # OTEL logging callback specific settings
general_settings:
completion_model: string
disable_spend_logs: boolean # turn off writing each transaction to the db
disable_master_key_return: boolean # turn off returning master key on UI (checked on '/user/info' endpoint)
disable_retry_on_max_parallel_request_limit_error: boolean # turn off retries when max parallel request limit is reached
disable_reset_budget: boolean # turn off reset budget scheduled task
disable_adding_master_key_hash_to_db: boolean # turn off storing master key hash in db, for spend tracking
enable_jwt_auth: boolean # allow proxy admin to auth in via jwt tokens with 'litellm_proxy_admin' in claims
enforce_user_param: boolean # requires all openai endpoint requests to have a 'user' param
allowed_routes: ["route1", "route2"] # list of allowed proxy API routes - a user can access. (currently JWT-Auth only)
key_management_system: google_kms # either google_kms or azure_kms
master_key: string
maximum_spend_logs_retention_period: 30d # The maximum time to retain spend logs before deletion.
maximum_spend_logs_retention_interval: 1d # interval in which the spend log cleanup task should run in.
# Database Settings
database_url: string
database_connection_pool_limit: 0 # default 100
database_connection_timeout: 0 # default 60s
allow_requests_on_db_unavailable: boolean # if true, will allow requests that can not connect to the DB to verify Virtual Key to still work
custom_auth: string
max_parallel_requests: 0 # the max parallel requests allowed per deployment
global_max_parallel_requests: 0 # the max parallel requests allowed on the proxy all up
infer_model_from_keys: true
background_health_checks: true
health_check_interval: 300
alerting: ["slack", "email"]
alerting_threshold: 0
use_client_credentials_pass_through_routes: boolean # use client credentials for all pass through routes like "/vertex-ai", /bedrock/. When this is True Virtual Key auth will not be applied on these endpoints
litellm_settings - Referenz
| Name | Typ | Beschreibung |
|---|---|---|
| success_callback | Array von Strings | Liste von Erfolgs-Callbacks. Doc Proxy Logging Callbacks, Doc Metriken |
| failure_callback | Array von Strings | Liste von Fehler-Callbacks Doc Proxy Logging Callbacks, Doc Metriken |
| callbacks | Array von Strings | Liste von Callbacks - wird bei Erfolg und Fehler ausgeführt Doc Proxy Logging Callbacks, Doc Metriken |
| service_callbacks | Array von Strings | System Health Monitoring - Protokolliert Redis-, PostgreSQL-Fehler bei bestimmten Diensten (z. B. Datadog, Prometheus) Doc Metriken |
| turn_off_message_logging | Boolean | Wenn true, werden Nachrichten und Antworten nicht an Callbacks protokolliert, aber die Metadaten der Anfrage werden weiterhin protokolliert Proxy Logging |
| modify_params | Boolean | Wenn true, können die Parameter der Anfrage geändert werden, bevor sie an den LLM-Anbieter gesendet werden |
| enable_preview_features | Boolean | Wenn true, werden Vorschau-Funktionen aktiviert - z. B. Azure O1-Modelle mit Streaming-Unterstützung. |
| redact_user_api_key_info | Boolean | Wenn true, werden Informationen über den API-Schlüssel des Benutzers aus den Protokollen entfernt Proxy Logging |
| langfuse_default_tags | Array von Strings | Standard-Tags für Langfuse-Protokollierung. Verwenden Sie dies, wenn Sie steuern möchten, welche LiteLLM-spezifischen Felder als Tags vom LiteLLM-Proxy protokolliert werden. Standardmäßig protokolliert der LiteLLM-Proxy keine LiteLLM-spezifischen Felder als Tags. Weitere Dokumente |
| set_verbose | Boolean | Wenn true, wird litellm.set_verbose=True gesetzt, um detaillierte Debug-Protokolle anzuzeigen. LASSEN SIE DIES NICHT IN DER PRODUKTION AN! |
| json_logs | Boolean | Wenn true, werden die Protokolle im JSON-Format ausgegeben. Wenn Sie die Protokolle als JSON speichern müssen, setzen Sie einfach litellm.json_logs = True. Wir protokollieren derzeit nur die rohe POST-Anfrage von LiteLLM als JSON Weitere Dokumente |
| default_fallbacks | Array von Strings | Liste der Fallback-Modelle, die verwendet werden sollen, wenn eine bestimmte Modellgruppe falsch konfiguriert ist / schlecht ist. Weitere Dokumente |
| request_timeout | Integer | Das Timeout für Anfragen in Sekunden. Wenn nicht gesetzt, ist der Standardwert 6000 Sekunden. Zur Referenz, das OpenAI Python SDK hat standardmäßig 600 Sekunden. |
| force_ipv4 | Boolean | Wenn true, erzwingt LiteLLM IPv4 für alle LLM-Anfragen. Einige Benutzer haben httpx ConnectionError bei der Verwendung von IPv6 + Anthropic API beobachtet |
| content_policy_fallbacks | Array von Objekten | Fallback-Optionen, die verwendet werden, wenn eine ContentPolicyViolationError auftritt. Weitere Dokumente |
| context_window_fallbacks | Array von Objekten | Fallback-Optionen, die verwendet werden, wenn eine ContextWindowExceededError auftritt. Weitere Dokumente |
| cache | Boolean | Wenn true, wird das Caching aktiviert. Weitere Dokumente |
| cache_params | Objekt | Parameter für den Cache. Weitere Dokumente |
| disable_end_user_cost_tracking | Boolean | Wenn true, wird die Kostenverfolgung für Endbenutzer bei Prometheus-Metriken und LiteLLM-Spend-Log-Tabellen im Proxy deaktiviert. |
| disable_end_user_cost_tracking_prometheus_only | Boolean | Wenn true, wird die Kostenverfolgung für Endbenutzer nur bei Prometheus-Metriken deaktiviert. |
| key_generation_settings | Objekt | Schränkt ein, wer Schlüssel generieren kann. Weitere Dokumente |
| disable_add_transform_inline_image_block | Boolean | Für Fireworks AI-Modelle - wenn true, wird das automatische Hinzufügen von #transform=inline zur URL des image_url deaktiviert, wenn das Modell kein Vision-Modell ist. |
| disable_hf_tokenizer_download | Boolean | Wenn true, wird standardmäßig der OpenAI-Tokenizer für alle Modelle (einschließlich Huggingface-Modelle) verwendet. |
general_settings - Referenz
| Name | Typ | Beschreibung |
|---|---|---|
| completion_model | string | Das Standardmodell für Vervollständigungen, wenn model nicht in der Anfrage angegeben ist |
| disable_spend_logs | Boolean | Wenn true, wird das Schreiben jeder Transaktion in die Datenbank deaktiviert |
| disable_spend_updates | Boolean | Wenn true, werden alle Ausgaben-Updates an die DB deaktiviert. Einschließlich Aktualisierungen der Ausgaben für Schlüssel/Benutzer/Teams. |
| disable_master_key_return | Boolean | Wenn true, wird der Master-Schlüssel in der UI nicht zurückgegeben. (geprüft am Endpunkt '/user/info') |
| disable_retry_on_max_parallel_request_limit_error | Boolean | Wenn true, werden Wiederholungen deaktiviert, wenn das Limit für parallele Anfragen erreicht ist |
| disable_reset_budget | Boolean | Wenn true, wird der geplante Task zum Zurücksetzen des Budgets deaktiviert |
| disable_adding_master_key_hash_to_db | Boolean | Wenn true, wird das Speichern des Master-Schlüssel-Hashs in der DB deaktiviert |
| enable_jwt_auth | Boolean | Ermöglicht Proxy-Admins die Authentifizierung über JWT-Token mit 'litellm_proxy_admin' in den Claims. Doc über JWT-Token |
| enforce_user_param | Boolean | Wenn true, müssen alle Anfragen an den OpenAI-Endpunkt einen 'user'-Parameter haben. Doc über Call Hooks |
| allowed_routes | Array von Strings | Liste der erlaubten Proxy-API-Routen, auf die ein Benutzer zugreifen kann Doc über die Steuerung erlaubter Routen |
| key_management_system | string | Gibt das Schlüsselverwaltungssystem an. Doc Secret Managers |
| master_key | string | Der Master-Schlüssel für den Proxy Virtuelle Schlüssel einrichten |
| database_url | string | Die URL für die Datenbankverbindung Virtuelle Schlüssel einrichten |
| database_connection_pool_limit | Integer | Das Limit für den Datenbankverbindungspool DB-Pool-Limit einrichten |
| database_connection_timeout | Integer | Das Timeout für Datenbankverbindungen in Sekunden DB-Pool-Limit, Timeout einrichten |
| allow_requests_on_db_unavailable | Boolean | Wenn true, werden Anfragen auch dann erfolgreich bearbeitet, wenn die DB nicht erreichbar ist. Verwenden Sie dies nur, wenn Sie LiteLLM in Ihrem VPC ausführen Dies ermöglicht Anfragen, auch wenn LiteLLM keine Verbindung zur DB herstellen kann, um einen virtuellen Schlüssel zu überprüfen Doc zur Handhabung von DB-Nichtverfügbarkeit |
| custom_auth | string | Schreiben Sie Ihre eigene benutzerdefinierte Authentifizierungslogik Doc Benutzerdefinierte Authentifizierung |
| max_parallel_requests | Integer | Die maximale Anzahl paralleler Anfragen pro Bereitstellung |
| global_max_parallel_requests | Integer | Die maximale Anzahl paralleler Anfragen im gesamten Proxy |
| infer_model_from_keys | Boolean | Wenn true, wird das Modell aus den bereitgestellten Schlüsseln abgeleitet |
| background_health_checks | Boolean | Wenn true, werden Hintergrund-Gesundheitsprüfungen aktiviert. Doc zu Gesundheitsprüfungen |
| health_check_interval | Integer | Das Intervall für Gesundheitsprüfungen in Sekunden Doc zu Gesundheitsprüfungen |
| Alarmierung | Array von Strings | Liste der Benachrichtigungsmethoden Doc zu Slack-Benachrichtigungen |
| alerting_threshold | Integer | Der Schwellenwert für die Auslösung von Benachrichtigungen Doc zu Slack-Benachrichtigungen |
| use_client_credentials_pass_through_routes | Boolean | Wenn true, werden Client-Anmeldeinformationen für alle Pass-Through-Routen verwendet. Doc zu Pass-Through-Routen |
| health_check_details | Boolean | Wenn false, werden Details der Gesundheitsprüfung ausgeblendet (z. B. verbleibendes Ratenlimit). Doc zu Gesundheitsprüfungen |
| public_routes | Liste[str] | (Enterprise-Funktion) Liste der öffentlichen Routen steuern |
| alert_types | Liste[str] | Steuert die Liste der Benachrichtigungstypen, die an Slack gesendet werden sollen (Doc zu Benachrichtigungstypen)[./alerting.md] |
| enforced_params | Liste[str] | (Enterprise-Funktion) Liste der Parameter, die in allen Anfragen an den Proxy enthalten sein müssen |
| enable_oauth2_auth | Boolean | (Enterprise-Funktion) Wenn true, wird die OAuth2.0-Authentifizierung aktiviert |
| use_x_forwarded_for | str | Wenn true, wird der X-Forwarded-For-Header verwendet, um die IP-Adresse des Clients zu ermitteln |
| service_account_settings | Liste[Dict[str, Any]] | Setzen Sie service_account_settings, wenn Sie Einstellungen erstellen möchten, die nur für Service-Account-Schlüssel gelten (Doc zu Service-Accounts)[./service_accounts.md] |
| image_generation_model | str | Das Standardmodell für die Bilderzeugung - ignoriert das in der Anfrage angegebene Modell |
| store_model_in_db | Boolean | Wenn true, wird das Speichern von Modell- und Anmeldeinformationsinformationen in der DB aktiviert. |
| store_prompts_in_spend_logs | Boolean | Wenn true, können Prompts und Antworten in der Spend-Logs-Tabelle gespeichert werden. |
| max_request_size_mb | int | Die maximale Größe für Anfragen in MB. Anfragen, die größer als diese Größe sind, werden abgelehnt. |
| max_response_size_mb | int | Die maximale Größe für Antworten in MB. LLM-Antworten, die größer als diese Größe sind, werden nicht gesendet. |
| proxy_budget_rescheduler_min_time | int | Die minimale Wartezeit (in Sekunden), bevor die DB auf Budgetrücksetzungen überprüft wird. Standard ist 597 Sekunden |
| proxy_budget_rescheduler_max_time | int | Die maximale Wartezeit (in Sekunden), bevor die DB auf Budgetrücksetzungen überprüft wird. Standard ist 605 Sekunden |
| proxy_batch_write_at | int | Zeit (in Sekunden) bis zum Batch-Schreiben von Spend-Logs in die DB. Standard ist 10 Sekunden |
| alerting_args | Dict | Args für Slack-Benachrichtigungen Doc zu Slack-Benachrichtigungen |
| custom_key_generate | str | Benutzerdefinierte Funktion für die Schlüsselerzeugung Doc zur benutzerdefinierten Schlüsselerzeugung |
| allowed_ips | Liste[str] | Liste der IPs, denen der Zugriff auf den Proxy gestattet ist. Wenn nicht gesetzt, sind alle IPs erlaubt. |
| embedding_model | str | Das Standardmodell für Embeddings - ignoriert das in der Anfrage angegebene Modell |
| default_team_disabled | Boolean | Wenn true, können Benutzer keine 'persönlichen' Schlüssel erstellen (Schlüssel ohne team_id). |
| alert_to_webhook_url | Dict[str] | Geben Sie eine Webhook-URL für jeden Benachrichtigungstyp an. |
| key_management_settings | Liste[Dict[str, Any]] | Einstellungen für das Schlüsselverwaltungssystem (z. B. AWS KMS, Azure Key Vault) Doc zu Schlüsselverwaltung |
| allow_user_auth | Boolean | (Veraltet) alter Ansatz für die Benutzerauthentifizierung. |
| user_api_key_cache_ttl | int | Die Dauer (in Sekunden), für die Benutzer-API-Schlüssel im Speicher zwischengespeichert werden. |
| disable_prisma_schema_update | Boolean | Wenn true, werden automatische Schema-Updates für die DB deaktiviert |
| litellm_key_header_name | str | Wenn gesetzt, können LiteLLM-Schlüssel über einen benutzerdefinierten Header übergeben werden. Doc zu benutzerdefinierten Headern |
| moderation_model | str | Das Standardmodell für die Moderation. |
| custom_sso | str | Pfad zu einer Python-Datei, die benutzerdefinierte SSO-Logik implementiert. Doc zu benutzerdefiniertem SSO |
| allow_client_side_credentials | Boolean | Wenn true, können clientseitige Anmeldeinformationen an den Proxy übergeben werden. (Nützlich beim Testen von Finetuning-Modellen) Doc zu clientseitigen Anmeldeinformationen |
| admin_only_routes | Liste[str] | (Enterprise-Funktion) Liste der Routen, die nur für Administratoren zugänglich sind. Doc zu Admin-Only-Routen |
| use_azure_key_vault | Boolean | Wenn true, werden Schlüssel aus dem Azure Key Vault geladen |
| use_google_kms | Boolean | Wenn true, werden Schlüssel aus Google KMS geladen |
| spend_report_frequency | str | Geben Sie an, wie oft Sie einen Spendenbericht erhalten möchten (z. B. "1d", "2d", "30d") Mehr dazu |
| ui_access_mode | Literal["admin_only"] | Wenn gesetzt, wird der Zugriff auf die UI auf Administratoren beschränkt. Docs |
| litellm_jwtauth | Dict[str, Any] | Einstellungen für die JWT-Authentifizierung. Docs |
| litellm_license | str | Der Lizenzschlüssel für den Proxy. Docs |
| oauth2_config_mappings | Dict[str, str] | Definieren Sie die OAuth2-Konfigurationszuordnungen |
| pass_through_endpoints | Liste[Dict[str, Any]] | Definieren Sie die Pass-Through-Endpunkte. Docs |
| enable_oauth2_proxy_auth | Boolean | (Enterprise-Funktion) Wenn true, wird die OAuth2.0-Authentifizierung aktiviert |
| forward_openai_org_id | Boolean | Wenn true, wird die OpenAI-Organisations-ID an den Backend-LLM-Aufruf weitergeleitet (wenn es sich um OpenAI handelt). |
| forward_client_headers_to_llm_api | Boolean | Wenn true, werden die Client-Header (alle x--Header) an den Backend-LLM-Aufruf weitergeleitet |
| maximum_spend_logs_retention_period | str | Wird verwendet, um die maximale Aufbewahrungszeit für Spend-Logs in der DB festzulegen, danach werden sie automatisch gelöscht |
| maximum_spend_logs_retention_interval | str | Wird verwendet, um das Intervall festzulegen, in dem der Bereinigungsauftrag für Spend-Logs ausgeführt werden soll. |
router_settings - Referenz
Info
Die meisten Werte können auch über litellm_settings gesetzt werden. Wenn sich überschneidende Werte ergeben, überschreiben die Einstellungen unter router_settings die unter litellm_settings.
router_settings:
routing_strategy: usage-based-routing-v2 # Literal["simple-shuffle", "least-busy", "usage-based-routing","latency-based-routing"], default="simple-shuffle"
redis_host: <your-redis-host> # string
redis_password: <your-redis-password> # string
redis_port: <your-redis-port> # string
enable_pre_call_checks: true # bool - Before call is made check if a call is within model context window
allowed_fails: 3 # cooldown model if it fails > 1 call in a minute.
cooldown_time: 30 # (in seconds) how long to cooldown model if fails/min > allowed_fails
disable_cooldowns: True # bool - Disable cooldowns for all models
enable_tag_filtering: True # bool - Use tag based routing for requests
retry_policy: { # Dict[str, int]: retry policy for different types of exceptions
"AuthenticationErrorRetries": 3,
"TimeoutErrorRetries": 3,
"RateLimitErrorRetries": 3,
"ContentPolicyViolationErrorRetries": 4,
"InternalServerErrorRetries": 4
}
allowed_fails_policy: {
"BadRequestErrorAllowedFails": 1000, # Allow 1000 BadRequestErrors before cooling down a deployment
"AuthenticationErrorAllowedFails": 10, # int
"TimeoutErrorAllowedFails": 12, # int
"RateLimitErrorAllowedFails": 10000, # int
"ContentPolicyViolationErrorAllowedFails": 15, # int
"InternalServerErrorAllowedFails": 20, # int
}
content_policy_fallbacks=[{"claude-2": ["my-fallback-model"]}] # List[Dict[str, List[str]]]: Fallback model for content policy violations
fallbacks=[{"claude-2": ["my-fallback-model"]}] # List[Dict[str, List[str]]]: Fallback model for all errors
| Name | Typ | Beschreibung |
|---|---|---|
| routing_strategy | string | Die Strategie, die für das Routing von Anfragen verwendet wird. Optionen: "simple-shuffle", "least-busy", "usage-based-routing", "latency-based-routing". Standard ist "simple-shuffle". Weitere Informationen hier |
| redis_host | string | Die Host-Adresse für den Redis-Server. Nur setzen, wenn Sie mehrere Instanzen von LiteLLM Proxy haben und die aktuelle TPM/RPM-Verfolgung über diese hinweg teilen möchten |
| redis_password | string | Das Passwort für den Redis-Server. Nur setzen, wenn Sie mehrere Instanzen von LiteLLM Proxy haben und die aktuelle TPM/RPM-Verfolgung über diese hinweg teilen möchten |
| redis_port | string | Die Portnummer für den Redis-Server. Nur setzen, wenn Sie mehrere Instanzen von LiteLLM Proxy haben und die aktuelle TPM/RPM-Verfolgung über diese hinweg teilen möchten |
| enable_pre_call_check | Boolean | Wenn true, wird geprüft, ob ein Aufruf innerhalb des Kontextfensters des Modells liegt, bevor der Aufruf getätigt wird. Weitere Informationen hier |
| content_policy_fallbacks | Array von Objekten | Legt Fallback-Modelle für Content-Policy-Verletzungen fest. Weitere Informationen hier |
| Fallbacks | Array von Objekten | Legt Fallback-Modelle für alle Arten von Fehlern fest. Weitere Informationen hier |
| enable_tag_filtering | Boolean | Wenn true, wird Tag-basiertes Routing für Anfragen verwendet Tag-basiertes Routing |
| cooldown_time | Integer | Die Dauer (in Sekunden), um ein Modell herunterzufahren, wenn es die erlaubten Fehler überschreitet. |
| disable_cooldowns | Boolean | Wenn true, werden die Cooldowns für alle Modelle deaktiviert. Weitere Informationen hier |
| retry_policy | Objekt | Legt die Anzahl der Wiederholungen für verschiedene Fehlerarten fest. Weitere Informationen hier |
| allowed_fails | Integer | Die Anzahl der erlaubten Fehler, bevor ein Modell heruntergefahren wird. Weitere Informationen hier |
| allowed_fails_policy | Objekt | Legt die Anzahl der erlaubten Fehler für verschiedene Fehlertypen fest, bevor eine Bereitstellung heruntergefahren wird. Weitere Informationen hier |
| default_max_parallel_requests | Optional[int] | Die Standardanzahl paralleler Anfragen für eine Bereitstellung. |
| default_priority | (Optional[int]) | Die Standardpriorität für eine Anfrage. Nur für '.scheduler_acompletion()'. Standard ist None. |
| polling_interval | (Optional[float]) | Häufigkeit der Abfrage der Warteschlange. Nur für '.scheduler_acompletion()'. Standard ist 3ms. |
| max_fallbacks | Optional[int] | Die maximale Anzahl von Fallbacks, die versucht werden, bevor der Aufruf beendet wird. Standardmäßig 5. |
| default_litellm_params | Optional[dict] | Die Standard-LiteLLM-Parameter, die zu allen Anfragen hinzugefügt werden (z. B. temperature, max_tokens). |
| timeout | Optional[float] | Die Standard-Timeoutzeit für eine Anfrage. Standard ist 10 Minuten. |
| stream_timeout | Optional[float] | Die Standard-Timeoutzeit für eine Streaming-Anfrage. Wenn nicht gesetzt, wird der Wert von 'timeout' verwendet. |
| debug_level | Literal["DEBUG", "INFO"] | Die Debug-Stufe für die Protokollierungsbibliothek im Router. Standard ist "INFO". |
| client_ttl | int | Time-to-live für zwischengespeicherte Clients in Sekunden. Standard sind 3600. |
| cache_kwargs | Dict | Zusätzliche Keyword-Argumente für die Cache-Initialisierung. |
| routing_strategy_args | Dict | Zusätzliche Keyword-Argumente für die Routing-Strategie - z. B. Standard-TTL für das Routing mit der niedrigsten Latenz |
| model_group_alias | Dict | Modellgruppen-Alias-Zuordnung. Z. B. {"claude-3-haiku": "claude-3-haiku-20240229"} |
| num_retries | int | Anzahl der Wiederholungen für eine Anfrage. Standard ist 3. |
| default_fallbacks | Optional[Liste[str]] | Fallback-Optionen, die versucht werden sollen, wenn keine modellgruppenspezifischen Fallbacks definiert sind. |
| caching_groups | Optional[Liste[tuple]] | Liste von Modellgruppen für das Caching über Modellgruppen hinweg. Standard ist None. - z. B. caching_groups=[("openai-gpt-3.5-turbo", "azure-gpt-3.5-turbo")] |
| alerting_config | AlertingConfig | [Nur SDK-Argument]Slack-Benachrichtigungskonfiguration. Standard ist None. Weitere Dokumente |
| assistants_config | AssistantsConfig | Auf dem Proxy über assistant_settings gesetzt. Weitere Dokumente |
| set_verbose | Boolean | VERALTETES ARGUMENT - siehe Debug-Dokumente Wenn true, wird die Protokollierungsstufe auf "verbose" gesetzt. |
| retry_after | int | Zeit in Sekunden, bevor eine Anfrage wiederholt wird. Standard ist 0. Wenn x-retry-after von der LLM-API empfangen wird, wird dieser Wert überschrieben. |
| provider_budget_config | ProviderBudgetConfig | Provider-Budgetkonfiguration. Verwenden Sie dies, um LLM-Provider-Budgetlimits festzulegen. Beispiel: 100 $/Tag für OpenAI, 100 $/Tag für Azure usw. Standard ist None. Weitere Dokumente |
| enable_pre_call_checks | Boolean | Wenn true, wird geprüft, ob ein Aufruf innerhalb des Kontextfensters des Modells liegt, bevor der Aufruf getätigt wird. Weitere Informationen hier |
| model_group_retry_policy | Dict[str, RetryPolicy] | [Nur SDK-Argument]Setzt die Wiederholungsrichtlinie für Modellgruppen. |
| context_window_fallbacks | Liste[Dict[str, Liste[str]]] | Fallback-Modelle für Verstöße gegen das Kontextfenster. |
| redis_url | str | URL für den Redis-Server. Bekanntes Performance-Problem mit Redis URL. |
| cache_responses | Boolean | Flag zum Aktivieren des Cache von LLM-Antworten, wenn der Cache unter router_settings konfiguriert ist. Wenn true, werden Antworten zwischengespeichert. Standard ist False. |
| router_general_settings | RouterGeneralSettings | [Nur SDK]Allgemeine Router-Einstellungen - enthält Optimierungen wie 'async_only_mode'. Docs |
| optional_pre_call_checks | Liste[str] | Liste der Pre-Call-Checks, die dem Router hinzugefügt werden sollen. Aktuell unterstützt: 'router_budget_limiting', 'prompt_caching' |
Umgebungsvariablen - Referenz
| Name | Beschreibung |
|---|---|
| ACTIONS_ID_TOKEN_REQUEST_TOKEN | Token für die Anforderung einer ID in GitHub Actions |
| ACTIONS_ID_TOKEN_REQUEST_URL | URL für die Anforderung eines ID-Tokens in GitHub Actions |
| AGENTOPS_ENVIRONMENT | Umgebung für AgentOps-Protokollierungsintegration |
| AGENTOPS_API_KEY | API-Schlüssel für AgentOps-Protokollierungsintegration |
| AGENTOPS_SERVICE_NAME | Service-Name für AgentOps-Protokollierungsintegration |
| AISPEND_ACCOUNT_ID | Konto-ID für AI Spend |
| AISPEND_API_KEY | API-Schlüssel für AI Spend |
| ALLOWED_EMAIL_DOMAINS | Liste der erlaubten E-Mail-Domänen für den Zugriff |
| ARIZE_API_KEY | API-Schlüssel für Arize-Plattform-Integration |
| ARIZE_SPACE_KEY | Space-Schlüssel für Arize-Plattform |
| ARGILLA_BATCH_SIZE | Batch-Größe für Argilla-Protokollierung |
| ARGILLA_API_KEY | API-Schlüssel für Argilla-Plattform |
| ARGILLA_SAMPLING_RATE | Stichprobenrate für Argilla-Protokollierung |
| ARGILLA_DATASET_NAME | Datensatzname für Argilla-Protokollierung |
| ARGILLA_BASE_URL | Basis-URL für Argilla-Dienst |
| ATHINA_API_KEY | API-Schlüssel für Athina-Dienst |
| ATHINA_BASE_URL | Basis-URL für Athina-Dienst (Standard ist https://log.athina.ai) |
| AUTH_STRATEGY | Strategie für die Authentifizierung (z. B. OAuth, API-Schlüssel) |
| AWS_ACCESS_KEY_ID | Zugriffsschlüssel-ID für AWS-Dienste |
| AWS_PROFILE_NAME | AWS CLI-Profilname, der verwendet werden soll |
| AWS_REGION_NAME | Standard-AWS-Region für Service-Interaktionen |
| AWS_ROLE_NAME | Rollenname für die Verwendung von AWS IAM |
| AWS_SECRET_ACCESS_KEY | Geheimer Zugriffsschlüssel für AWS-Dienste |
| AWS_SESSION_NAME | Name für die AWS-Sitzung |
| AWS_WEB_IDENTITY_TOKEN | Web-Identitäts-Token für AWS |
| AZURE_API_VERSION | Version der verwendeten Azure-API |
| AZURE_AUTHORITY_HOST | Azure Authority Host-URL |
| AZURE_CLIENT_ID | Client-ID für Azure-Dienste |
| AZURE_CLIENT_SECRET | Client-Geheimnis für Azure-Dienste |
| AZURE_TENANT_ID | Tenant-ID für Azure Active Directory |
| AZURE_USERNAME | Benutzername für Azure-Dienste, in Verbindung mit AZURE_PASSWORD für Azure AD-Token mit grundlegendem Benutzername/Passwort-Workflow |
| AZURE_PASSWORD | Passwort für Azure-Dienste, in Verbindung mit AZURE_USERNAME für Azure AD-Token mit grundlegendem Benutzername/Passwort-Workflow |
| AZURE_FEDERATED_TOKEN_FILE | Dateipfad zum Azure- föderierten Token |
| AZURE_KEY_VAULT_URI | URI für Azure Key Vault |
| AZURE_OPERATION_POLLING_TIMEOUT | Timeout in Sekunden für das Abfragen von Azure-Operationen |
| AZURE_STORAGE_ACCOUNT_KEY | Der Azure Storage Account Key zur Authentifizierung bei der Protokollierung von Azure Blob Storage |
| AZURE_STORAGE_ACCOUNT_NAME | Name des Azure Storage Accounts zur Protokollierung in Azure Blob Storage |
| AZURE_STORAGE_FILE_SYSTEM | Name des Azure Storage File Systems zur Protokollierung in Azure Blob Storage. (Normalerweise der Containername) |
| AZURE_STORAGE_TENANT_ID | Die Anwendungs-Tenant-ID zur Authentifizierung bei der Protokollierung von Azure Blob Storage |
| AZURE_STORAGE_CLIENT_ID | Die Anwendungs-Client-ID zur Authentifizierung bei der Protokollierung von Azure Blob Storage |
| AZURE_STORAGE_CLIENT_SECRET | Das Anwendungs-Client-Geheimnis zur Authentifizierung bei der Protokollierung von Azure Blob Storage |
| BATCH_STATUS_POLL_INTERVAL_SECONDS | Intervall in Sekunden für das Abfragen des Batch-Status. Standard ist 3600 (1 Stunde) |
| BATCH_STATUS_POLL_MAX_ATTEMPTS | Maximale Anzahl von Versuchen für das Abfragen des Batch-Status. Standard ist 24 (für 24 Stunden) |
| BEDROCK_MAX_POLICY_SIZE | Maximale Größe für Bedrock-Richtlinien. Standard ist 75 |
| BERRISPEND_ACCOUNT_ID | Konto-ID für BerriSpend-Dienst |
| BRAINTRUST_API_KEY | API-Schlüssel für Braintrust-Integration |
| CACHED_STREAMING_CHUNK_DELAY | Verzögerung in Sekunden für zwischengespeicherte Streaming-Chunks. Standard ist 0.02 |
| CIRCLE_OIDC_TOKEN | OpenID Connect-Token für CircleCI |
| CIRCLE_OIDC_TOKEN_V2 | Version 2 des OpenID Connect-Tokens für CircleCI |
| CONFIG_FILE_PATH | Dateipfad für die Konfigurationsdatei |
| CUSTOM_TIKTOKEN_CACHE_DIR | Benutzerdefiniertes Verzeichnis für den Tiktoken-Cache |
| DATABASE_HOST | Hostname für den Datenbankserver |
| DATABASE_NAME | Name der Datenbank |
| DATABASE_PASSWORD | Passwort für den Datenbankbenutzer |
| DATABASE_PORT | Portnummer für die Datenbankverbindung |
| DATABASE_SCHEMA | Schemaname, der in der Datenbank verwendet wird |
| DATABASE_URL | Verbindungs-URL für die Datenbank |
| DATABASE_USER | Benutzername für die Datenbankverbindung |
| DATABASE_USERNAME | Alias für den Datenbankbenutzer |
| DATABRICKS_API_BASE | Basis-URL für die Databricks API |
| DAYS_IN_A_MONTH | Tage in einem Monat für Berechnungszwecke. Standard ist 28 |
| DAYS_IN_A_WEEK | Tage in einer Woche für Berechnungszwecke. Standard ist 7 |
| DAYS_IN_A_YEAR | Tage in einem Jahr für Berechnungszwecke. Standard ist 365 |
| DD_BASE_URL | Basis-URL für Datadog-Integration |
| DATADOG_BASE_URL | (Alternative zu DD_BASE_URL) Basis-URL für Datadog-Integration |
| _DATADOG_BASE_URL | (Alternative zu DD_BASE_URL) Basis-URL für Datadog-Integration |
| DD_API_KEY | API-Schlüssel für Datadog-Integration |
| DD_SITE | Website-URL für Datadog (z. B. datadoghq.com) |
| DD_SOURCE | Quellenbezeichner für Datadog-Protokolle |
| DD_ENV | Umgebungsbezeichner für Datadog-Protokolle. Nur unterstützt für den datadog_llm_observability-Callback |
| DD_SERVICE | Service-Bezeichner für Datadog-Protokolle. Standard ist "litellm-server" |
| DD_VERSION | Versionsbezeichner für Datadog-Protokolle. Standard ist "unknown" |
| DEBUG_OTEL | Debug-Modus für OpenTelemetry aktivieren |
| DEFAULT_ALLOWED_FAILS | Maximale Fehleranzahl, bevor ein Modell heruntergefahren wird. Standard ist 3 |
| DEFAULT_ANTHROPIC_CHAT_MAX_TOKENS | Standard-Maximalanzahl von Tokens für Anthropic-Chat-Vervollständigungen. Standard ist 4096 |
| DEFAULT_BATCH_SIZE | Standard-Batch-Größe für Operationen. Standard ist 512 |
| DEFAULT_COOLDOWN_TIME_SECONDS | Dauer in Sekunden, um ein Modell nach Fehlern herunterzufahren. Standard ist 5 |
| DEFAULT_CRON_JOB_LOCK_TTL_SECONDS | Time-to-live für Cron-Job-Sperren in Sekunden. Standard ist 60 (1 Minute) |
| DEFAULT_FAILURE_THRESHOLD_PERCENT | Schwellenwert-Prozentsatz von Fehlern, um eine Bereitstellung herunterzufahren. Standard ist 0.5 (50%) |
| DEFAULT_FLUSH_INTERVAL_SECONDS | Standard-Intervall in Sekunden für das Leeren von Operationen. Standard ist 5 |
| DEFAULT_HEALTH_CHECK_INTERVAL | Standard-Intervall in Sekunden für Gesundheitsprüfungen. Standard ist 300 (5 Minuten) |
| DEFAULT_IMAGE_HEIGHT | Standardhöhe für Bilder. Standard ist 300 |
| DEFAULT_IMAGE_TOKEN_COUNT | Standard-Tokenanzahl für Bilder. Standard ist 250 |
| DEFAULT_IMAGE_WIDTH | Standardbreite für Bilder. Standard ist 300 |
| DEFAULT_IN_MEMORY_TTL | Standard-Time-to-live für den In-Memory-Cache in Sekunden. Standard ist 5 |
| DEFAULT_MAX_LRU_CACHE_SIZE | Maximale Größe für den LRU-Cache. Standard ist 16 |
| DEFAULT_MAX_RECURSE_DEPTH | Maximale Rekursionstiefe. Standard ist 100 |
| DEFAULT_MAX_RECURSE_DEPTH_SENSITIVE_DATA_MASKER | Maximale Rekursionstiefe für den Maskierer sensibler Daten. Standard ist 10 |
| DEFAULT_MAX_RETRIES | Maximale Wiederholungsversuche. Standard ist 2 |
| DEFAULT_MAX_TOKENS | Maximale Tokens für LLM-Aufrufe. Standard ist 4096 |
| DEFAULT_MAX_TOKENS_FOR_TRITON | Maximale Tokens für Triton-Modelle. Standard ist 2000 |
| DEFAULT_MOCK_RESPONSE_COMPLETION_TOKEN_COUNT | Tokenanzahl für Mock-Antwort-Vervollständigungen. Standard ist 20 |
| DEFAULT_MOCK_RESPONSE_PROMPT_TOKEN_COUNT | Tokenanzahl für Mock-Antwort-Prompts. Standard ist 10 |
| DEFAULT_MODEL_CREATED_AT_TIME | Standard-Erstellungszeitstempel für Modelle. Standard ist 1677610602 |
| DEFAULT_PROMPT_INJECTION_SIMILARITY_THRESHOLD | Standard-Schwellenwert für Prompt-Injection-Ähnlichkeit. Standard ist 0.7 |
| DEFAULT_POLLING_INTERVAL | Standard-Abfrageintervall für Scheduler in Sekunden. Standard ist 0.03 |
| DEFAULT_REASONING_EFFORT_HIGH_THINKING_BUDGET | Standard-Denkbudget für hohe Argumentationsanstrengung. Standard ist 4096 |
| DEFAULT_REASONING_EFFORT_LOW_THINKING_BUDGET | Standard-Denkbudget für geringe Argumentationsanstrengung. Standard ist 1024 |
| DEFAULT_REASONING_EFFORT_MEDIUM_THINKING_BUDGET | Standard-Denkbudget für mittlere Argumentationsanstrengung. Standard ist 2048 |
| DEFAULT_REDIS_SYNC_INTERVAL | Standard-Redis-Synchronisierungsintervall in Sekunden. Standard ist 1 |
| DEFAULT_REPLICATE_GPU_PRICE_PER_SECOND | Standardpreis pro Sekunde für Replicate GPU. Standard ist 0.001400 |
| DEFAULT_REPLICATE_POLLING_DELAY_SECONDS | Standardverzögerung in Sekunden für Replicate-Polling. Standard ist 1 |
| DEFAULT_REPLICATE_POLLING_RETRIES | Standardanzahl von Wiederholungen für Replicate-Polling. Standard ist 5 |
| DEFAULT_SLACK_ALERTING_THRESHOLD | Standard-Schwellenwert für Slack-Benachrichtigungen. Standard ist 300 |
| DEFAULT_SOFT_BUDGET | Standard-Soft-Budget für LiteLLM Proxy-Schlüssel. Standard ist 50.0 |
| DEFAULT_TRIM_RATIO | Standardverhältnis von Tokens, die vom Ende des Prompts abgeschnitten werden. Standard ist 0.75 |
| DIRECT_URL | Direkte URL für den Service-Endpunkt |
| DISABLE_ADMIN_UI | Schalter zum Deaktivieren der Admin-UI |
| DISABLE_SCHEMA_UPDATE | Schalter zum Deaktivieren von Schema-Updates |
| DOCS_DESCRIPTION | Beschreibungstext für Dokumentationsseiten |
| DOCS_FILTERED | Flag, das gefilterte Dokumentation anzeigt |
| DOCS_TITLE | Titel der Dokumentationsseiten |
| DOCS_URL | Der Pfad zur Swagger-API-Dokumentation. Standardmäßig ist dies "/" |
| EMAIL_LOGO_URL | URL für das Logo, das in E-Mails verwendet wird |
| EMAIL_SUPPORT_CONTACT | Support-Kontakt-E-Mail-Adresse |
| EXPERIMENTAL_MULTI_INSTANCE_RATE_LIMITING | Flag zum Aktivieren der neuen Multi-Instanz-Ratenbegrenzung. Standard ist False |
| FIREWORKS_AI_4_B | Größenparameter für das Fireworks AI 4B-Modell. Standard ist 4 |
| FIREWORKS_AI_16_B | Größenparameter für das Fireworks AI 16B-Modell. Standard ist 16 |
| FIREWORKS_AI_56_B_MOE | Größenparameter für das Fireworks AI 56B MOE-Modell. Standard ist 56 |
| FIREWORKS_AI_80_B | Größenparameter für das Fireworks AI 80B-Modell. Standard ist 80 |
| FIREWORKS_AI_176_B_MOE | Größenparameter für das Fireworks AI 176B MOE-Modell. Standard ist 176 |
| FUNCTION_DEFINITION_TOKEN_COUNT | Tokenanzahl für Funktionsdefinitionen. Standard ist 9 |
| GALILEO_BASE_URL | Basis-URL für die Galileo-Plattform |
| GALILEO_PASSWORD | Passwort für die Galileo-Authentifizierung |
| GALILEO_PROJECT_ID | Projekt-ID für die Galileo-Nutzung |
| GALILEO_USERNAME | Benutzername für die Galileo-Authentifizierung |
| GCS_BUCKET_NAME | Name des Google Cloud Storage-Buckets |
| GCS_PATH_SERVICE_ACCOUNT | Pfad zur JSON-Datei des Google Cloud Service-Accounts |
| GCS_FLUSH_INTERVAL | Flush-Intervall für GCS-Protokollierung (in Sekunden). Geben Sie an, wie oft ein Protokoll an GCS gesendet werden soll. Standard ist 20 Sekunden |
| GCS_BATCH_SIZE | Batch-Größe für GCS-Protokollierung. Geben Sie an, nach wie vielen Protokollen geleert werden soll. Wenn BATCH_SIZE auf 10 gesetzt ist, werden Protokolle alle 10 Protokolle geleert. Standard ist 2048 |
| GCS_PUBSUB_TOPIC_ID | PubSub-Topic-ID, an die LiteLLM SpendLogs gesendet werden sollen. |
| GCS_PUBSUB_PROJECT_ID | PubSub-Projekt-ID, an die LiteLLM SpendLogs gesendet werden sollen. |
| GENERIC_AUTHORIZATION_ENDPOINT | Autorisierungs-Endpunkt für generische OAuth-Anbieter |
| GENERIC_CLIENT_ID | Client-ID für generische OAuth-Anbieter |
| GENERIC_CLIENT_SECRET | Client-Geheimnis für generische OAuth-Anbieter |
| GENERIC_CLIENT_STATE | State-Parameter für die generische Client-Authentifizierung |
| GENERIC_INCLUDE_CLIENT_ID | Client-ID in Anfragen für OAuth einschließen |
| GENERIC_SCOPE | Scope-Einstellungen für generische OAuth-Anbieter |
| GENERIC_TOKEN_ENDPOINT | Token-Endpunkt für generische OAuth-Anbieter |
| GENERIC_USER_DISPLAY_NAME_ATTRIBUTE | Attribut für den Anzeigenamen des Benutzers in der generischen Authentifizierung |
| GENERIC_USER_EMAIL_ATTRIBUTE | Attribut für die E-Mail-Adresse des Benutzers in der generischen Authentifizierung |
| GENERIC_USER_FIRST_NAME_ATTRIBUTE | Attribut für den Vornamen des Benutzers in der generischen Authentifizierung |
| GENERIC_USER_ID_ATTRIBUTE | Attribut für die Benutzer-ID in der generischen Authentifizierung |
| GENERIC_USER_LAST_NAME_ATTRIBUTE | Attribut für den Nachnamen des Benutzers in der generischen Authentifizierung |
| GENERIC_USER_PROVIDER_ATTRIBUTE | Attribut, das den Anbieter des Benutzers angibt |
| GENERIC_USER_ROLE_ATTRIBUTE | Attribut, das die Rolle des Benutzers angibt |
| GENERIC_USERINFO_ENDPOINT | Endpunkt zum Abrufen von Benutzerinformationen in generischem OAuth |
| GALILEO_BASE_URL | Basis-URL für die Galileo-Plattform |
| GALILEO_PASSWORD | Passwort für die Galileo-Authentifizierung |
| GALILEO_PROJECT_ID | Projekt-ID für die Galileo-Nutzung |
| GALILEO_USERNAME | Benutzername für die Galileo-Authentifizierung |
| GREENSCALE_API_KEY | API-Schlüssel für Greenscale-Dienst |
| GREENSCALE_ENDPOINT | Endpunkt-URL für Greenscale-Dienst |
| GOOGLE_APPLICATION_CREDENTIALS | Pfad zur JSON-Datei mit Google Cloud-Anmeldeinformationen |
| GOOGLE_CLIENT_ID | Client-ID für Google OAuth |
| GOOGLE_CLIENT_SECRET | Client-Geheimnis für Google OAuth |
| GOOGLE_KMS_RESOURCE_NAME | Name der Ressource in Google KMS |
| HEALTH_CHECK_TIMEOUT_SECONDS | Timeout in Sekunden für Gesundheitsprüfungen. Standard ist 60 |
| HF_API_BASE | Basis-URL für Hugging Face API |
| HCP_VAULT_ADDR | Adresse für Hashicorp Vault Secret Manager |
| HCP_VAULT_CLIENT_CERT | Pfad zum Client-Zertifikat für Hashicorp Vault Secret Manager |
| HCP_VAULT_CLIENT_KEY | Pfad zum Client-Schlüssel für Hashicorp Vault Secret Manager |
| HCP_VAULT_NAMESPACE | Namespace für Hashicorp Vault Secret Manager |
| HCP_VAULT_TOKEN | Token für Hashicorp Vault Secret Manager |
| HCP_VAULT_CERT_ROLE | Rolle für Hashicorp Vault Secret Manager Auth |
| HELICONE_API_KEY | API-Schlüssel für den Helicone-Dienst |
| HOSTNAME | Hostname für den Server, dieser wird in die datadog-Logs gesendet |
| HOURS_IN_A_DAY | Stunden pro Tag für Berechnungszwecke. Standard ist 24 |
| HUGGINGFACE_API_BASE | Basis-URL für Hugging Face API |
| HUGGINGFACE_API_KEY | API-Schlüssel für die Hugging Face API |
| HUMANLOOP_PROMPT_CACHE_TTL_SECONDS | Time-to-live in Sekunden für gecachte Prompts in Humanloop. Standard ist 60 |
| IAM_TOKEN_DB_AUTH | IAM-Token für die Datenbankauthentifizierung |
| INITIAL_RETRY_DELAY | Anfängliche Verzögerung in Sekunden für Wiederholungsversuche von Anfragen. Standard ist 0.5 |
| JITTER | Jitter-Faktor für die Berechnung der Wiederholungsverzögerung. Standard ist 0.75 |
| JSON_LOGS | JSON-formatierte Protokollierung aktivieren |
| JWT_AUDIENCE | Erwartete Zielgruppe für JWT-Tokens |
| JWT_PUBLIC_KEY_URL | URL zum Abrufen des öffentlichen Schlüssels für die JWT-Verifizierung |
| LAGO_API_BASE | Basis-URL für die Lago API |
| LAGO_API_CHARGE_BY | Parameter zur Bestimmung der Gebührenbasis in Lago |
| LAGO_API_EVENT_CODE | Ereigniscode für Lago API-Events |
| LAGO_API_KEY | API-Schlüssel für den Zugriff auf Lago-Dienste |
| LANGFUSE_DEBUG | Debug-Modus für Langfuse umschalten |
| LANGFUSE_FLUSH_INTERVAL | Intervall zum Leeren von Langfuse-Protokollen |
| LANGFUSE_HOST | Host-URL für den Langfuse-Dienst |
| LANGFUSE_PUBLIC_KEY | Öffentlicher Schlüssel für die Langfuse-Authentifizierung |
| LANGFUSE_RELEASE | Release-Version der Langfuse-Integration |
| LANGFUSE_SECRET_KEY | Geheimer Schlüssel für die Langfuse-Authentifizierung |
| LANGSMITH_API_KEY | API-Schlüssel für die Langsmith-Plattform |
| LANGSMITH_BASE_URL | Basis-URL für den Langsmith-Dienst |
| LANGSMITH_BATCH_SIZE | Batch-Größe für Operationen in Langsmith |
| LANGSMITH_DEFAULT_RUN_NAME | Standardname für den Langsmith-Lauf |
| LANGSMITH_PROJECT | Projektname für die Langsmith-Integration |
| LANGSMITH_SAMPLING_RATE | Sampling-Rate für die Langsmith-Protokollierung |
| LANGTRACE_API_KEY | API-Schlüssel für den Langtrace-Dienst |
| LENGTH_OF_LITELLM_GENERATED_KEY | Länge der von LiteLLM generierten Schlüssel. Standard ist 16 |
| LITERAL_API_KEY | API-Schlüssel für die Literal-Integration |
| LITERAL_API_URL | API-URL für den Literal-Dienst |
| LITERAL_BATCH_SIZE | Batch-Größe für Literal-Operationen |
| LITELLM_DONT_SHOW_FEEDBACK_BOX | Flag zum Ausblenden des Feedback-Feldes in der LiteLLM-Benutzeroberfläche |
| LITELLM_DROP_PARAMS | Parameter, die in LiteLLM-Anfragen verworfen werden sollen |
| LITELLM_MODIFY_PARAMS | Parameter, die in LiteLLM-Anfragen geändert werden sollen |
| LITELLM_EMAIL | E-Mail-Adresse, die dem LiteLLM-Konto zugeordnet ist |
| LITELLM_GLOBAL_MAX_PARALLEL_REQUEST_RETRIES | Maximale Wiederholungsversuche für parallele Anfragen in LiteLLM |
| LITELLM_GLOBAL_MAX_PARALLEL_REQUEST_RETRY_TIMEOUT | Timeout für Wiederholungsversuche von parallelen Anfragen in LiteLLM |
| LITELLM_MIGRATION_DIR | Benutzerdefiniertes Verzeichnis für Prisma-Migrationen, das für die Basisdatenbank in schreibgeschützten Dateisystemen verwendet wird. |
| LITELLM_HOSTED_UI | URL der gehosteten Benutzeroberfläche für LiteLLM |
| LITELLM_LICENSE | Lizenzschlüssel für die Nutzung von LiteLLM |
| LITELLM_LOCAL_MODEL_COST_MAP | Lokale Konfiguration für die Modellkostenzuordnung in LiteLLM |
| LITELLM_LOG | Detaillierte Protokollierung für LiteLLM aktivieren |
| LITELLM_MODE | Betriebsmodus für LiteLLM (z. B. Produktion, Entwicklung) |
| LITELLM_SALT_KEY | Salt-Schlüssel für die Verschlüsselung in LiteLLM |
| LITELLM_SECRET_AWS_KMS_LITELLM_LICENSE | AWS KMS-verschlüsselte Lizenz für LiteLLM |
| LITELLM_TOKEN | Zugriffstoken für die LiteLLM-Integration |
| LITELLM_PRINT_STANDARD_LOGGING_PAYLOAD | Wenn wahr, wird die Standard-Protokollierungs-Payload auf der Konsole ausgegeben – nützlich zum Debuggen |
| LOGFIRE_TOKEN | Token für den Logfire-Protokollierungsdienst |
| MAX_EXCEPTION_MESSAGE_LENGTH | Maximale Länge für Fehlermeldungen. Standard ist 2000 |
| MAX_IN_MEMORY_QUEUE_FLUSH_COUNT | Maximale Anzahl von Leerungsoperationen für die In-Memory-Warteschlange. Standard ist 1000 |
| MAX_LONG_SIDE_FOR_IMAGE_HIGH_RES | Maximale Länge für die längere Seite von hochauflösenden Bildern. Standard ist 2000 |
| MAX_REDIS_BUFFER_DEQUEUE_COUNT | Maximale Anzahl von Entnahmeoperationen aus dem Redis-Puffer. Standard ist 100 |
| MAX_SHORT_SIDE_FOR_IMAGE_HIGH_RES | Maximale Länge für die kürzere Seite von hochauflösenden Bildern. Standard ist 768 |
| MAX_SIZE_IN_MEMORY_QUEUE | Maximale Größe für die In-Memory-Warteschlange. Standard ist 10000 |
| MAX_SIZE_PER_ITEM_IN_MEMORY_CACHE_IN_KB | Maximale Größe in KB für jedes Element im In-Memory-Cache. Standard ist 512 oder 1024 |
| MAX_SPENDLOG_ROWS_TO_QUERY | Maximale Anzahl von Ausgaben-Log-Zeilen, die abgefragt werden sollen. Standard ist 1.000.000 |
| MAX_TEAM_LIST_LIMIT | Maximale Anzahl von Teams, die aufgelistet werden sollen. Standard ist 20 |
| MAX_TILE_HEIGHT | Maximale Höhe für Bildkacheln. Standard ist 512 |
| MAX_TILE_WIDTH | Maximale Breite für Bildkacheln. Standard ist 512 |
| MAX_TOKEN_TRIMMING_ATTEMPTS | Maximale Anzahl von Versuchen, eine Token-Nachricht zu kürzen. Standard ist 10 |
| MAX_RETRY_DELAY | Maximale Verzögerung in Sekunden für Wiederholungsversuche von Anfragen. Standard ist 8.0 |
| MIN_NON_ZERO_TEMPERATURE | Minimaler Wert für die Temperatur ungleich Null. Standard ist 0.0001 |
| MINIMUM_PROMPT_CACHE_TOKEN_COUNT | Minimale Token-Anzahl für das Caching eines Prompts. Standard ist 1024 |
| MISTRAL_API_BASE | Basis-URL für die Mistral API |
| MISTRAL_API_KEY | API-Schlüssel für die Mistral API |
| MICROSOFT_CLIENT_ID | Client-ID für Microsoft-Dienste |
| MICROSOFT_CLIENT_SECRET | Client-Geheimnis für Microsoft-Dienste |
| MICROSOFT_TENANT | Tenant-ID für Microsoft Azure |
| MICROSOFT_SERVICE_PRINCIPAL_ID | Service Principal ID für Microsoft Enterprise Application. (Dies ist eine erweiterte Funktion, wenn Sie möchten, dass litellm Mitglieder von Litellm-Teams automatisch basierend auf ihren Microsoft Entra ID-Gruppen zuweist) |
| NO_DOCS | Flag zum Deaktivieren der Dokumentationsgenerierung |
| NO_PROXY | Liste der Adressen, die den Proxy umgehen sollen |
| NON_LLM_CONNECTION_TIMEOUT | Timeout in Sekunden für Nicht-LLM-Dienstverbindungen. Standard ist 15 |
| OAUTH_TOKEN_INFO_ENDPOINT | Endpunkt für den Abruf von OAuth-Token-Informationen |
| OPENAI_BASE_URL | Basis-URL für die OpenAI API |
| OPENAI_API_BASE | Basis-URL für die OpenAI API |
| OPENAI_API_KEY | API-Schlüssel für OpenAI-Dienste |
| OPENAI_FILE_SEARCH_COST_PER_1K_CALLS | Kosten pro 1000 Aufrufe für die OpenAI-Dateisuche. Standard ist 0.0025 |
| OPENAI_ORGANIZATION | Organisationskennung für OpenAI |
| OPENID_BASE_URL | Basis-URL für OpenID Connect-Dienste |
| OPENID_CLIENT_ID | Client-ID für die OpenID Connect-Authentifizierung |
| OPENID_CLIENT_SECRET | Client-Geheimnis für die OpenID Connect-Authentifizierung |
| OPENMETER_API_ENDPOINT | API-Endpunkt für die OpenMeter-Integration |
| OPENMETER_API_KEY | API-Schlüssel für OpenMeter-Dienste |
| OPENMETER_EVENT_TYPE | Art der an OpenMeter gesendeten Ereignisse |
| OTEL_ENDPOINT | OpenTelemetry-Endpunkt für Spuren |
| OTEL_EXPORTER_OTLP_ENDPOINT | OpenTelemetry-Endpunkt für Spuren |
| OTEL_ENVIRONMENT_NAME | Umgebungsname für OpenTelemetry |
| OTEL_EXPORTER | Exporter-Typ für OpenTelemetry |
| OTEL_EXPORTER_OTLP_PROTOCOL | Exporter-Typ für OpenTelemetry |
| OTEL_HEADERS | Header für OpenTelemetry-Anfragen |
| OTEL_EXPORTER_OTLP_HEADERS | Header für OpenTelemetry-Anfragen |
| OTEL_SERVICE_NAME | Dienstname-Identifikator für OpenTelemetry |
| OTEL_TRACER_NAME | Tracer-Name für OpenTelemetry-Tracing |
| PAGERDUTY_API_KEY | API-Schlüssel für PagerDuty-Alarmierung |
| PHOENIX_API_KEY | API-Schlüssel für Arize Phoenix |
| PHOENIX_COLLECTOR_ENDPOINT | API-Endpunkt für Arize Phoenix |
| PHOENIX_COLLECTOR_HTTP_ENDPOINT | API-HTTP-Endpunkt für Arize Phoenix |
| POD_NAME | Pod-Name für den Server, dieser wird in die datadog-Logs als POD_NAME ausgegeben |
| PREDIBASE_API_BASE | Basis-URL für die Predibase API |
| PRESIDIO_ANALYZER_API_BASE | Basis-URL für den Presidio Analyzer-Dienst |
| PRESIDIO_ANONYMIZER_API_BASE | Basis-URL für den Presidio Anonymizer-Dienst |
| PROMETHEUS_BUDGET_METRICS_REFRESH_INTERVAL_MINUTES | Aktualisierungsintervall in Minuten für Prometheus-Budgetmetriken. Standard ist 5 |
| PROMETHEUS_FALLBACK_STATS_SEND_TIME_HOURS | Fallback-Zeit in Stunden für das Senden von Statistiken an Prometheus. Standard ist 9 |
| PROMETHEUS_URL | URL für den Prometheus-Dienst |
| PROMPTLAYER_API_KEY | API-Schlüssel für die PromptLayer-Integration |
| PROXY_ADMIN_ID | Admin-Identifikator für den Proxy-Server |
| PROXY_BASE_URL | Basis-URL für den Proxy-Dienst |
| PROXY_BATCH_WRITE_AT | Zeit in Sekunden, die gewartet wird, bevor Ausgaben-Logs in die Datenbank geschrieben werden. Standard ist 10 |
| PROXY_BUDGET_RESCHEDULER_MAX_TIME | Maximale Zeit in Sekunden, die gewartet wird, bevor die Datenbank auf Budget-Zurücksetzungen geprüft wird. Standard ist 605 |
| PROXY_BUDGET_RESCHEDULER_MIN_TIME | Minimale Zeit in Sekunden, die gewartet wird, bevor die Datenbank auf Budget-Zurücksetzungen geprüft wird. Standard ist 597 |
| PROXY_LOGOUT_URL | URL zum Abmelden vom Proxy-Dienst |
| LITELLM_MASTER_KEY | Master-Schlüssel für die Proxy-Authentifizierung |
| QDRANT_API_BASE | Basis-URL für die Qdrant API |
| QDRANT_API_KEY | API-Schlüssel für den Qdrant-Dienst |
| QDRANT_SCALAR_QUANTILE | Skalarer Quantilwert für Qdrant-Operationen. Standard ist 0.99 |
| QDRANT_URL | Verbindungs-URL für die Qdrant-Datenbank |
| QDRANT_VECTOR_SIZE | Vektorgröße für Qdrant-Operationen. Standard ist 1536 |
| REDIS_CONNECTION_POOL_TIMEOUT | Timeout in Sekunden für den Redis-Verbindungspool. Standard ist 5 |
| REDIS_HOST | Hostname für den Redis-Server |
| REDIS_PASSWORD | Passwort für den Redis-Dienst |
| REDIS_PORT | Portnummer für den Redis-Server |
| REDIS_SOCKET_TIMEOUT | Timeout in Sekunden für Redis-Socket-Operationen. Standard ist 0.1 |
| REDOC_URL | Der Pfad zur Redoc Fast API-Dokumentation. Standardmäßig ist dies "/redoc" |
| REPEATED_STREAMING_CHUNK_LIMIT | Limit für wiederholte Streaming-Chunks zur Erkennung von Schleifen. Standard ist 100 |
| REPLICATE_MODEL_NAME_WITH_ID_LENGTH | Länge von Replicate-Modellnamen mit ID. Standard ist 64 |
| REPLICATE_POLLING_DELAY_SECONDS | Verzögerung in Sekunden für Replicate-Polling-Operationen. Standard ist 0.5 |
| REQUEST_TIMEOUT | Timeout in Sekunden für Anfragen. Standard ist 6000 |
| ROUTER_MAX_FALLBACKS | Maximale Anzahl von Fallbacks für den Router. Standard ist 5 |
| SECRET_MANAGER_REFRESH_INTERVAL | Aktualisierungsintervall in Sekunden für den Secret Manager. Standard ist 86400 (24 Stunden) |
| SERVER_ROOT_PATH | Root-Pfad für die Serveranwendung |
| SET_VERBOSE | Flag zum Aktivieren der ausführlichen Protokollierung |
| SINGLE_DEPLOYMENT_TRAFFIC_FAILURE_THRESHOLD | Minimale Anzahl von Anfragen, die als "angemessener Datenverkehr" für die Cooldown-Logik einzelner Deployments betrachtet werden. Standard ist 1000 |
| SLACK_DAILY_REPORT_FREQUENCY | Häufigkeit von täglichen Slack-Berichten (z. B. täglich, wöchentlich) |
| SLACK_WEBHOOK_URL | Webhook-URL für die Slack-Integration |
| SMTP_HOST | Hostname für den SMTP-Server |
| SMTP_PASSWORD | Passwort für die SMTP-Authentifizierung (nicht setzen, wenn SMTP keine Authentifizierung benötigt) |
| SMTP_PORT | Portnummer für den SMTP-Server |
| SMTP_SENDER_EMAIL | E-Mail-Adresse, die als Absender in SMTP-Transaktionen verwendet wird |
| SMTP_SENDER_LOGO | Logo, das in E-Mails verwendet wird, die über SMTP gesendet werden |
| SMTP_TLS | Flag zum Aktivieren oder Deaktivieren von TLS für SMTP-Verbindungen |
| SMTP_USERNAME | Benutzername für die SMTP-Authentifizierung (nicht setzen, wenn SMTP keine Authentifizierung benötigt) |
| SPEND_LOGS_URL | URL zum Abrufen von Ausgaben-Protokollen |
| SSL_CERTIFICATE | Pfad zur SSL-Zertifikatsdatei |
| SSL_SECURITY_LEVEL | [BETA]Sicherheitsstufe für SSL/TLS-Verbindungen. Z. B. DEFAULT@SECLEVEL=1 |
| SSL_VERIFY | Flag zum Aktivieren oder Deaktivieren der SSL-Zertifikatsüberprüfung |
| SUPABASE_KEY | API-Schlüssel für den Supabase-Dienst |
| SUPABASE_URL | Basis-URL für die Supabase-Instanz |
| STORE_MODEL_IN_DB | Wenn true, wird das Speichern von Modell- und Anmeldeinformationsinformationen in der DB aktiviert. |
| SYSTEM_MESSAGE_TOKEN_COUNT | Token-Anzahl für Systemnachrichten. Standard ist 4 |
| TEST_EMAIL_ADDRESS | E-Mail-Adresse für Testzwecke |
| TOGETHER_AI_4_B | Größenparameter für das Together AI 4B-Modell. Standard ist 4 |
| TOGETHER_AI_8_B | Größenparameter für das Together AI 8B-Modell. Standard ist 8 |
| TOGETHER_AI_21_B | Größenparameter für das Together AI 21B-Modell. Standard ist 21 |
| TOGETHER_AI_41_B | Größenparameter für das Together AI 41B-Modell. Standard ist 41 |
| TOGETHER_AI_80_B | Größenparameter für das Together AI 80B-Modell. Standard ist 80 |
| TOGETHER_AI_110_B | Größenparameter für das Together AI 110B-Modell. Standard ist 110 |
| TOGETHER_AI_EMBEDDING_150_M | Größenparameter für das Together AI 150M-Einbettungsmodell. Standard ist 150 |
| TOGETHER_AI_EMBEDDING_350_M | Größenparameter für das Together AI 350M-Einbettungsmodell. Standard ist 350 |
| TOOL_CHOICE_OBJECT_TOKEN_COUNT | Token-Anzahl für Tool-Auswahl-Objekte. Standard ist 4 |
| UI_LOGO_PATH | Pfad zum Logo-Bild, das in der Benutzeroberfläche verwendet wird |
| UI_PASSWORD | Passwort für den Zugriff auf die Benutzeroberfläche |
| UI_USERNAME | Benutzername für den Zugriff auf die Benutzeroberfläche |
| UPSTREAM_LANGFUSE_DEBUG | Flag zum Aktivieren des Debugging für Upstream Langfuse |
| UPSTREAM_LANGFUSE_HOST | Host-URL für den Upstream Langfuse-Dienst |
| UPSTREAM_LANGFUSE_PUBLIC_KEY | Öffentlicher Schlüssel für die Upstream Langfuse-Authentifizierung |
| UPSTREAM_LANGFUSE_RELEASE | Release-Versionskennung für Upstream Langfuse |
| UPSTREAM_LANGFUSE_SECRET_KEY | Geheimer Schlüssel für die Upstream Langfuse-Authentifizierung |
| USE_AWS_KMS | Flag zur Aktivierung des AWS Key Management Service für die Verschlüsselung |
| USE_PRISMA_MIGRATE | Flag zur Verwendung von prisma migrate anstelle von prisma db push. Empfohlen für Produktionsumgebungen. |
| WEBHOOK_URL | URL zum Empfangen von Webhooks von externen Diensten |
| SPEND_LOG_RUN_LOOPS | Konstante zum Festlegen, wie viele Läufe von 1000 Batch-Löschungen die spend_log_cleanup Aufgabe ausführen soll |