Zum Hauptinhalt springen

Alle Einstellungen

environment_variables: {}

model_list:
- model_name: string
litellm_params: {}
model_info:
id: string
mode: embedding
input_cost_per_token: 0
output_cost_per_token: 0
max_tokens: 2048
base_model: gpt-4-1106-preview
additionalProp1: {}

litellm_settings:
# Logging/Callback settings
success_callback: ["langfuse"] # list of success callbacks
failure_callback: ["sentry"] # list of failure callbacks
callbacks: ["otel"] # list of callbacks - runs on success and failure
service_callbacks: ["datadog", "prometheus"] # logs redis, postgres failures on datadog, prometheus
turn_off_message_logging: boolean # prevent the messages and responses from being logged to on your callbacks, but request metadata will still be logged.
redact_user_api_key_info: boolean # Redact information about the user api key (hashed token, user_id, team id, etc.), from logs. Currently supported for Langfuse, OpenTelemetry, Logfire, ArizeAI logging.
langfuse_default_tags: ["cache_hit", "cache_key", "proxy_base_url", "user_api_key_alias", "user_api_key_user_id", "user_api_key_user_email", "user_api_key_team_alias", "semantic-similarity", "proxy_base_url"] # default tags for Langfuse Logging

# Networking settings
request_timeout: 10 # (int) llm requesttimeout in seconds. Raise Timeout error if call takes longer than 10s. Sets litellm.request_timeout
force_ipv4: boolean # If true, litellm will force ipv4 for all LLM requests. Some users have seen httpx ConnectionError when using ipv6 + Anthropic API

set_verbose: boolean # sets litellm.set_verbose=True to view verbose debug logs. DO NOT LEAVE THIS ON IN PRODUCTION
json_logs: boolean # if true, logs will be in json format

# Fallbacks, reliability
default_fallbacks: ["claude-opus"] # set default_fallbacks, in case a specific model group is misconfigured / bad.
content_policy_fallbacks: [{"gpt-3.5-turbo-small": ["claude-opus"]}] # fallbacks for ContentPolicyErrors
context_window_fallbacks: [{"gpt-3.5-turbo-small": ["gpt-3.5-turbo-large", "claude-opus"]}] # fallbacks for ContextWindowExceededErrors



# Caching settings
cache: true
cache_params: # set cache params for redis
type: redis # type of cache to initialize

# Optional - Redis Settings
host: "localhost" # The host address for the Redis cache. Required if type is "redis".
port: 6379 # The port number for the Redis cache. Required if type is "redis".
password: "your_password" # The password for the Redis cache. Required if type is "redis".
namespace: "litellm.caching.caching" # namespace for redis cache

# Optional - Redis Cluster Settings
redis_startup_nodes: [{"host": "127.0.0.1", "port": "7001"}]

# Optional - Redis Sentinel Settings
service_name: "mymaster"
sentinel_nodes: [["localhost", 26379]]

# Optional - Qdrant Semantic Cache Settings
qdrant_semantic_cache_embedding_model: openai-embedding # the model should be defined on the model_list
qdrant_collection_name: test_collection
qdrant_quantization_config: binary
similarity_threshold: 0.8 # similarity threshold for semantic cache

# Optional - S3 Cache Settings
s3_bucket_name: cache-bucket-litellm # AWS Bucket Name for S3
s3_region_name: us-west-2 # AWS Region Name for S3
s3_aws_access_key_id: os.environ/AWS_ACCESS_KEY_ID # us os.environ/<variable name> to pass environment variables. This is AWS Access Key ID for S3
s3_aws_secret_access_key: os.environ/AWS_SECRET_ACCESS_KEY # AWS Secret Access Key for S3
s3_endpoint_url: https://s3.amazonaws.com # [OPTIONAL] S3 endpoint URL, if you want to use Backblaze/cloudflare s3 bucket

# Common Cache settings
# Optional - Supported call types for caching
supported_call_types: ["acompletion", "atext_completion", "aembedding", "atranscription"]
# /chat/completions, /completions, /embeddings, /audio/transcriptions
mode: default_off # if default_off, you need to opt in to caching on a per call basis
ttl: 600 # ttl for caching


callback_settings:
otel:
message_logging: boolean # OTEL logging callback specific settings

general_settings:
completion_model: string
disable_spend_logs: boolean # turn off writing each transaction to the db
disable_master_key_return: boolean # turn off returning master key on UI (checked on '/user/info' endpoint)
disable_retry_on_max_parallel_request_limit_error: boolean # turn off retries when max parallel request limit is reached
disable_reset_budget: boolean # turn off reset budget scheduled task
disable_adding_master_key_hash_to_db: boolean # turn off storing master key hash in db, for spend tracking
enable_jwt_auth: boolean # allow proxy admin to auth in via jwt tokens with 'litellm_proxy_admin' in claims
enforce_user_param: boolean # requires all openai endpoint requests to have a 'user' param
allowed_routes: ["route1", "route2"] # list of allowed proxy API routes - a user can access. (currently JWT-Auth only)
key_management_system: google_kms # either google_kms or azure_kms
master_key: string
maximum_spend_logs_retention_period: 30d # The maximum time to retain spend logs before deletion.
maximum_spend_logs_retention_interval: 1d # interval in which the spend log cleanup task should run in.

# Database Settings
database_url: string
database_connection_pool_limit: 0 # default 100
database_connection_timeout: 0 # default 60s
allow_requests_on_db_unavailable: boolean # if true, will allow requests that can not connect to the DB to verify Virtual Key to still work

custom_auth: string
max_parallel_requests: 0 # the max parallel requests allowed per deployment
global_max_parallel_requests: 0 # the max parallel requests allowed on the proxy all up
infer_model_from_keys: true
background_health_checks: true
health_check_interval: 300
alerting: ["slack", "email"]
alerting_threshold: 0
use_client_credentials_pass_through_routes: boolean # use client credentials for all pass through routes like "/vertex-ai", /bedrock/. When this is True Virtual Key auth will not be applied on these endpoints

litellm_settings - Referenz

NameTypBeschreibung
success_callbackArray von StringsListe von Erfolgs-Callbacks. Doc Proxy Logging Callbacks, Doc Metriken
failure_callbackArray von StringsListe von Fehler-Callbacks Doc Proxy Logging Callbacks, Doc Metriken
callbacksArray von StringsListe von Callbacks - wird bei Erfolg und Fehler ausgeführt Doc Proxy Logging Callbacks, Doc Metriken
service_callbacksArray von StringsSystem Health Monitoring - Protokolliert Redis-, PostgreSQL-Fehler bei bestimmten Diensten (z. B. Datadog, Prometheus) Doc Metriken
turn_off_message_loggingBooleanWenn true, werden Nachrichten und Antworten nicht an Callbacks protokolliert, aber die Metadaten der Anfrage werden weiterhin protokolliert Proxy Logging
modify_paramsBooleanWenn true, können die Parameter der Anfrage geändert werden, bevor sie an den LLM-Anbieter gesendet werden
enable_preview_featuresBooleanWenn true, werden Vorschau-Funktionen aktiviert - z. B. Azure O1-Modelle mit Streaming-Unterstützung.
redact_user_api_key_infoBooleanWenn true, werden Informationen über den API-Schlüssel des Benutzers aus den Protokollen entfernt Proxy Logging
langfuse_default_tagsArray von StringsStandard-Tags für Langfuse-Protokollierung. Verwenden Sie dies, wenn Sie steuern möchten, welche LiteLLM-spezifischen Felder als Tags vom LiteLLM-Proxy protokolliert werden. Standardmäßig protokolliert der LiteLLM-Proxy keine LiteLLM-spezifischen Felder als Tags. Weitere Dokumente
set_verboseBooleanWenn true, wird litellm.set_verbose=True gesetzt, um detaillierte Debug-Protokolle anzuzeigen. LASSEN SIE DIES NICHT IN DER PRODUKTION AN!
json_logsBooleanWenn true, werden die Protokolle im JSON-Format ausgegeben. Wenn Sie die Protokolle als JSON speichern müssen, setzen Sie einfach litellm.json_logs = True. Wir protokollieren derzeit nur die rohe POST-Anfrage von LiteLLM als JSON Weitere Dokumente
default_fallbacksArray von StringsListe der Fallback-Modelle, die verwendet werden sollen, wenn eine bestimmte Modellgruppe falsch konfiguriert ist / schlecht ist. Weitere Dokumente
request_timeoutIntegerDas Timeout für Anfragen in Sekunden. Wenn nicht gesetzt, ist der Standardwert 6000 Sekunden. Zur Referenz, das OpenAI Python SDK hat standardmäßig 600 Sekunden.
force_ipv4BooleanWenn true, erzwingt LiteLLM IPv4 für alle LLM-Anfragen. Einige Benutzer haben httpx ConnectionError bei der Verwendung von IPv6 + Anthropic API beobachtet
content_policy_fallbacksArray von ObjektenFallback-Optionen, die verwendet werden, wenn eine ContentPolicyViolationError auftritt. Weitere Dokumente
context_window_fallbacksArray von ObjektenFallback-Optionen, die verwendet werden, wenn eine ContextWindowExceededError auftritt. Weitere Dokumente
cacheBooleanWenn true, wird das Caching aktiviert. Weitere Dokumente
cache_paramsObjektParameter für den Cache. Weitere Dokumente
disable_end_user_cost_trackingBooleanWenn true, wird die Kostenverfolgung für Endbenutzer bei Prometheus-Metriken und LiteLLM-Spend-Log-Tabellen im Proxy deaktiviert.
disable_end_user_cost_tracking_prometheus_onlyBooleanWenn true, wird die Kostenverfolgung für Endbenutzer nur bei Prometheus-Metriken deaktiviert.
key_generation_settingsObjektSchränkt ein, wer Schlüssel generieren kann. Weitere Dokumente
disable_add_transform_inline_image_blockBooleanFür Fireworks AI-Modelle - wenn true, wird das automatische Hinzufügen von #transform=inline zur URL des image_url deaktiviert, wenn das Modell kein Vision-Modell ist.
disable_hf_tokenizer_downloadBooleanWenn true, wird standardmäßig der OpenAI-Tokenizer für alle Modelle (einschließlich Huggingface-Modelle) verwendet.

general_settings - Referenz

NameTypBeschreibung
completion_modelstringDas Standardmodell für Vervollständigungen, wenn model nicht in der Anfrage angegeben ist
disable_spend_logsBooleanWenn true, wird das Schreiben jeder Transaktion in die Datenbank deaktiviert
disable_spend_updatesBooleanWenn true, werden alle Ausgaben-Updates an die DB deaktiviert. Einschließlich Aktualisierungen der Ausgaben für Schlüssel/Benutzer/Teams.
disable_master_key_returnBooleanWenn true, wird der Master-Schlüssel in der UI nicht zurückgegeben. (geprüft am Endpunkt '/user/info')
disable_retry_on_max_parallel_request_limit_errorBooleanWenn true, werden Wiederholungen deaktiviert, wenn das Limit für parallele Anfragen erreicht ist
disable_reset_budgetBooleanWenn true, wird der geplante Task zum Zurücksetzen des Budgets deaktiviert
disable_adding_master_key_hash_to_dbBooleanWenn true, wird das Speichern des Master-Schlüssel-Hashs in der DB deaktiviert
enable_jwt_authBooleanErmöglicht Proxy-Admins die Authentifizierung über JWT-Token mit 'litellm_proxy_admin' in den Claims. Doc über JWT-Token
enforce_user_paramBooleanWenn true, müssen alle Anfragen an den OpenAI-Endpunkt einen 'user'-Parameter haben. Doc über Call Hooks
allowed_routesArray von StringsListe der erlaubten Proxy-API-Routen, auf die ein Benutzer zugreifen kann Doc über die Steuerung erlaubter Routen
key_management_systemstringGibt das Schlüsselverwaltungssystem an. Doc Secret Managers
master_keystringDer Master-Schlüssel für den Proxy Virtuelle Schlüssel einrichten
database_urlstringDie URL für die Datenbankverbindung Virtuelle Schlüssel einrichten
database_connection_pool_limitIntegerDas Limit für den Datenbankverbindungspool DB-Pool-Limit einrichten
database_connection_timeoutIntegerDas Timeout für Datenbankverbindungen in Sekunden DB-Pool-Limit, Timeout einrichten
allow_requests_on_db_unavailableBooleanWenn true, werden Anfragen auch dann erfolgreich bearbeitet, wenn die DB nicht erreichbar ist. Verwenden Sie dies nur, wenn Sie LiteLLM in Ihrem VPC ausführen Dies ermöglicht Anfragen, auch wenn LiteLLM keine Verbindung zur DB herstellen kann, um einen virtuellen Schlüssel zu überprüfen Doc zur Handhabung von DB-Nichtverfügbarkeit
custom_authstringSchreiben Sie Ihre eigene benutzerdefinierte Authentifizierungslogik Doc Benutzerdefinierte Authentifizierung
max_parallel_requestsIntegerDie maximale Anzahl paralleler Anfragen pro Bereitstellung
global_max_parallel_requestsIntegerDie maximale Anzahl paralleler Anfragen im gesamten Proxy
infer_model_from_keysBooleanWenn true, wird das Modell aus den bereitgestellten Schlüsseln abgeleitet
background_health_checksBooleanWenn true, werden Hintergrund-Gesundheitsprüfungen aktiviert. Doc zu Gesundheitsprüfungen
health_check_intervalIntegerDas Intervall für Gesundheitsprüfungen in Sekunden Doc zu Gesundheitsprüfungen
AlarmierungArray von StringsListe der Benachrichtigungsmethoden Doc zu Slack-Benachrichtigungen
alerting_thresholdIntegerDer Schwellenwert für die Auslösung von Benachrichtigungen Doc zu Slack-Benachrichtigungen
use_client_credentials_pass_through_routesBooleanWenn true, werden Client-Anmeldeinformationen für alle Pass-Through-Routen verwendet. Doc zu Pass-Through-Routen
health_check_detailsBooleanWenn false, werden Details der Gesundheitsprüfung ausgeblendet (z. B. verbleibendes Ratenlimit). Doc zu Gesundheitsprüfungen
public_routesListe[str](Enterprise-Funktion) Liste der öffentlichen Routen steuern
alert_typesListe[str]Steuert die Liste der Benachrichtigungstypen, die an Slack gesendet werden sollen (Doc zu Benachrichtigungstypen)[./alerting.md]
enforced_paramsListe[str](Enterprise-Funktion) Liste der Parameter, die in allen Anfragen an den Proxy enthalten sein müssen
enable_oauth2_authBoolean(Enterprise-Funktion) Wenn true, wird die OAuth2.0-Authentifizierung aktiviert
use_x_forwarded_forstrWenn true, wird der X-Forwarded-For-Header verwendet, um die IP-Adresse des Clients zu ermitteln
service_account_settingsListe[Dict[str, Any]]Setzen Sie service_account_settings, wenn Sie Einstellungen erstellen möchten, die nur für Service-Account-Schlüssel gelten (Doc zu Service-Accounts)[./service_accounts.md]
image_generation_modelstrDas Standardmodell für die Bilderzeugung - ignoriert das in der Anfrage angegebene Modell
store_model_in_dbBooleanWenn true, wird das Speichern von Modell- und Anmeldeinformationsinformationen in der DB aktiviert.
store_prompts_in_spend_logsBooleanWenn true, können Prompts und Antworten in der Spend-Logs-Tabelle gespeichert werden.
max_request_size_mbintDie maximale Größe für Anfragen in MB. Anfragen, die größer als diese Größe sind, werden abgelehnt.
max_response_size_mbintDie maximale Größe für Antworten in MB. LLM-Antworten, die größer als diese Größe sind, werden nicht gesendet.
proxy_budget_rescheduler_min_timeintDie minimale Wartezeit (in Sekunden), bevor die DB auf Budgetrücksetzungen überprüft wird. Standard ist 597 Sekunden
proxy_budget_rescheduler_max_timeintDie maximale Wartezeit (in Sekunden), bevor die DB auf Budgetrücksetzungen überprüft wird. Standard ist 605 Sekunden
proxy_batch_write_atintZeit (in Sekunden) bis zum Batch-Schreiben von Spend-Logs in die DB. Standard ist 10 Sekunden
alerting_argsDictArgs für Slack-Benachrichtigungen Doc zu Slack-Benachrichtigungen
custom_key_generatestrBenutzerdefinierte Funktion für die Schlüsselerzeugung Doc zur benutzerdefinierten Schlüsselerzeugung
allowed_ipsListe[str]Liste der IPs, denen der Zugriff auf den Proxy gestattet ist. Wenn nicht gesetzt, sind alle IPs erlaubt.
embedding_modelstrDas Standardmodell für Embeddings - ignoriert das in der Anfrage angegebene Modell
default_team_disabledBooleanWenn true, können Benutzer keine 'persönlichen' Schlüssel erstellen (Schlüssel ohne team_id).
alert_to_webhook_urlDict[str]Geben Sie eine Webhook-URL für jeden Benachrichtigungstyp an.
key_management_settingsListe[Dict[str, Any]]Einstellungen für das Schlüsselverwaltungssystem (z. B. AWS KMS, Azure Key Vault) Doc zu Schlüsselverwaltung
allow_user_authBoolean(Veraltet) alter Ansatz für die Benutzerauthentifizierung.
user_api_key_cache_ttlintDie Dauer (in Sekunden), für die Benutzer-API-Schlüssel im Speicher zwischengespeichert werden.
disable_prisma_schema_updateBooleanWenn true, werden automatische Schema-Updates für die DB deaktiviert
litellm_key_header_namestrWenn gesetzt, können LiteLLM-Schlüssel über einen benutzerdefinierten Header übergeben werden. Doc zu benutzerdefinierten Headern
moderation_modelstrDas Standardmodell für die Moderation.
custom_ssostrPfad zu einer Python-Datei, die benutzerdefinierte SSO-Logik implementiert. Doc zu benutzerdefiniertem SSO
allow_client_side_credentialsBooleanWenn true, können clientseitige Anmeldeinformationen an den Proxy übergeben werden. (Nützlich beim Testen von Finetuning-Modellen) Doc zu clientseitigen Anmeldeinformationen
admin_only_routesListe[str](Enterprise-Funktion) Liste der Routen, die nur für Administratoren zugänglich sind. Doc zu Admin-Only-Routen
use_azure_key_vaultBooleanWenn true, werden Schlüssel aus dem Azure Key Vault geladen
use_google_kmsBooleanWenn true, werden Schlüssel aus Google KMS geladen
spend_report_frequencystrGeben Sie an, wie oft Sie einen Spendenbericht erhalten möchten (z. B. "1d", "2d", "30d") Mehr dazu
ui_access_modeLiteral["admin_only"]Wenn gesetzt, wird der Zugriff auf die UI auf Administratoren beschränkt. Docs
litellm_jwtauthDict[str, Any]Einstellungen für die JWT-Authentifizierung. Docs
litellm_licensestrDer Lizenzschlüssel für den Proxy. Docs
oauth2_config_mappingsDict[str, str]Definieren Sie die OAuth2-Konfigurationszuordnungen
pass_through_endpointsListe[Dict[str, Any]]Definieren Sie die Pass-Through-Endpunkte. Docs
enable_oauth2_proxy_authBoolean(Enterprise-Funktion) Wenn true, wird die OAuth2.0-Authentifizierung aktiviert
forward_openai_org_idBooleanWenn true, wird die OpenAI-Organisations-ID an den Backend-LLM-Aufruf weitergeleitet (wenn es sich um OpenAI handelt).
forward_client_headers_to_llm_apiBooleanWenn true, werden die Client-Header (alle x--Header) an den Backend-LLM-Aufruf weitergeleitet
maximum_spend_logs_retention_periodstrWird verwendet, um die maximale Aufbewahrungszeit für Spend-Logs in der DB festzulegen, danach werden sie automatisch gelöscht
maximum_spend_logs_retention_intervalstrWird verwendet, um das Intervall festzulegen, in dem der Bereinigungsauftrag für Spend-Logs ausgeführt werden soll.

router_settings - Referenz

Info

Die meisten Werte können auch über litellm_settings gesetzt werden. Wenn sich überschneidende Werte ergeben, überschreiben die Einstellungen unter router_settings die unter litellm_settings.

router_settings:
routing_strategy: usage-based-routing-v2 # Literal["simple-shuffle", "least-busy", "usage-based-routing","latency-based-routing"], default="simple-shuffle"
redis_host: <your-redis-host> # string
redis_password: <your-redis-password> # string
redis_port: <your-redis-port> # string
enable_pre_call_checks: true # bool - Before call is made check if a call is within model context window
allowed_fails: 3 # cooldown model if it fails > 1 call in a minute.
cooldown_time: 30 # (in seconds) how long to cooldown model if fails/min > allowed_fails
disable_cooldowns: True # bool - Disable cooldowns for all models
enable_tag_filtering: True # bool - Use tag based routing for requests
retry_policy: { # Dict[str, int]: retry policy for different types of exceptions
"AuthenticationErrorRetries": 3,
"TimeoutErrorRetries": 3,
"RateLimitErrorRetries": 3,
"ContentPolicyViolationErrorRetries": 4,
"InternalServerErrorRetries": 4
}
allowed_fails_policy: {
"BadRequestErrorAllowedFails": 1000, # Allow 1000 BadRequestErrors before cooling down a deployment
"AuthenticationErrorAllowedFails": 10, # int
"TimeoutErrorAllowedFails": 12, # int
"RateLimitErrorAllowedFails": 10000, # int
"ContentPolicyViolationErrorAllowedFails": 15, # int
"InternalServerErrorAllowedFails": 20, # int
}
content_policy_fallbacks=[{"claude-2": ["my-fallback-model"]}] # List[Dict[str, List[str]]]: Fallback model for content policy violations
fallbacks=[{"claude-2": ["my-fallback-model"]}] # List[Dict[str, List[str]]]: Fallback model for all errors
NameTypBeschreibung
routing_strategystringDie Strategie, die für das Routing von Anfragen verwendet wird. Optionen: "simple-shuffle", "least-busy", "usage-based-routing", "latency-based-routing". Standard ist "simple-shuffle". Weitere Informationen hier
redis_hoststringDie Host-Adresse für den Redis-Server. Nur setzen, wenn Sie mehrere Instanzen von LiteLLM Proxy haben und die aktuelle TPM/RPM-Verfolgung über diese hinweg teilen möchten
redis_passwordstringDas Passwort für den Redis-Server. Nur setzen, wenn Sie mehrere Instanzen von LiteLLM Proxy haben und die aktuelle TPM/RPM-Verfolgung über diese hinweg teilen möchten
redis_portstringDie Portnummer für den Redis-Server. Nur setzen, wenn Sie mehrere Instanzen von LiteLLM Proxy haben und die aktuelle TPM/RPM-Verfolgung über diese hinweg teilen möchten
enable_pre_call_checkBooleanWenn true, wird geprüft, ob ein Aufruf innerhalb des Kontextfensters des Modells liegt, bevor der Aufruf getätigt wird. Weitere Informationen hier
content_policy_fallbacksArray von ObjektenLegt Fallback-Modelle für Content-Policy-Verletzungen fest. Weitere Informationen hier
FallbacksArray von ObjektenLegt Fallback-Modelle für alle Arten von Fehlern fest. Weitere Informationen hier
enable_tag_filteringBooleanWenn true, wird Tag-basiertes Routing für Anfragen verwendet Tag-basiertes Routing
cooldown_timeIntegerDie Dauer (in Sekunden), um ein Modell herunterzufahren, wenn es die erlaubten Fehler überschreitet.
disable_cooldownsBooleanWenn true, werden die Cooldowns für alle Modelle deaktiviert. Weitere Informationen hier
retry_policyObjektLegt die Anzahl der Wiederholungen für verschiedene Fehlerarten fest. Weitere Informationen hier
allowed_failsIntegerDie Anzahl der erlaubten Fehler, bevor ein Modell heruntergefahren wird. Weitere Informationen hier
allowed_fails_policyObjektLegt die Anzahl der erlaubten Fehler für verschiedene Fehlertypen fest, bevor eine Bereitstellung heruntergefahren wird. Weitere Informationen hier
default_max_parallel_requestsOptional[int]Die Standardanzahl paralleler Anfragen für eine Bereitstellung.
default_priority(Optional[int])Die Standardpriorität für eine Anfrage. Nur für '.scheduler_acompletion()'. Standard ist None.
polling_interval(Optional[float])Häufigkeit der Abfrage der Warteschlange. Nur für '.scheduler_acompletion()'. Standard ist 3ms.
max_fallbacksOptional[int]Die maximale Anzahl von Fallbacks, die versucht werden, bevor der Aufruf beendet wird. Standardmäßig 5.
default_litellm_paramsOptional[dict]Die Standard-LiteLLM-Parameter, die zu allen Anfragen hinzugefügt werden (z. B. temperature, max_tokens).
timeoutOptional[float]Die Standard-Timeoutzeit für eine Anfrage. Standard ist 10 Minuten.
stream_timeoutOptional[float]Die Standard-Timeoutzeit für eine Streaming-Anfrage. Wenn nicht gesetzt, wird der Wert von 'timeout' verwendet.
debug_levelLiteral["DEBUG", "INFO"]Die Debug-Stufe für die Protokollierungsbibliothek im Router. Standard ist "INFO".
client_ttlintTime-to-live für zwischengespeicherte Clients in Sekunden. Standard sind 3600.
cache_kwargsDictZusätzliche Keyword-Argumente für die Cache-Initialisierung.
routing_strategy_argsDictZusätzliche Keyword-Argumente für die Routing-Strategie - z. B. Standard-TTL für das Routing mit der niedrigsten Latenz
model_group_aliasDictModellgruppen-Alias-Zuordnung. Z. B. {"claude-3-haiku": "claude-3-haiku-20240229"}
num_retriesintAnzahl der Wiederholungen für eine Anfrage. Standard ist 3.
default_fallbacksOptional[Liste[str]]Fallback-Optionen, die versucht werden sollen, wenn keine modellgruppenspezifischen Fallbacks definiert sind.
caching_groupsOptional[Liste[tuple]]Liste von Modellgruppen für das Caching über Modellgruppen hinweg. Standard ist None. - z. B. caching_groups=[("openai-gpt-3.5-turbo", "azure-gpt-3.5-turbo")]
alerting_configAlertingConfig[Nur SDK-Argument]Slack-Benachrichtigungskonfiguration. Standard ist None. Weitere Dokumente
assistants_configAssistantsConfigAuf dem Proxy über assistant_settings gesetzt. Weitere Dokumente
set_verboseBooleanVERALTETES ARGUMENT - siehe Debug-Dokumente Wenn true, wird die Protokollierungsstufe auf "verbose" gesetzt.
retry_afterintZeit in Sekunden, bevor eine Anfrage wiederholt wird. Standard ist 0. Wenn x-retry-after von der LLM-API empfangen wird, wird dieser Wert überschrieben.
provider_budget_configProviderBudgetConfigProvider-Budgetkonfiguration. Verwenden Sie dies, um LLM-Provider-Budgetlimits festzulegen. Beispiel: 100 $/Tag für OpenAI, 100 $/Tag für Azure usw. Standard ist None. Weitere Dokumente
enable_pre_call_checksBooleanWenn true, wird geprüft, ob ein Aufruf innerhalb des Kontextfensters des Modells liegt, bevor der Aufruf getätigt wird. Weitere Informationen hier
model_group_retry_policyDict[str, RetryPolicy][Nur SDK-Argument]Setzt die Wiederholungsrichtlinie für Modellgruppen.
context_window_fallbacksListe[Dict[str, Liste[str]]]Fallback-Modelle für Verstöße gegen das Kontextfenster.
redis_urlstrURL für den Redis-Server. Bekanntes Performance-Problem mit Redis URL.
cache_responsesBooleanFlag zum Aktivieren des Cache von LLM-Antworten, wenn der Cache unter router_settings konfiguriert ist. Wenn true, werden Antworten zwischengespeichert. Standard ist False.
router_general_settingsRouterGeneralSettings[Nur SDK]Allgemeine Router-Einstellungen - enthält Optimierungen wie 'async_only_mode'. Docs
optional_pre_call_checksListe[str]Liste der Pre-Call-Checks, die dem Router hinzugefügt werden sollen. Aktuell unterstützt: 'router_budget_limiting', 'prompt_caching'

Umgebungsvariablen - Referenz

NameBeschreibung
ACTIONS_ID_TOKEN_REQUEST_TOKENToken für die Anforderung einer ID in GitHub Actions
ACTIONS_ID_TOKEN_REQUEST_URLURL für die Anforderung eines ID-Tokens in GitHub Actions
AGENTOPS_ENVIRONMENTUmgebung für AgentOps-Protokollierungsintegration
AGENTOPS_API_KEYAPI-Schlüssel für AgentOps-Protokollierungsintegration
AGENTOPS_SERVICE_NAMEService-Name für AgentOps-Protokollierungsintegration
AISPEND_ACCOUNT_IDKonto-ID für AI Spend
AISPEND_API_KEYAPI-Schlüssel für AI Spend
ALLOWED_EMAIL_DOMAINSListe der erlaubten E-Mail-Domänen für den Zugriff
ARIZE_API_KEYAPI-Schlüssel für Arize-Plattform-Integration
ARIZE_SPACE_KEYSpace-Schlüssel für Arize-Plattform
ARGILLA_BATCH_SIZEBatch-Größe für Argilla-Protokollierung
ARGILLA_API_KEYAPI-Schlüssel für Argilla-Plattform
ARGILLA_SAMPLING_RATEStichprobenrate für Argilla-Protokollierung
ARGILLA_DATASET_NAMEDatensatzname für Argilla-Protokollierung
ARGILLA_BASE_URLBasis-URL für Argilla-Dienst
ATHINA_API_KEYAPI-Schlüssel für Athina-Dienst
ATHINA_BASE_URLBasis-URL für Athina-Dienst (Standard ist https://log.athina.ai)
AUTH_STRATEGYStrategie für die Authentifizierung (z. B. OAuth, API-Schlüssel)
AWS_ACCESS_KEY_IDZugriffsschlüssel-ID für AWS-Dienste
AWS_PROFILE_NAMEAWS CLI-Profilname, der verwendet werden soll
AWS_REGION_NAMEStandard-AWS-Region für Service-Interaktionen
AWS_ROLE_NAMERollenname für die Verwendung von AWS IAM
AWS_SECRET_ACCESS_KEYGeheimer Zugriffsschlüssel für AWS-Dienste
AWS_SESSION_NAMEName für die AWS-Sitzung
AWS_WEB_IDENTITY_TOKENWeb-Identitäts-Token für AWS
AZURE_API_VERSIONVersion der verwendeten Azure-API
AZURE_AUTHORITY_HOSTAzure Authority Host-URL
AZURE_CLIENT_IDClient-ID für Azure-Dienste
AZURE_CLIENT_SECRETClient-Geheimnis für Azure-Dienste
AZURE_TENANT_IDTenant-ID für Azure Active Directory
AZURE_USERNAMEBenutzername für Azure-Dienste, in Verbindung mit AZURE_PASSWORD für Azure AD-Token mit grundlegendem Benutzername/Passwort-Workflow
AZURE_PASSWORDPasswort für Azure-Dienste, in Verbindung mit AZURE_USERNAME für Azure AD-Token mit grundlegendem Benutzername/Passwort-Workflow
AZURE_FEDERATED_TOKEN_FILEDateipfad zum Azure- föderierten Token
AZURE_KEY_VAULT_URIURI für Azure Key Vault
AZURE_OPERATION_POLLING_TIMEOUTTimeout in Sekunden für das Abfragen von Azure-Operationen
AZURE_STORAGE_ACCOUNT_KEYDer Azure Storage Account Key zur Authentifizierung bei der Protokollierung von Azure Blob Storage
AZURE_STORAGE_ACCOUNT_NAMEName des Azure Storage Accounts zur Protokollierung in Azure Blob Storage
AZURE_STORAGE_FILE_SYSTEMName des Azure Storage File Systems zur Protokollierung in Azure Blob Storage. (Normalerweise der Containername)
AZURE_STORAGE_TENANT_IDDie Anwendungs-Tenant-ID zur Authentifizierung bei der Protokollierung von Azure Blob Storage
AZURE_STORAGE_CLIENT_IDDie Anwendungs-Client-ID zur Authentifizierung bei der Protokollierung von Azure Blob Storage
AZURE_STORAGE_CLIENT_SECRETDas Anwendungs-Client-Geheimnis zur Authentifizierung bei der Protokollierung von Azure Blob Storage
BATCH_STATUS_POLL_INTERVAL_SECONDSIntervall in Sekunden für das Abfragen des Batch-Status. Standard ist 3600 (1 Stunde)
BATCH_STATUS_POLL_MAX_ATTEMPTSMaximale Anzahl von Versuchen für das Abfragen des Batch-Status. Standard ist 24 (für 24 Stunden)
BEDROCK_MAX_POLICY_SIZEMaximale Größe für Bedrock-Richtlinien. Standard ist 75
BERRISPEND_ACCOUNT_IDKonto-ID für BerriSpend-Dienst
BRAINTRUST_API_KEYAPI-Schlüssel für Braintrust-Integration
CACHED_STREAMING_CHUNK_DELAYVerzögerung in Sekunden für zwischengespeicherte Streaming-Chunks. Standard ist 0.02
CIRCLE_OIDC_TOKENOpenID Connect-Token für CircleCI
CIRCLE_OIDC_TOKEN_V2Version 2 des OpenID Connect-Tokens für CircleCI
CONFIG_FILE_PATHDateipfad für die Konfigurationsdatei
CUSTOM_TIKTOKEN_CACHE_DIRBenutzerdefiniertes Verzeichnis für den Tiktoken-Cache
DATABASE_HOSTHostname für den Datenbankserver
DATABASE_NAMEName der Datenbank
DATABASE_PASSWORDPasswort für den Datenbankbenutzer
DATABASE_PORTPortnummer für die Datenbankverbindung
DATABASE_SCHEMASchemaname, der in der Datenbank verwendet wird
DATABASE_URLVerbindungs-URL für die Datenbank
DATABASE_USERBenutzername für die Datenbankverbindung
DATABASE_USERNAMEAlias für den Datenbankbenutzer
DATABRICKS_API_BASEBasis-URL für die Databricks API
DAYS_IN_A_MONTHTage in einem Monat für Berechnungszwecke. Standard ist 28
DAYS_IN_A_WEEKTage in einer Woche für Berechnungszwecke. Standard ist 7
DAYS_IN_A_YEARTage in einem Jahr für Berechnungszwecke. Standard ist 365
DD_BASE_URLBasis-URL für Datadog-Integration
DATADOG_BASE_URL(Alternative zu DD_BASE_URL) Basis-URL für Datadog-Integration
_DATADOG_BASE_URL(Alternative zu DD_BASE_URL) Basis-URL für Datadog-Integration
DD_API_KEYAPI-Schlüssel für Datadog-Integration
DD_SITEWebsite-URL für Datadog (z. B. datadoghq.com)
DD_SOURCEQuellenbezeichner für Datadog-Protokolle
DD_ENVUmgebungsbezeichner für Datadog-Protokolle. Nur unterstützt für den datadog_llm_observability-Callback
DD_SERVICEService-Bezeichner für Datadog-Protokolle. Standard ist "litellm-server"
DD_VERSIONVersionsbezeichner für Datadog-Protokolle. Standard ist "unknown"
DEBUG_OTELDebug-Modus für OpenTelemetry aktivieren
DEFAULT_ALLOWED_FAILSMaximale Fehleranzahl, bevor ein Modell heruntergefahren wird. Standard ist 3
DEFAULT_ANTHROPIC_CHAT_MAX_TOKENSStandard-Maximalanzahl von Tokens für Anthropic-Chat-Vervollständigungen. Standard ist 4096
DEFAULT_BATCH_SIZEStandard-Batch-Größe für Operationen. Standard ist 512
DEFAULT_COOLDOWN_TIME_SECONDSDauer in Sekunden, um ein Modell nach Fehlern herunterzufahren. Standard ist 5
DEFAULT_CRON_JOB_LOCK_TTL_SECONDSTime-to-live für Cron-Job-Sperren in Sekunden. Standard ist 60 (1 Minute)
DEFAULT_FAILURE_THRESHOLD_PERCENTSchwellenwert-Prozentsatz von Fehlern, um eine Bereitstellung herunterzufahren. Standard ist 0.5 (50%)
DEFAULT_FLUSH_INTERVAL_SECONDSStandard-Intervall in Sekunden für das Leeren von Operationen. Standard ist 5
DEFAULT_HEALTH_CHECK_INTERVALStandard-Intervall in Sekunden für Gesundheitsprüfungen. Standard ist 300 (5 Minuten)
DEFAULT_IMAGE_HEIGHTStandardhöhe für Bilder. Standard ist 300
DEFAULT_IMAGE_TOKEN_COUNTStandard-Tokenanzahl für Bilder. Standard ist 250
DEFAULT_IMAGE_WIDTHStandardbreite für Bilder. Standard ist 300
DEFAULT_IN_MEMORY_TTLStandard-Time-to-live für den In-Memory-Cache in Sekunden. Standard ist 5
DEFAULT_MAX_LRU_CACHE_SIZEMaximale Größe für den LRU-Cache. Standard ist 16
DEFAULT_MAX_RECURSE_DEPTHMaximale Rekursionstiefe. Standard ist 100
DEFAULT_MAX_RECURSE_DEPTH_SENSITIVE_DATA_MASKERMaximale Rekursionstiefe für den Maskierer sensibler Daten. Standard ist 10
DEFAULT_MAX_RETRIESMaximale Wiederholungsversuche. Standard ist 2
DEFAULT_MAX_TOKENSMaximale Tokens für LLM-Aufrufe. Standard ist 4096
DEFAULT_MAX_TOKENS_FOR_TRITONMaximale Tokens für Triton-Modelle. Standard ist 2000
DEFAULT_MOCK_RESPONSE_COMPLETION_TOKEN_COUNTTokenanzahl für Mock-Antwort-Vervollständigungen. Standard ist 20
DEFAULT_MOCK_RESPONSE_PROMPT_TOKEN_COUNTTokenanzahl für Mock-Antwort-Prompts. Standard ist 10
DEFAULT_MODEL_CREATED_AT_TIMEStandard-Erstellungszeitstempel für Modelle. Standard ist 1677610602
DEFAULT_PROMPT_INJECTION_SIMILARITY_THRESHOLDStandard-Schwellenwert für Prompt-Injection-Ähnlichkeit. Standard ist 0.7
DEFAULT_POLLING_INTERVALStandard-Abfrageintervall für Scheduler in Sekunden. Standard ist 0.03
DEFAULT_REASONING_EFFORT_HIGH_THINKING_BUDGETStandard-Denkbudget für hohe Argumentationsanstrengung. Standard ist 4096
DEFAULT_REASONING_EFFORT_LOW_THINKING_BUDGETStandard-Denkbudget für geringe Argumentationsanstrengung. Standard ist 1024
DEFAULT_REASONING_EFFORT_MEDIUM_THINKING_BUDGETStandard-Denkbudget für mittlere Argumentationsanstrengung. Standard ist 2048
DEFAULT_REDIS_SYNC_INTERVALStandard-Redis-Synchronisierungsintervall in Sekunden. Standard ist 1
DEFAULT_REPLICATE_GPU_PRICE_PER_SECONDStandardpreis pro Sekunde für Replicate GPU. Standard ist 0.001400
DEFAULT_REPLICATE_POLLING_DELAY_SECONDSStandardverzögerung in Sekunden für Replicate-Polling. Standard ist 1
DEFAULT_REPLICATE_POLLING_RETRIESStandardanzahl von Wiederholungen für Replicate-Polling. Standard ist 5
DEFAULT_SLACK_ALERTING_THRESHOLDStandard-Schwellenwert für Slack-Benachrichtigungen. Standard ist 300
DEFAULT_SOFT_BUDGETStandard-Soft-Budget für LiteLLM Proxy-Schlüssel. Standard ist 50.0
DEFAULT_TRIM_RATIOStandardverhältnis von Tokens, die vom Ende des Prompts abgeschnitten werden. Standard ist 0.75
DIRECT_URLDirekte URL für den Service-Endpunkt
DISABLE_ADMIN_UISchalter zum Deaktivieren der Admin-UI
DISABLE_SCHEMA_UPDATESchalter zum Deaktivieren von Schema-Updates
DOCS_DESCRIPTIONBeschreibungstext für Dokumentationsseiten
DOCS_FILTEREDFlag, das gefilterte Dokumentation anzeigt
DOCS_TITLETitel der Dokumentationsseiten
DOCS_URLDer Pfad zur Swagger-API-Dokumentation. Standardmäßig ist dies "/"
EMAIL_LOGO_URLURL für das Logo, das in E-Mails verwendet wird
EMAIL_SUPPORT_CONTACTSupport-Kontakt-E-Mail-Adresse
EXPERIMENTAL_MULTI_INSTANCE_RATE_LIMITINGFlag zum Aktivieren der neuen Multi-Instanz-Ratenbegrenzung. Standard ist False
FIREWORKS_AI_4_BGrößenparameter für das Fireworks AI 4B-Modell. Standard ist 4
FIREWORKS_AI_16_BGrößenparameter für das Fireworks AI 16B-Modell. Standard ist 16
FIREWORKS_AI_56_B_MOEGrößenparameter für das Fireworks AI 56B MOE-Modell. Standard ist 56
FIREWORKS_AI_80_BGrößenparameter für das Fireworks AI 80B-Modell. Standard ist 80
FIREWORKS_AI_176_B_MOEGrößenparameter für das Fireworks AI 176B MOE-Modell. Standard ist 176
FUNCTION_DEFINITION_TOKEN_COUNTTokenanzahl für Funktionsdefinitionen. Standard ist 9
GALILEO_BASE_URLBasis-URL für die Galileo-Plattform
GALILEO_PASSWORDPasswort für die Galileo-Authentifizierung
GALILEO_PROJECT_IDProjekt-ID für die Galileo-Nutzung
GALILEO_USERNAMEBenutzername für die Galileo-Authentifizierung
GCS_BUCKET_NAMEName des Google Cloud Storage-Buckets
GCS_PATH_SERVICE_ACCOUNTPfad zur JSON-Datei des Google Cloud Service-Accounts
GCS_FLUSH_INTERVALFlush-Intervall für GCS-Protokollierung (in Sekunden). Geben Sie an, wie oft ein Protokoll an GCS gesendet werden soll. Standard ist 20 Sekunden
GCS_BATCH_SIZEBatch-Größe für GCS-Protokollierung. Geben Sie an, nach wie vielen Protokollen geleert werden soll. Wenn BATCH_SIZE auf 10 gesetzt ist, werden Protokolle alle 10 Protokolle geleert. Standard ist 2048
GCS_PUBSUB_TOPIC_IDPubSub-Topic-ID, an die LiteLLM SpendLogs gesendet werden sollen.
GCS_PUBSUB_PROJECT_IDPubSub-Projekt-ID, an die LiteLLM SpendLogs gesendet werden sollen.
GENERIC_AUTHORIZATION_ENDPOINTAutorisierungs-Endpunkt für generische OAuth-Anbieter
GENERIC_CLIENT_IDClient-ID für generische OAuth-Anbieter
GENERIC_CLIENT_SECRETClient-Geheimnis für generische OAuth-Anbieter
GENERIC_CLIENT_STATEState-Parameter für die generische Client-Authentifizierung
GENERIC_INCLUDE_CLIENT_IDClient-ID in Anfragen für OAuth einschließen
GENERIC_SCOPEScope-Einstellungen für generische OAuth-Anbieter
GENERIC_TOKEN_ENDPOINTToken-Endpunkt für generische OAuth-Anbieter
GENERIC_USER_DISPLAY_NAME_ATTRIBUTEAttribut für den Anzeigenamen des Benutzers in der generischen Authentifizierung
GENERIC_USER_EMAIL_ATTRIBUTEAttribut für die E-Mail-Adresse des Benutzers in der generischen Authentifizierung
GENERIC_USER_FIRST_NAME_ATTRIBUTEAttribut für den Vornamen des Benutzers in der generischen Authentifizierung
GENERIC_USER_ID_ATTRIBUTEAttribut für die Benutzer-ID in der generischen Authentifizierung
GENERIC_USER_LAST_NAME_ATTRIBUTEAttribut für den Nachnamen des Benutzers in der generischen Authentifizierung
GENERIC_USER_PROVIDER_ATTRIBUTEAttribut, das den Anbieter des Benutzers angibt
GENERIC_USER_ROLE_ATTRIBUTEAttribut, das die Rolle des Benutzers angibt
GENERIC_USERINFO_ENDPOINTEndpunkt zum Abrufen von Benutzerinformationen in generischem OAuth
GALILEO_BASE_URLBasis-URL für die Galileo-Plattform
GALILEO_PASSWORDPasswort für die Galileo-Authentifizierung
GALILEO_PROJECT_IDProjekt-ID für die Galileo-Nutzung
GALILEO_USERNAMEBenutzername für die Galileo-Authentifizierung
GREENSCALE_API_KEYAPI-Schlüssel für Greenscale-Dienst
GREENSCALE_ENDPOINTEndpunkt-URL für Greenscale-Dienst
GOOGLE_APPLICATION_CREDENTIALSPfad zur JSON-Datei mit Google Cloud-Anmeldeinformationen
GOOGLE_CLIENT_IDClient-ID für Google OAuth
GOOGLE_CLIENT_SECRETClient-Geheimnis für Google OAuth
GOOGLE_KMS_RESOURCE_NAMEName der Ressource in Google KMS
HEALTH_CHECK_TIMEOUT_SECONDSTimeout in Sekunden für Gesundheitsprüfungen. Standard ist 60
HF_API_BASEBasis-URL für Hugging Face API
HCP_VAULT_ADDRAdresse für Hashicorp Vault Secret Manager
HCP_VAULT_CLIENT_CERTPfad zum Client-Zertifikat für Hashicorp Vault Secret Manager
HCP_VAULT_CLIENT_KEYPfad zum Client-Schlüssel für Hashicorp Vault Secret Manager
HCP_VAULT_NAMESPACENamespace für Hashicorp Vault Secret Manager
HCP_VAULT_TOKENToken für Hashicorp Vault Secret Manager
HCP_VAULT_CERT_ROLERolle für Hashicorp Vault Secret Manager Auth
HELICONE_API_KEYAPI-Schlüssel für den Helicone-Dienst
HOSTNAMEHostname für den Server, dieser wird in die datadog-Logs gesendet
HOURS_IN_A_DAYStunden pro Tag für Berechnungszwecke. Standard ist 24
HUGGINGFACE_API_BASEBasis-URL für Hugging Face API
HUGGINGFACE_API_KEYAPI-Schlüssel für die Hugging Face API
HUMANLOOP_PROMPT_CACHE_TTL_SECONDSTime-to-live in Sekunden für gecachte Prompts in Humanloop. Standard ist 60
IAM_TOKEN_DB_AUTHIAM-Token für die Datenbankauthentifizierung
INITIAL_RETRY_DELAYAnfängliche Verzögerung in Sekunden für Wiederholungsversuche von Anfragen. Standard ist 0.5
JITTERJitter-Faktor für die Berechnung der Wiederholungsverzögerung. Standard ist 0.75
JSON_LOGSJSON-formatierte Protokollierung aktivieren
JWT_AUDIENCEErwartete Zielgruppe für JWT-Tokens
JWT_PUBLIC_KEY_URLURL zum Abrufen des öffentlichen Schlüssels für die JWT-Verifizierung
LAGO_API_BASEBasis-URL für die Lago API
LAGO_API_CHARGE_BYParameter zur Bestimmung der Gebührenbasis in Lago
LAGO_API_EVENT_CODEEreigniscode für Lago API-Events
LAGO_API_KEYAPI-Schlüssel für den Zugriff auf Lago-Dienste
LANGFUSE_DEBUGDebug-Modus für Langfuse umschalten
LANGFUSE_FLUSH_INTERVALIntervall zum Leeren von Langfuse-Protokollen
LANGFUSE_HOSTHost-URL für den Langfuse-Dienst
LANGFUSE_PUBLIC_KEYÖffentlicher Schlüssel für die Langfuse-Authentifizierung
LANGFUSE_RELEASERelease-Version der Langfuse-Integration
LANGFUSE_SECRET_KEYGeheimer Schlüssel für die Langfuse-Authentifizierung
LANGSMITH_API_KEYAPI-Schlüssel für die Langsmith-Plattform
LANGSMITH_BASE_URLBasis-URL für den Langsmith-Dienst
LANGSMITH_BATCH_SIZEBatch-Größe für Operationen in Langsmith
LANGSMITH_DEFAULT_RUN_NAMEStandardname für den Langsmith-Lauf
LANGSMITH_PROJECTProjektname für die Langsmith-Integration
LANGSMITH_SAMPLING_RATESampling-Rate für die Langsmith-Protokollierung
LANGTRACE_API_KEYAPI-Schlüssel für den Langtrace-Dienst
LENGTH_OF_LITELLM_GENERATED_KEYLänge der von LiteLLM generierten Schlüssel. Standard ist 16
LITERAL_API_KEYAPI-Schlüssel für die Literal-Integration
LITERAL_API_URLAPI-URL für den Literal-Dienst
LITERAL_BATCH_SIZEBatch-Größe für Literal-Operationen
LITELLM_DONT_SHOW_FEEDBACK_BOXFlag zum Ausblenden des Feedback-Feldes in der LiteLLM-Benutzeroberfläche
LITELLM_DROP_PARAMSParameter, die in LiteLLM-Anfragen verworfen werden sollen
LITELLM_MODIFY_PARAMSParameter, die in LiteLLM-Anfragen geändert werden sollen
LITELLM_EMAILE-Mail-Adresse, die dem LiteLLM-Konto zugeordnet ist
LITELLM_GLOBAL_MAX_PARALLEL_REQUEST_RETRIESMaximale Wiederholungsversuche für parallele Anfragen in LiteLLM
LITELLM_GLOBAL_MAX_PARALLEL_REQUEST_RETRY_TIMEOUTTimeout für Wiederholungsversuche von parallelen Anfragen in LiteLLM
LITELLM_MIGRATION_DIRBenutzerdefiniertes Verzeichnis für Prisma-Migrationen, das für die Basisdatenbank in schreibgeschützten Dateisystemen verwendet wird.
LITELLM_HOSTED_UIURL der gehosteten Benutzeroberfläche für LiteLLM
LITELLM_LICENSELizenzschlüssel für die Nutzung von LiteLLM
LITELLM_LOCAL_MODEL_COST_MAPLokale Konfiguration für die Modellkostenzuordnung in LiteLLM
LITELLM_LOGDetaillierte Protokollierung für LiteLLM aktivieren
LITELLM_MODEBetriebsmodus für LiteLLM (z. B. Produktion, Entwicklung)
LITELLM_SALT_KEYSalt-Schlüssel für die Verschlüsselung in LiteLLM
LITELLM_SECRET_AWS_KMS_LITELLM_LICENSEAWS KMS-verschlüsselte Lizenz für LiteLLM
LITELLM_TOKENZugriffstoken für die LiteLLM-Integration
LITELLM_PRINT_STANDARD_LOGGING_PAYLOADWenn wahr, wird die Standard-Protokollierungs-Payload auf der Konsole ausgegeben – nützlich zum Debuggen
LOGFIRE_TOKENToken für den Logfire-Protokollierungsdienst
MAX_EXCEPTION_MESSAGE_LENGTHMaximale Länge für Fehlermeldungen. Standard ist 2000
MAX_IN_MEMORY_QUEUE_FLUSH_COUNTMaximale Anzahl von Leerungsoperationen für die In-Memory-Warteschlange. Standard ist 1000
MAX_LONG_SIDE_FOR_IMAGE_HIGH_RESMaximale Länge für die längere Seite von hochauflösenden Bildern. Standard ist 2000
MAX_REDIS_BUFFER_DEQUEUE_COUNTMaximale Anzahl von Entnahmeoperationen aus dem Redis-Puffer. Standard ist 100
MAX_SHORT_SIDE_FOR_IMAGE_HIGH_RESMaximale Länge für die kürzere Seite von hochauflösenden Bildern. Standard ist 768
MAX_SIZE_IN_MEMORY_QUEUEMaximale Größe für die In-Memory-Warteschlange. Standard ist 10000
MAX_SIZE_PER_ITEM_IN_MEMORY_CACHE_IN_KBMaximale Größe in KB für jedes Element im In-Memory-Cache. Standard ist 512 oder 1024
MAX_SPENDLOG_ROWS_TO_QUERYMaximale Anzahl von Ausgaben-Log-Zeilen, die abgefragt werden sollen. Standard ist 1.000.000
MAX_TEAM_LIST_LIMITMaximale Anzahl von Teams, die aufgelistet werden sollen. Standard ist 20
MAX_TILE_HEIGHTMaximale Höhe für Bildkacheln. Standard ist 512
MAX_TILE_WIDTHMaximale Breite für Bildkacheln. Standard ist 512
MAX_TOKEN_TRIMMING_ATTEMPTSMaximale Anzahl von Versuchen, eine Token-Nachricht zu kürzen. Standard ist 10
MAX_RETRY_DELAYMaximale Verzögerung in Sekunden für Wiederholungsversuche von Anfragen. Standard ist 8.0
MIN_NON_ZERO_TEMPERATUREMinimaler Wert für die Temperatur ungleich Null. Standard ist 0.0001
MINIMUM_PROMPT_CACHE_TOKEN_COUNTMinimale Token-Anzahl für das Caching eines Prompts. Standard ist 1024
MISTRAL_API_BASEBasis-URL für die Mistral API
MISTRAL_API_KEYAPI-Schlüssel für die Mistral API
MICROSOFT_CLIENT_IDClient-ID für Microsoft-Dienste
MICROSOFT_CLIENT_SECRETClient-Geheimnis für Microsoft-Dienste
MICROSOFT_TENANTTenant-ID für Microsoft Azure
MICROSOFT_SERVICE_PRINCIPAL_IDService Principal ID für Microsoft Enterprise Application. (Dies ist eine erweiterte Funktion, wenn Sie möchten, dass litellm Mitglieder von Litellm-Teams automatisch basierend auf ihren Microsoft Entra ID-Gruppen zuweist)
NO_DOCSFlag zum Deaktivieren der Dokumentationsgenerierung
NO_PROXYListe der Adressen, die den Proxy umgehen sollen
NON_LLM_CONNECTION_TIMEOUTTimeout in Sekunden für Nicht-LLM-Dienstverbindungen. Standard ist 15
OAUTH_TOKEN_INFO_ENDPOINTEndpunkt für den Abruf von OAuth-Token-Informationen
OPENAI_BASE_URLBasis-URL für die OpenAI API
OPENAI_API_BASEBasis-URL für die OpenAI API
OPENAI_API_KEYAPI-Schlüssel für OpenAI-Dienste
OPENAI_FILE_SEARCH_COST_PER_1K_CALLSKosten pro 1000 Aufrufe für die OpenAI-Dateisuche. Standard ist 0.0025
OPENAI_ORGANIZATIONOrganisationskennung für OpenAI
OPENID_BASE_URLBasis-URL für OpenID Connect-Dienste
OPENID_CLIENT_IDClient-ID für die OpenID Connect-Authentifizierung
OPENID_CLIENT_SECRETClient-Geheimnis für die OpenID Connect-Authentifizierung
OPENMETER_API_ENDPOINTAPI-Endpunkt für die OpenMeter-Integration
OPENMETER_API_KEYAPI-Schlüssel für OpenMeter-Dienste
OPENMETER_EVENT_TYPEArt der an OpenMeter gesendeten Ereignisse
OTEL_ENDPOINTOpenTelemetry-Endpunkt für Spuren
OTEL_EXPORTER_OTLP_ENDPOINTOpenTelemetry-Endpunkt für Spuren
OTEL_ENVIRONMENT_NAMEUmgebungsname für OpenTelemetry
OTEL_EXPORTERExporter-Typ für OpenTelemetry
OTEL_EXPORTER_OTLP_PROTOCOLExporter-Typ für OpenTelemetry
OTEL_HEADERSHeader für OpenTelemetry-Anfragen
OTEL_EXPORTER_OTLP_HEADERSHeader für OpenTelemetry-Anfragen
OTEL_SERVICE_NAMEDienstname-Identifikator für OpenTelemetry
OTEL_TRACER_NAMETracer-Name für OpenTelemetry-Tracing
PAGERDUTY_API_KEYAPI-Schlüssel für PagerDuty-Alarmierung
PHOENIX_API_KEYAPI-Schlüssel für Arize Phoenix
PHOENIX_COLLECTOR_ENDPOINTAPI-Endpunkt für Arize Phoenix
PHOENIX_COLLECTOR_HTTP_ENDPOINTAPI-HTTP-Endpunkt für Arize Phoenix
POD_NAMEPod-Name für den Server, dieser wird in die datadog-Logs als POD_NAME ausgegeben
PREDIBASE_API_BASEBasis-URL für die Predibase API
PRESIDIO_ANALYZER_API_BASEBasis-URL für den Presidio Analyzer-Dienst
PRESIDIO_ANONYMIZER_API_BASEBasis-URL für den Presidio Anonymizer-Dienst
PROMETHEUS_BUDGET_METRICS_REFRESH_INTERVAL_MINUTESAktualisierungsintervall in Minuten für Prometheus-Budgetmetriken. Standard ist 5
PROMETHEUS_FALLBACK_STATS_SEND_TIME_HOURSFallback-Zeit in Stunden für das Senden von Statistiken an Prometheus. Standard ist 9
PROMETHEUS_URLURL für den Prometheus-Dienst
PROMPTLAYER_API_KEYAPI-Schlüssel für die PromptLayer-Integration
PROXY_ADMIN_IDAdmin-Identifikator für den Proxy-Server
PROXY_BASE_URLBasis-URL für den Proxy-Dienst
PROXY_BATCH_WRITE_ATZeit in Sekunden, die gewartet wird, bevor Ausgaben-Logs in die Datenbank geschrieben werden. Standard ist 10
PROXY_BUDGET_RESCHEDULER_MAX_TIMEMaximale Zeit in Sekunden, die gewartet wird, bevor die Datenbank auf Budget-Zurücksetzungen geprüft wird. Standard ist 605
PROXY_BUDGET_RESCHEDULER_MIN_TIMEMinimale Zeit in Sekunden, die gewartet wird, bevor die Datenbank auf Budget-Zurücksetzungen geprüft wird. Standard ist 597
PROXY_LOGOUT_URLURL zum Abmelden vom Proxy-Dienst
LITELLM_MASTER_KEYMaster-Schlüssel für die Proxy-Authentifizierung
QDRANT_API_BASEBasis-URL für die Qdrant API
QDRANT_API_KEYAPI-Schlüssel für den Qdrant-Dienst
QDRANT_SCALAR_QUANTILESkalarer Quantilwert für Qdrant-Operationen. Standard ist 0.99
QDRANT_URLVerbindungs-URL für die Qdrant-Datenbank
QDRANT_VECTOR_SIZEVektorgröße für Qdrant-Operationen. Standard ist 1536
REDIS_CONNECTION_POOL_TIMEOUTTimeout in Sekunden für den Redis-Verbindungspool. Standard ist 5
REDIS_HOSTHostname für den Redis-Server
REDIS_PASSWORDPasswort für den Redis-Dienst
REDIS_PORTPortnummer für den Redis-Server
REDIS_SOCKET_TIMEOUTTimeout in Sekunden für Redis-Socket-Operationen. Standard ist 0.1
REDOC_URLDer Pfad zur Redoc Fast API-Dokumentation. Standardmäßig ist dies "/redoc"
REPEATED_STREAMING_CHUNK_LIMITLimit für wiederholte Streaming-Chunks zur Erkennung von Schleifen. Standard ist 100
REPLICATE_MODEL_NAME_WITH_ID_LENGTHLänge von Replicate-Modellnamen mit ID. Standard ist 64
REPLICATE_POLLING_DELAY_SECONDSVerzögerung in Sekunden für Replicate-Polling-Operationen. Standard ist 0.5
REQUEST_TIMEOUTTimeout in Sekunden für Anfragen. Standard ist 6000
ROUTER_MAX_FALLBACKSMaximale Anzahl von Fallbacks für den Router. Standard ist 5
SECRET_MANAGER_REFRESH_INTERVALAktualisierungsintervall in Sekunden für den Secret Manager. Standard ist 86400 (24 Stunden)
SERVER_ROOT_PATHRoot-Pfad für die Serveranwendung
SET_VERBOSEFlag zum Aktivieren der ausführlichen Protokollierung
SINGLE_DEPLOYMENT_TRAFFIC_FAILURE_THRESHOLDMinimale Anzahl von Anfragen, die als "angemessener Datenverkehr" für die Cooldown-Logik einzelner Deployments betrachtet werden. Standard ist 1000
SLACK_DAILY_REPORT_FREQUENCYHäufigkeit von täglichen Slack-Berichten (z. B. täglich, wöchentlich)
SLACK_WEBHOOK_URLWebhook-URL für die Slack-Integration
SMTP_HOSTHostname für den SMTP-Server
SMTP_PASSWORDPasswort für die SMTP-Authentifizierung (nicht setzen, wenn SMTP keine Authentifizierung benötigt)
SMTP_PORTPortnummer für den SMTP-Server
SMTP_SENDER_EMAILE-Mail-Adresse, die als Absender in SMTP-Transaktionen verwendet wird
SMTP_SENDER_LOGOLogo, das in E-Mails verwendet wird, die über SMTP gesendet werden
SMTP_TLSFlag zum Aktivieren oder Deaktivieren von TLS für SMTP-Verbindungen
SMTP_USERNAMEBenutzername für die SMTP-Authentifizierung (nicht setzen, wenn SMTP keine Authentifizierung benötigt)
SPEND_LOGS_URLURL zum Abrufen von Ausgaben-Protokollen
SSL_CERTIFICATEPfad zur SSL-Zertifikatsdatei
SSL_SECURITY_LEVEL[BETA]Sicherheitsstufe für SSL/TLS-Verbindungen. Z. B. DEFAULT@SECLEVEL=1
SSL_VERIFYFlag zum Aktivieren oder Deaktivieren der SSL-Zertifikatsüberprüfung
SUPABASE_KEYAPI-Schlüssel für den Supabase-Dienst
SUPABASE_URLBasis-URL für die Supabase-Instanz
STORE_MODEL_IN_DBWenn true, wird das Speichern von Modell- und Anmeldeinformationsinformationen in der DB aktiviert.
SYSTEM_MESSAGE_TOKEN_COUNTToken-Anzahl für Systemnachrichten. Standard ist 4
TEST_EMAIL_ADDRESSE-Mail-Adresse für Testzwecke
TOGETHER_AI_4_BGrößenparameter für das Together AI 4B-Modell. Standard ist 4
TOGETHER_AI_8_BGrößenparameter für das Together AI 8B-Modell. Standard ist 8
TOGETHER_AI_21_BGrößenparameter für das Together AI 21B-Modell. Standard ist 21
TOGETHER_AI_41_BGrößenparameter für das Together AI 41B-Modell. Standard ist 41
TOGETHER_AI_80_BGrößenparameter für das Together AI 80B-Modell. Standard ist 80
TOGETHER_AI_110_BGrößenparameter für das Together AI 110B-Modell. Standard ist 110
TOGETHER_AI_EMBEDDING_150_MGrößenparameter für das Together AI 150M-Einbettungsmodell. Standard ist 150
TOGETHER_AI_EMBEDDING_350_MGrößenparameter für das Together AI 350M-Einbettungsmodell. Standard ist 350
TOOL_CHOICE_OBJECT_TOKEN_COUNTToken-Anzahl für Tool-Auswahl-Objekte. Standard ist 4
UI_LOGO_PATHPfad zum Logo-Bild, das in der Benutzeroberfläche verwendet wird
UI_PASSWORDPasswort für den Zugriff auf die Benutzeroberfläche
UI_USERNAMEBenutzername für den Zugriff auf die Benutzeroberfläche
UPSTREAM_LANGFUSE_DEBUGFlag zum Aktivieren des Debugging für Upstream Langfuse
UPSTREAM_LANGFUSE_HOSTHost-URL für den Upstream Langfuse-Dienst
UPSTREAM_LANGFUSE_PUBLIC_KEYÖffentlicher Schlüssel für die Upstream Langfuse-Authentifizierung
UPSTREAM_LANGFUSE_RELEASERelease-Versionskennung für Upstream Langfuse
UPSTREAM_LANGFUSE_SECRET_KEYGeheimer Schlüssel für die Upstream Langfuse-Authentifizierung
USE_AWS_KMSFlag zur Aktivierung des AWS Key Management Service für die Verschlüsselung
USE_PRISMA_MIGRATEFlag zur Verwendung von prisma migrate anstelle von prisma db push. Empfohlen für Produktionsumgebungen.
WEBHOOK_URLURL zum Empfangen von Webhooks von externen Diensten
SPEND_LOG_RUN_LOOPSKonstante zum Festlegen, wie viele Läufe von 1000 Batch-Löschungen die spend_log_cleanup Aufgabe ausführen soll