Alle Einstellungen

environment_variables: {}

model_list:
  - model_name: string
    litellm_params: {}
    model_info:
      id: string
      mode: embedding
      input_cost_per_token: 0
      output_cost_per_token: 0
      max_tokens: 2048
      base_model: gpt-4-1106-preview
      additionalProp1: {}

litellm_settings:
  # Logging/Callback settings
  success_callback: ["langfuse"]  # list of success callbacks
  failure_callback: ["sentry"]  # list of failure callbacks
  callbacks: ["otel"]  # list of callbacks - runs on success and failure
  service_callbacks: ["datadog", "prometheus"]  # logs redis, postgres failures on datadog, prometheus
  turn_off_message_logging: boolean  # prevent the messages and responses from being logged to on your callbacks, but request metadata will still be logged.
  redact_user_api_key_info: boolean  # Redact information about the user api key (hashed token, user_id, team id, etc.), from logs. Currently supported for Langfuse, OpenTelemetry, Logfire, ArizeAI logging.
  langfuse_default_tags: ["cache_hit", "cache_key", "proxy_base_url", "user_api_key_alias", "user_api_key_user_id", "user_api_key_user_email", "user_api_key_team_alias", "semantic-similarity", "proxy_base_url"] # default tags for Langfuse Logging
  
  # Networking settings
  request_timeout: 10 # (int) llm requesttimeout in seconds. Raise Timeout error if call takes longer than 10s. Sets litellm.request_timeout 
  force_ipv4: boolean # If true, litellm will force ipv4 for all LLM requests. Some users have seen httpx ConnectionError when using ipv6 + Anthropic API
  
  set_verbose: boolean # sets litellm.set_verbose=True to view verbose debug logs. DO NOT LEAVE THIS ON IN PRODUCTION
  json_logs: boolean # if true, logs will be in json format

  # Fallbacks, reliability
  default_fallbacks: ["claude-opus"] # set default_fallbacks, in case a specific model group is misconfigured / bad.
  content_policy_fallbacks: [{"gpt-3.5-turbo-small": ["claude-opus"]}] # fallbacks for ContentPolicyErrors
  context_window_fallbacks: [{"gpt-3.5-turbo-small": ["gpt-3.5-turbo-large", "claude-opus"]}] # fallbacks for ContextWindowExceededErrors



  # Caching settings
  cache: true 
  cache_params:        # set cache params for redis
    type: redis        # type of cache to initialize

    # Optional - Redis Settings
    host: "localhost"  # The host address for the Redis cache. Required if type is "redis".
    port: 6379  # The port number for the Redis cache. Required if type is "redis".
    password: "your_password"  # The password for the Redis cache. Required if type is "redis".
    namespace: "litellm.caching.caching" # namespace for redis cache
  
    # Optional - Redis Cluster Settings
    redis_startup_nodes: [{"host": "127.0.0.1", "port": "7001"}] 

    # Optional - Redis Sentinel Settings
    service_name: "mymaster"
    sentinel_nodes: [["localhost", 26379]]

    # Optional - Qdrant Semantic Cache Settings
    qdrant_semantic_cache_embedding_model: openai-embedding # the model should be defined on the model_list
    qdrant_collection_name: test_collection
    qdrant_quantization_config: binary
    similarity_threshold: 0.8   # similarity threshold for semantic cache

    # Optional - S3 Cache Settings
    s3_bucket_name: cache-bucket-litellm   # AWS Bucket Name for S3
    s3_region_name: us-west-2              # AWS Region Name for S3
    s3_aws_access_key_id: os.environ/AWS_ACCESS_KEY_ID  # us os.environ/<variable name> to pass environment variables. This is AWS Access Key ID for S3
    s3_aws_secret_access_key: os.environ/AWS_SECRET_ACCESS_KEY  # AWS Secret Access Key for S3
    s3_endpoint_url: https://s3.amazonaws.com  # [OPTIONAL] S3 endpoint URL, if you want to use Backblaze/cloudflare s3 bucket

    # Common Cache settings
    # Optional - Supported call types for caching
    supported_call_types: ["acompletion", "atext_completion", "aembedding", "atranscription"]
                          # /chat/completions, /completions, /embeddings, /audio/transcriptions
    mode: default_off # if default_off, you need to opt in to caching on a per call basis
    ttl: 600 # ttl for caching


callback_settings:
  otel:
    message_logging: boolean  # OTEL logging callback specific settings

general_settings:
  completion_model: string
  disable_spend_logs: boolean  # turn off writing each transaction to the db
  disable_master_key_return: boolean  # turn off returning master key on UI (checked on '/user/info' endpoint)
  disable_retry_on_max_parallel_request_limit_error: boolean  # turn off retries when max parallel request limit is reached
  disable_reset_budget: boolean  # turn off reset budget scheduled task
  disable_adding_master_key_hash_to_db: boolean  # turn off storing master key hash in db, for spend tracking
  enable_jwt_auth: boolean  # allow proxy admin to auth in via jwt tokens with 'litellm_proxy_admin' in claims
  enforce_user_param: boolean  # requires all openai endpoint requests to have a 'user' param
  allowed_routes: ["route1", "route2"]  # list of allowed proxy API routes - a user can access. (currently JWT-Auth only)
  key_management_system: google_kms  # either google_kms or azure_kms
  master_key: string
  maximum_spend_logs_retention_period: 30d # The maximum time to retain spend logs before deletion.
  maximum_spend_logs_retention_interval: 1d # interval in which the spend log cleanup task should run in.

  # Database Settings
  database_url: string
  database_connection_pool_limit: 0  # default 100
  database_connection_timeout: 0  # default 60s
  allow_requests_on_db_unavailable: boolean  # if true, will allow requests that can not connect to the DB to verify Virtual Key to still work 

  custom_auth: string
  max_parallel_requests: 0  # the max parallel requests allowed per deployment 
  global_max_parallel_requests: 0  # the max parallel requests allowed on the proxy all up 
  infer_model_from_keys: true
  background_health_checks: true
  health_check_interval: 300
  alerting: ["slack", "email"]
  alerting_threshold: 0
  use_client_credentials_pass_through_routes: boolean  # use client credentials for all pass through routes like "/vertex-ai", /bedrock/. When this is True Virtual Key auth will not be applied on these endpoints

litellm_settings - Referenz

Name	Typ	Beschreibung
success_callback	Array von Strings	Liste von Erfolgs-Callbacks. Doc Proxy Logging Callbacks, Doc Metriken
failure_callback	Array von Strings	Liste von Fehler-Callbacks Doc Proxy Logging Callbacks, Doc Metriken
callbacks	Array von Strings	Liste von Callbacks - wird bei Erfolg und Fehler ausgeführt Doc Proxy Logging Callbacks, Doc Metriken
service_callbacks	Array von Strings	System Health Monitoring - Protokolliert Redis-, PostgreSQL-Fehler bei bestimmten Diensten (z. B. Datadog, Prometheus) Doc Metriken
turn_off_message_logging	Boolean	Wenn true, werden Nachrichten und Antworten nicht an Callbacks protokolliert, aber die Metadaten der Anfrage werden weiterhin protokolliert Proxy Logging
modify_params	Boolean	Wenn true, können die Parameter der Anfrage geändert werden, bevor sie an den LLM-Anbieter gesendet werden
enable_preview_features	Boolean	Wenn true, werden Vorschau-Funktionen aktiviert - z. B. Azure O1-Modelle mit Streaming-Unterstützung.
redact_user_api_key_info	Boolean	Wenn true, werden Informationen über den API-Schlüssel des Benutzers aus den Protokollen entfernt Proxy Logging
langfuse_default_tags	Array von Strings	Standard-Tags für Langfuse-Protokollierung. Verwenden Sie dies, wenn Sie steuern möchten, welche LiteLLM-spezifischen Felder als Tags vom LiteLLM-Proxy protokolliert werden. Standardmäßig protokolliert der LiteLLM-Proxy keine LiteLLM-spezifischen Felder als Tags. Weitere Dokumente
set_verbose	Boolean	Wenn true, wird litellm.set_verbose=True gesetzt, um detaillierte Debug-Protokolle anzuzeigen. LASSEN SIE DIES NICHT IN DER PRODUKTION AN!
json_logs	Boolean	Wenn true, werden die Protokolle im JSON-Format ausgegeben. Wenn Sie die Protokolle als JSON speichern müssen, setzen Sie einfach `litellm.json_logs = True`. Wir protokollieren derzeit nur die rohe POST-Anfrage von LiteLLM als JSON Weitere Dokumente
default_fallbacks	Array von Strings	Liste der Fallback-Modelle, die verwendet werden sollen, wenn eine bestimmte Modellgruppe falsch konfiguriert ist / schlecht ist. Weitere Dokumente
request_timeout	Integer	Das Timeout für Anfragen in Sekunden. Wenn nicht gesetzt, ist der Standardwert `6000 Sekunden`. Zur Referenz, das OpenAI Python SDK hat standardmäßig `600 Sekunden`.
force_ipv4	Boolean	Wenn true, erzwingt LiteLLM IPv4 für alle LLM-Anfragen. Einige Benutzer haben httpx ConnectionError bei der Verwendung von IPv6 + Anthropic API beobachtet
content_policy_fallbacks	Array von Objekten	Fallback-Optionen, die verwendet werden, wenn eine ContentPolicyViolationError auftritt. Weitere Dokumente
context_window_fallbacks	Array von Objekten	Fallback-Optionen, die verwendet werden, wenn eine ContextWindowExceededError auftritt. Weitere Dokumente
cache	Boolean	Wenn true, wird das Caching aktiviert. Weitere Dokumente
cache_params	Objekt	Parameter für den Cache. Weitere Dokumente
disable_end_user_cost_tracking	Boolean	Wenn true, wird die Kostenverfolgung für Endbenutzer bei Prometheus-Metriken und LiteLLM-Spend-Log-Tabellen im Proxy deaktiviert.
disable_end_user_cost_tracking_prometheus_only	Boolean	Wenn true, wird die Kostenverfolgung für Endbenutzer nur bei Prometheus-Metriken deaktiviert.
key_generation_settings	Objekt	Schränkt ein, wer Schlüssel generieren kann. Weitere Dokumente
disable_add_transform_inline_image_block	Boolean	Für Fireworks AI-Modelle - wenn true, wird das automatische Hinzufügen von `#transform=inline` zur URL des image_url deaktiviert, wenn das Modell kein Vision-Modell ist.
disable_hf_tokenizer_download	Boolean	Wenn true, wird standardmäßig der OpenAI-Tokenizer für alle Modelle (einschließlich Huggingface-Modelle) verwendet.

general_settings - Referenz

Name	Typ	Beschreibung
completion_model	string	Das Standardmodell für Vervollständigungen, wenn `model` nicht in der Anfrage angegeben ist
disable_spend_logs	Boolean	Wenn true, wird das Schreiben jeder Transaktion in die Datenbank deaktiviert
disable_spend_updates	Boolean	Wenn true, werden alle Ausgaben-Updates an die DB deaktiviert. Einschließlich Aktualisierungen der Ausgaben für Schlüssel/Benutzer/Teams.
disable_master_key_return	Boolean	Wenn true, wird der Master-Schlüssel in der UI nicht zurückgegeben. (geprüft am Endpunkt '/user/info')
disable_retry_on_max_parallel_request_limit_error	Boolean	Wenn true, werden Wiederholungen deaktiviert, wenn das Limit für parallele Anfragen erreicht ist
disable_reset_budget	Boolean	Wenn true, wird der geplante Task zum Zurücksetzen des Budgets deaktiviert
disable_adding_master_key_hash_to_db	Boolean	Wenn true, wird das Speichern des Master-Schlüssel-Hashs in der DB deaktiviert
enable_jwt_auth	Boolean	Ermöglicht Proxy-Admins die Authentifizierung über JWT-Token mit 'litellm_proxy_admin' in den Claims. Doc über JWT-Token
enforce_user_param	Boolean	Wenn true, müssen alle Anfragen an den OpenAI-Endpunkt einen 'user'-Parameter haben. Doc über Call Hooks
allowed_routes	Array von Strings	Liste der erlaubten Proxy-API-Routen, auf die ein Benutzer zugreifen kann Doc über die Steuerung erlaubter Routen
key_management_system	string	Gibt das Schlüsselverwaltungssystem an. Doc Secret Managers
master_key	string	Der Master-Schlüssel für den Proxy Virtuelle Schlüssel einrichten
database_url	string	Die URL für die Datenbankverbindung Virtuelle Schlüssel einrichten
database_connection_pool_limit	Integer	Das Limit für den Datenbankverbindungspool DB-Pool-Limit einrichten
database_connection_timeout	Integer	Das Timeout für Datenbankverbindungen in Sekunden DB-Pool-Limit, Timeout einrichten
allow_requests_on_db_unavailable	Boolean	Wenn true, werden Anfragen auch dann erfolgreich bearbeitet, wenn die DB nicht erreichbar ist. Verwenden Sie dies nur, wenn Sie LiteLLM in Ihrem VPC ausführen Dies ermöglicht Anfragen, auch wenn LiteLLM keine Verbindung zur DB herstellen kann, um einen virtuellen Schlüssel zu überprüfen Doc zur Handhabung von DB-Nichtverfügbarkeit
custom_auth	string	Schreiben Sie Ihre eigene benutzerdefinierte Authentifizierungslogik Doc Benutzerdefinierte Authentifizierung
max_parallel_requests	Integer	Die maximale Anzahl paralleler Anfragen pro Bereitstellung
global_max_parallel_requests	Integer	Die maximale Anzahl paralleler Anfragen im gesamten Proxy
infer_model_from_keys	Boolean	Wenn true, wird das Modell aus den bereitgestellten Schlüsseln abgeleitet
background_health_checks	Boolean	Wenn true, werden Hintergrund-Gesundheitsprüfungen aktiviert. Doc zu Gesundheitsprüfungen
health_check_interval	Integer	Das Intervall für Gesundheitsprüfungen in Sekunden Doc zu Gesundheitsprüfungen
Alarmierung	Array von Strings	Liste der Benachrichtigungsmethoden Doc zu Slack-Benachrichtigungen
alerting_threshold	Integer	Der Schwellenwert für die Auslösung von Benachrichtigungen Doc zu Slack-Benachrichtigungen
use_client_credentials_pass_through_routes	Boolean	Wenn true, werden Client-Anmeldeinformationen für alle Pass-Through-Routen verwendet. Doc zu Pass-Through-Routen
health_check_details	Boolean	Wenn false, werden Details der Gesundheitsprüfung ausgeblendet (z. B. verbleibendes Ratenlimit). Doc zu Gesundheitsprüfungen
public_routes	Liste[str]	(Enterprise-Funktion) Liste der öffentlichen Routen steuern
alert_types	Liste[str]	Steuert die Liste der Benachrichtigungstypen, die an Slack gesendet werden sollen (Doc zu Benachrichtigungstypen)[./alerting.md]
enforced_params	Liste[str]	(Enterprise-Funktion) Liste der Parameter, die in allen Anfragen an den Proxy enthalten sein müssen
enable_oauth2_auth	Boolean	(Enterprise-Funktion) Wenn true, wird die OAuth2.0-Authentifizierung aktiviert
use_x_forwarded_for	str	Wenn true, wird der X-Forwarded-For-Header verwendet, um die IP-Adresse des Clients zu ermitteln
service_account_settings	Liste[Dict[str, Any]]	Setzen Sie `service_account_settings`, wenn Sie Einstellungen erstellen möchten, die nur für Service-Account-Schlüssel gelten (Doc zu Service-Accounts)[./service_accounts.md]
image_generation_model	str	Das Standardmodell für die Bilderzeugung - ignoriert das in der Anfrage angegebene Modell
store_model_in_db	Boolean	Wenn true, wird das Speichern von Modell- und Anmeldeinformationsinformationen in der DB aktiviert.
store_prompts_in_spend_logs	Boolean	Wenn true, können Prompts und Antworten in der Spend-Logs-Tabelle gespeichert werden.
max_request_size_mb	int	Die maximale Größe für Anfragen in MB. Anfragen, die größer als diese Größe sind, werden abgelehnt.
max_response_size_mb	int	Die maximale Größe für Antworten in MB. LLM-Antworten, die größer als diese Größe sind, werden nicht gesendet.
proxy_budget_rescheduler_min_time	int	Die minimale Wartezeit (in Sekunden), bevor die DB auf Budgetrücksetzungen überprüft wird. Standard ist 597 Sekunden
proxy_budget_rescheduler_max_time	int	Die maximale Wartezeit (in Sekunden), bevor die DB auf Budgetrücksetzungen überprüft wird. Standard ist 605 Sekunden
proxy_batch_write_at	int	Zeit (in Sekunden) bis zum Batch-Schreiben von Spend-Logs in die DB. Standard ist 10 Sekunden
alerting_args	Dict	Args für Slack-Benachrichtigungen Doc zu Slack-Benachrichtigungen
custom_key_generate	str	Benutzerdefinierte Funktion für die Schlüsselerzeugung Doc zur benutzerdefinierten Schlüsselerzeugung
allowed_ips	Liste[str]	Liste der IPs, denen der Zugriff auf den Proxy gestattet ist. Wenn nicht gesetzt, sind alle IPs erlaubt.
embedding_model	str	Das Standardmodell für Embeddings - ignoriert das in der Anfrage angegebene Modell
default_team_disabled	Boolean	Wenn true, können Benutzer keine 'persönlichen' Schlüssel erstellen (Schlüssel ohne team_id).
alert_to_webhook_url	Dict[str]	Geben Sie eine Webhook-URL für jeden Benachrichtigungstyp an.
key_management_settings	Liste[Dict[str, Any]]	Einstellungen für das Schlüsselverwaltungssystem (z. B. AWS KMS, Azure Key Vault) Doc zu Schlüsselverwaltung
allow_user_auth	Boolean	(Veraltet) alter Ansatz für die Benutzerauthentifizierung.
user_api_key_cache_ttl	int	Die Dauer (in Sekunden), für die Benutzer-API-Schlüssel im Speicher zwischengespeichert werden.
disable_prisma_schema_update	Boolean	Wenn true, werden automatische Schema-Updates für die DB deaktiviert
litellm_key_header_name	str	Wenn gesetzt, können LiteLLM-Schlüssel über einen benutzerdefinierten Header übergeben werden. Doc zu benutzerdefinierten Headern
moderation_model	str	Das Standardmodell für die Moderation.
custom_sso	str	Pfad zu einer Python-Datei, die benutzerdefinierte SSO-Logik implementiert. Doc zu benutzerdefiniertem SSO
allow_client_side_credentials	Boolean	Wenn true, können clientseitige Anmeldeinformationen an den Proxy übergeben werden. (Nützlich beim Testen von Finetuning-Modellen) Doc zu clientseitigen Anmeldeinformationen
admin_only_routes	Liste[str]	(Enterprise-Funktion) Liste der Routen, die nur für Administratoren zugänglich sind. Doc zu Admin-Only-Routen
use_azure_key_vault	Boolean	Wenn true, werden Schlüssel aus dem Azure Key Vault geladen
use_google_kms	Boolean	Wenn true, werden Schlüssel aus Google KMS geladen
spend_report_frequency	str	Geben Sie an, wie oft Sie einen Spendenbericht erhalten möchten (z. B. "1d", "2d", "30d") Mehr dazu
ui_access_mode	Literal["admin_only"]	Wenn gesetzt, wird der Zugriff auf die UI auf Administratoren beschränkt. Docs
litellm_jwtauth	Dict[str, Any]	Einstellungen für die JWT-Authentifizierung. Docs
litellm_license	str	Der Lizenzschlüssel für den Proxy. Docs
oauth2_config_mappings	Dict[str, str]	Definieren Sie die OAuth2-Konfigurationszuordnungen
pass_through_endpoints	Liste[Dict[str, Any]]	Definieren Sie die Pass-Through-Endpunkte. Docs
enable_oauth2_proxy_auth	Boolean	(Enterprise-Funktion) Wenn true, wird die OAuth2.0-Authentifizierung aktiviert
forward_openai_org_id	Boolean	Wenn true, wird die OpenAI-Organisations-ID an den Backend-LLM-Aufruf weitergeleitet (wenn es sich um OpenAI handelt).
forward_client_headers_to_llm_api	Boolean	Wenn true, werden die Client-Header (alle `x-`-Header) an den Backend-LLM-Aufruf weitergeleitet
maximum_spend_logs_retention_period	str	Wird verwendet, um die maximale Aufbewahrungszeit für Spend-Logs in der DB festzulegen, danach werden sie automatisch gelöscht
maximum_spend_logs_retention_interval	str	Wird verwendet, um das Intervall festzulegen, in dem der Bereinigungsauftrag für Spend-Logs ausgeführt werden soll.

router_settings - Referenz

Info

Die meisten Werte können auch über litellm_settings gesetzt werden. Wenn sich überschneidende Werte ergeben, überschreiben die Einstellungen unter router_settings die unter litellm_settings.

router_settings:
  routing_strategy: usage-based-routing-v2 # Literal["simple-shuffle", "least-busy", "usage-based-routing","latency-based-routing"], default="simple-shuffle"
  redis_host: <your-redis-host>           # string
  redis_password: <your-redis-password>   # string
  redis_port: <your-redis-port>           # string
  enable_pre_call_checks: true            # bool - Before call is made check if a call is within model context window 
  allowed_fails: 3 # cooldown model if it fails > 1 call in a minute. 
  cooldown_time: 30 # (in seconds) how long to cooldown model if fails/min > allowed_fails
  disable_cooldowns: True                  # bool - Disable cooldowns for all models 
  enable_tag_filtering: True                # bool - Use tag based routing for requests
  retry_policy: {                          # Dict[str, int]: retry policy for different types of exceptions
    "AuthenticationErrorRetries": 3,
    "TimeoutErrorRetries": 3,
    "RateLimitErrorRetries": 3,
    "ContentPolicyViolationErrorRetries": 4,
    "InternalServerErrorRetries": 4
  }
  allowed_fails_policy: {
    "BadRequestErrorAllowedFails": 1000, # Allow 1000 BadRequestErrors before cooling down a deployment
    "AuthenticationErrorAllowedFails": 10, # int 
    "TimeoutErrorAllowedFails": 12, # int 
    "RateLimitErrorAllowedFails": 10000, # int 
    "ContentPolicyViolationErrorAllowedFails": 15, # int 
    "InternalServerErrorAllowedFails": 20, # int 
  }
  content_policy_fallbacks=[{"claude-2": ["my-fallback-model"]}] # List[Dict[str, List[str]]]: Fallback model for content policy violations
  fallbacks=[{"claude-2": ["my-fallback-model"]}] # List[Dict[str, List[str]]]: Fallback model for all errors

Name	Typ	Beschreibung
routing_strategy	string	Die Strategie, die für das Routing von Anfragen verwendet wird. Optionen: "simple-shuffle", "least-busy", "usage-based-routing", "latency-based-routing". Standard ist "simple-shuffle". Weitere Informationen hier
redis_host	string	Die Host-Adresse für den Redis-Server. Nur setzen, wenn Sie mehrere Instanzen von LiteLLM Proxy haben und die aktuelle TPM/RPM-Verfolgung über diese hinweg teilen möchten
redis_password	string	Das Passwort für den Redis-Server. Nur setzen, wenn Sie mehrere Instanzen von LiteLLM Proxy haben und die aktuelle TPM/RPM-Verfolgung über diese hinweg teilen möchten
redis_port	string	Die Portnummer für den Redis-Server. Nur setzen, wenn Sie mehrere Instanzen von LiteLLM Proxy haben und die aktuelle TPM/RPM-Verfolgung über diese hinweg teilen möchten
enable_pre_call_check	Boolean	Wenn true, wird geprüft, ob ein Aufruf innerhalb des Kontextfensters des Modells liegt, bevor der Aufruf getätigt wird. Weitere Informationen hier
content_policy_fallbacks	Array von Objekten	Legt Fallback-Modelle für Content-Policy-Verletzungen fest. Weitere Informationen hier
Fallbacks	Array von Objekten	Legt Fallback-Modelle für alle Arten von Fehlern fest. Weitere Informationen hier
enable_tag_filtering	Boolean	Wenn true, wird Tag-basiertes Routing für Anfragen verwendet Tag-basiertes Routing
cooldown_time	Integer	Die Dauer (in Sekunden), um ein Modell herunterzufahren, wenn es die erlaubten Fehler überschreitet.
disable_cooldowns	Boolean	Wenn true, werden die Cooldowns für alle Modelle deaktiviert. Weitere Informationen hier
retry_policy	Objekt	Legt die Anzahl der Wiederholungen für verschiedene Fehlerarten fest. Weitere Informationen hier
allowed_fails	Integer	Die Anzahl der erlaubten Fehler, bevor ein Modell heruntergefahren wird. Weitere Informationen hier
allowed_fails_policy	Objekt	Legt die Anzahl der erlaubten Fehler für verschiedene Fehlertypen fest, bevor eine Bereitstellung heruntergefahren wird. Weitere Informationen hier
default_max_parallel_requests	Optional[int]	Die Standardanzahl paralleler Anfragen für eine Bereitstellung.
default_priority	(Optional[int])	Die Standardpriorität für eine Anfrage. Nur für '.scheduler_acompletion()'. Standard ist None.
polling_interval	(Optional[float])	Häufigkeit der Abfrage der Warteschlange. Nur für '.scheduler_acompletion()'. Standard ist 3ms.
max_fallbacks	Optional[int]	Die maximale Anzahl von Fallbacks, die versucht werden, bevor der Aufruf beendet wird. Standardmäßig 5.
default_litellm_params	Optional[dict]	Die Standard-LiteLLM-Parameter, die zu allen Anfragen hinzugefügt werden (z. B. `temperature`, `max_tokens`).
timeout	Optional[float]	Die Standard-Timeoutzeit für eine Anfrage. Standard ist 10 Minuten.
stream_timeout	Optional[float]	Die Standard-Timeoutzeit für eine Streaming-Anfrage. Wenn nicht gesetzt, wird der Wert von 'timeout' verwendet.
debug_level	Literal["DEBUG", "INFO"]	Die Debug-Stufe für die Protokollierungsbibliothek im Router. Standard ist "INFO".
client_ttl	int	Time-to-live für zwischengespeicherte Clients in Sekunden. Standard sind 3600.
cache_kwargs	Dict	Zusätzliche Keyword-Argumente für die Cache-Initialisierung.
routing_strategy_args	Dict	Zusätzliche Keyword-Argumente für die Routing-Strategie - z. B. Standard-TTL für das Routing mit der niedrigsten Latenz
model_group_alias	Dict	Modellgruppen-Alias-Zuordnung. Z. B. `{"claude-3-haiku": "claude-3-haiku-20240229"}`
num_retries	int	Anzahl der Wiederholungen für eine Anfrage. Standard ist 3.
default_fallbacks	Optional[Liste[str]]	Fallback-Optionen, die versucht werden sollen, wenn keine modellgruppenspezifischen Fallbacks definiert sind.
caching_groups	Optional[Liste[tuple]]	Liste von Modellgruppen für das Caching über Modellgruppen hinweg. Standard ist None. - z. B. caching_groups=[("openai-gpt-3.5-turbo", "azure-gpt-3.5-turbo")]
alerting_config	AlertingConfig	[Nur SDK-Argument]Slack-Benachrichtigungskonfiguration. Standard ist None. Weitere Dokumente
assistants_config	AssistantsConfig	Auf dem Proxy über `assistant_settings` gesetzt. Weitere Dokumente
set_verbose	Boolean	VERALTETES ARGUMENT - siehe Debug-Dokumente Wenn true, wird die Protokollierungsstufe auf "verbose" gesetzt.
retry_after	int	Zeit in Sekunden, bevor eine Anfrage wiederholt wird. Standard ist 0. Wenn `x-retry-after` von der LLM-API empfangen wird, wird dieser Wert überschrieben.
provider_budget_config	ProviderBudgetConfig	Provider-Budgetkonfiguration. Verwenden Sie dies, um LLM-Provider-Budgetlimits festzulegen. Beispiel: 100 $/Tag für OpenAI, 100 $/Tag für Azure usw. Standard ist None. Weitere Dokumente
enable_pre_call_checks	Boolean	Wenn true, wird geprüft, ob ein Aufruf innerhalb des Kontextfensters des Modells liegt, bevor der Aufruf getätigt wird. Weitere Informationen hier
model_group_retry_policy	Dict[str, RetryPolicy]	[Nur SDK-Argument]Setzt die Wiederholungsrichtlinie für Modellgruppen.
context_window_fallbacks	Liste[Dict[str, Liste[str]]]	Fallback-Modelle für Verstöße gegen das Kontextfenster.
redis_url	str	URL für den Redis-Server. Bekanntes Performance-Problem mit Redis URL.
cache_responses	Boolean	Flag zum Aktivieren des Cache von LLM-Antworten, wenn der Cache unter `router_settings` konfiguriert ist. Wenn true, werden Antworten zwischengespeichert. Standard ist False.
router_general_settings	RouterGeneralSettings	[Nur SDK]Allgemeine Router-Einstellungen - enthält Optimierungen wie 'async_only_mode'. Docs
optional_pre_call_checks	Liste[str]	Liste der Pre-Call-Checks, die dem Router hinzugefügt werden sollen. Aktuell unterstützt: 'router_budget_limiting', 'prompt_caching'

Umgebungsvariablen - Referenz

Name	Beschreibung
ACTIONS_ID_TOKEN_REQUEST_TOKEN	Token für die Anforderung einer ID in GitHub Actions
ACTIONS_ID_TOKEN_REQUEST_URL	URL für die Anforderung eines ID-Tokens in GitHub Actions
AGENTOPS_ENVIRONMENT	Umgebung für AgentOps-Protokollierungsintegration
AGENTOPS_API_KEY	API-Schlüssel für AgentOps-Protokollierungsintegration
AGENTOPS_SERVICE_NAME	Service-Name für AgentOps-Protokollierungsintegration
AISPEND_ACCOUNT_ID	Konto-ID für AI Spend
AISPEND_API_KEY	API-Schlüssel für AI Spend
ALLOWED_EMAIL_DOMAINS	Liste der erlaubten E-Mail-Domänen für den Zugriff
ARIZE_API_KEY	API-Schlüssel für Arize-Plattform-Integration
ARIZE_SPACE_KEY	Space-Schlüssel für Arize-Plattform
ARGILLA_BATCH_SIZE	Batch-Größe für Argilla-Protokollierung
ARGILLA_API_KEY	API-Schlüssel für Argilla-Plattform
ARGILLA_SAMPLING_RATE	Stichprobenrate für Argilla-Protokollierung
ARGILLA_DATASET_NAME	Datensatzname für Argilla-Protokollierung
ARGILLA_BASE_URL	Basis-URL für Argilla-Dienst
ATHINA_API_KEY	API-Schlüssel für Athina-Dienst
ATHINA_BASE_URL	Basis-URL für Athina-Dienst (Standard ist `https://log.athina.ai`)
AUTH_STRATEGY	Strategie für die Authentifizierung (z. B. OAuth, API-Schlüssel)
AWS_ACCESS_KEY_ID	Zugriffsschlüssel-ID für AWS-Dienste
AWS_PROFILE_NAME	AWS CLI-Profilname, der verwendet werden soll
AWS_REGION_NAME	Standard-AWS-Region für Service-Interaktionen
AWS_ROLE_NAME	Rollenname für die Verwendung von AWS IAM
AWS_SECRET_ACCESS_KEY	Geheimer Zugriffsschlüssel für AWS-Dienste
AWS_SESSION_NAME	Name für die AWS-Sitzung
AWS_WEB_IDENTITY_TOKEN	Web-Identitäts-Token für AWS
AZURE_API_VERSION	Version der verwendeten Azure-API
AZURE_AUTHORITY_HOST	Azure Authority Host-URL
AZURE_CLIENT_ID	Client-ID für Azure-Dienste
AZURE_CLIENT_SECRET	Client-Geheimnis für Azure-Dienste
AZURE_TENANT_ID	Tenant-ID für Azure Active Directory
AZURE_USERNAME	Benutzername für Azure-Dienste, in Verbindung mit AZURE_PASSWORD für Azure AD-Token mit grundlegendem Benutzername/Passwort-Workflow
AZURE_PASSWORD	Passwort für Azure-Dienste, in Verbindung mit AZURE_USERNAME für Azure AD-Token mit grundlegendem Benutzername/Passwort-Workflow
AZURE_FEDERATED_TOKEN_FILE	Dateipfad zum Azure- föderierten Token
AZURE_KEY_VAULT_URI	URI für Azure Key Vault
AZURE_OPERATION_POLLING_TIMEOUT	Timeout in Sekunden für das Abfragen von Azure-Operationen
AZURE_STORAGE_ACCOUNT_KEY	Der Azure Storage Account Key zur Authentifizierung bei der Protokollierung von Azure Blob Storage
AZURE_STORAGE_ACCOUNT_NAME	Name des Azure Storage Accounts zur Protokollierung in Azure Blob Storage
AZURE_STORAGE_FILE_SYSTEM	Name des Azure Storage File Systems zur Protokollierung in Azure Blob Storage. (Normalerweise der Containername)
AZURE_STORAGE_TENANT_ID	Die Anwendungs-Tenant-ID zur Authentifizierung bei der Protokollierung von Azure Blob Storage
AZURE_STORAGE_CLIENT_ID	Die Anwendungs-Client-ID zur Authentifizierung bei der Protokollierung von Azure Blob Storage
AZURE_STORAGE_CLIENT_SECRET	Das Anwendungs-Client-Geheimnis zur Authentifizierung bei der Protokollierung von Azure Blob Storage
BATCH_STATUS_POLL_INTERVAL_SECONDS	Intervall in Sekunden für das Abfragen des Batch-Status. Standard ist 3600 (1 Stunde)
BATCH_STATUS_POLL_MAX_ATTEMPTS	Maximale Anzahl von Versuchen für das Abfragen des Batch-Status. Standard ist 24 (für 24 Stunden)
BEDROCK_MAX_POLICY_SIZE	Maximale Größe für Bedrock-Richtlinien. Standard ist 75
BERRISPEND_ACCOUNT_ID	Konto-ID für BerriSpend-Dienst
BRAINTRUST_API_KEY	API-Schlüssel für Braintrust-Integration
CACHED_STREAMING_CHUNK_DELAY	Verzögerung in Sekunden für zwischengespeicherte Streaming-Chunks. Standard ist 0.02
CIRCLE_OIDC_TOKEN	OpenID Connect-Token für CircleCI
CIRCLE_OIDC_TOKEN_V2	Version 2 des OpenID Connect-Tokens für CircleCI
CONFIG_FILE_PATH	Dateipfad für die Konfigurationsdatei
CUSTOM_TIKTOKEN_CACHE_DIR	Benutzerdefiniertes Verzeichnis für den Tiktoken-Cache
DATABASE_HOST	Hostname für den Datenbankserver
DATABASE_NAME	Name der Datenbank
DATABASE_PASSWORD	Passwort für den Datenbankbenutzer
DATABASE_PORT	Portnummer für die Datenbankverbindung
DATABASE_SCHEMA	Schemaname, der in der Datenbank verwendet wird
DATABASE_URL	Verbindungs-URL für die Datenbank
DATABASE_USER	Benutzername für die Datenbankverbindung
DATABASE_USERNAME	Alias für den Datenbankbenutzer
DATABRICKS_API_BASE	Basis-URL für die Databricks API
DAYS_IN_A_MONTH	Tage in einem Monat für Berechnungszwecke. Standard ist 28
DAYS_IN_A_WEEK	Tage in einer Woche für Berechnungszwecke. Standard ist 7
DAYS_IN_A_YEAR	Tage in einem Jahr für Berechnungszwecke. Standard ist 365
DD_BASE_URL	Basis-URL für Datadog-Integration
DATADOG_BASE_URL	(Alternative zu DD_BASE_URL) Basis-URL für Datadog-Integration
_DATADOG_BASE_URL	(Alternative zu DD_BASE_URL) Basis-URL für Datadog-Integration
DD_API_KEY	API-Schlüssel für Datadog-Integration
DD_SITE	Website-URL für Datadog (z. B. datadoghq.com)
DD_SOURCE	Quellenbezeichner für Datadog-Protokolle
DD_ENV	Umgebungsbezeichner für Datadog-Protokolle. Nur unterstützt für den `datadog_llm_observability`-Callback
DD_SERVICE	Service-Bezeichner für Datadog-Protokolle. Standard ist "litellm-server"
DD_VERSION	Versionsbezeichner für Datadog-Protokolle. Standard ist "unknown"
DEBUG_OTEL	Debug-Modus für OpenTelemetry aktivieren
DEFAULT_ALLOWED_FAILS	Maximale Fehleranzahl, bevor ein Modell heruntergefahren wird. Standard ist 3
DEFAULT_ANTHROPIC_CHAT_MAX_TOKENS	Standard-Maximalanzahl von Tokens für Anthropic-Chat-Vervollständigungen. Standard ist 4096
DEFAULT_BATCH_SIZE	Standard-Batch-Größe für Operationen. Standard ist 512
DEFAULT_COOLDOWN_TIME_SECONDS	Dauer in Sekunden, um ein Modell nach Fehlern herunterzufahren. Standard ist 5
DEFAULT_CRON_JOB_LOCK_TTL_SECONDS	Time-to-live für Cron-Job-Sperren in Sekunden. Standard ist 60 (1 Minute)
DEFAULT_FAILURE_THRESHOLD_PERCENT	Schwellenwert-Prozentsatz von Fehlern, um eine Bereitstellung herunterzufahren. Standard ist 0.5 (50%)
DEFAULT_FLUSH_INTERVAL_SECONDS	Standard-Intervall in Sekunden für das Leeren von Operationen. Standard ist 5
DEFAULT_HEALTH_CHECK_INTERVAL	Standard-Intervall in Sekunden für Gesundheitsprüfungen. Standard ist 300 (5 Minuten)
DEFAULT_IMAGE_HEIGHT	Standardhöhe für Bilder. Standard ist 300
DEFAULT_IMAGE_TOKEN_COUNT	Standard-Tokenanzahl für Bilder. Standard ist 250
DEFAULT_IMAGE_WIDTH	Standardbreite für Bilder. Standard ist 300
DEFAULT_IN_MEMORY_TTL	Standard-Time-to-live für den In-Memory-Cache in Sekunden. Standard ist 5
DEFAULT_MAX_LRU_CACHE_SIZE	Maximale Größe für den LRU-Cache. Standard ist 16
DEFAULT_MAX_RECURSE_DEPTH	Maximale Rekursionstiefe. Standard ist 100
DEFAULT_MAX_RECURSE_DEPTH_SENSITIVE_DATA_MASKER	Maximale Rekursionstiefe für den Maskierer sensibler Daten. Standard ist 10
DEFAULT_MAX_RETRIES	Maximale Wiederholungsversuche. Standard ist 2
DEFAULT_MAX_TOKENS	Maximale Tokens für LLM-Aufrufe. Standard ist 4096
DEFAULT_MAX_TOKENS_FOR_TRITON	Maximale Tokens für Triton-Modelle. Standard ist 2000
DEFAULT_MOCK_RESPONSE_COMPLETION_TOKEN_COUNT	Tokenanzahl für Mock-Antwort-Vervollständigungen. Standard ist 20
DEFAULT_MOCK_RESPONSE_PROMPT_TOKEN_COUNT	Tokenanzahl für Mock-Antwort-Prompts. Standard ist 10
DEFAULT_MODEL_CREATED_AT_TIME	Standard-Erstellungszeitstempel für Modelle. Standard ist 1677610602
DEFAULT_PROMPT_INJECTION_SIMILARITY_THRESHOLD	Standard-Schwellenwert für Prompt-Injection-Ähnlichkeit. Standard ist 0.7
DEFAULT_POLLING_INTERVAL	Standard-Abfrageintervall für Scheduler in Sekunden. Standard ist 0.03
DEFAULT_REASONING_EFFORT_HIGH_THINKING_BUDGET	Standard-Denkbudget für hohe Argumentationsanstrengung. Standard ist 4096
DEFAULT_REASONING_EFFORT_LOW_THINKING_BUDGET	Standard-Denkbudget für geringe Argumentationsanstrengung. Standard ist 1024
DEFAULT_REASONING_EFFORT_MEDIUM_THINKING_BUDGET	Standard-Denkbudget für mittlere Argumentationsanstrengung. Standard ist 2048
DEFAULT_REDIS_SYNC_INTERVAL	Standard-Redis-Synchronisierungsintervall in Sekunden. Standard ist 1
DEFAULT_REPLICATE_GPU_PRICE_PER_SECOND	Standardpreis pro Sekunde für Replicate GPU. Standard ist 0.001400
DEFAULT_REPLICATE_POLLING_DELAY_SECONDS	Standardverzögerung in Sekunden für Replicate-Polling. Standard ist 1
DEFAULT_REPLICATE_POLLING_RETRIES	Standardanzahl von Wiederholungen für Replicate-Polling. Standard ist 5
DEFAULT_SLACK_ALERTING_THRESHOLD	Standard-Schwellenwert für Slack-Benachrichtigungen. Standard ist 300
DEFAULT_SOFT_BUDGET	Standard-Soft-Budget für LiteLLM Proxy-Schlüssel. Standard ist 50.0
DEFAULT_TRIM_RATIO	Standardverhältnis von Tokens, die vom Ende des Prompts abgeschnitten werden. Standard ist 0.75
DIRECT_URL	Direkte URL für den Service-Endpunkt
DISABLE_ADMIN_UI	Schalter zum Deaktivieren der Admin-UI
DISABLE_SCHEMA_UPDATE	Schalter zum Deaktivieren von Schema-Updates
DOCS_DESCRIPTION	Beschreibungstext für Dokumentationsseiten
DOCS_FILTERED	Flag, das gefilterte Dokumentation anzeigt
DOCS_TITLE	Titel der Dokumentationsseiten
DOCS_URL	Der Pfad zur Swagger-API-Dokumentation. Standardmäßig ist dies "/"
EMAIL_LOGO_URL	URL für das Logo, das in E-Mails verwendet wird
EMAIL_SUPPORT_CONTACT	Support-Kontakt-E-Mail-Adresse
EXPERIMENTAL_MULTI_INSTANCE_RATE_LIMITING	Flag zum Aktivieren der neuen Multi-Instanz-Ratenbegrenzung. Standard ist False
FIREWORKS_AI_4_B	Größenparameter für das Fireworks AI 4B-Modell. Standard ist 4
FIREWORKS_AI_16_B	Größenparameter für das Fireworks AI 16B-Modell. Standard ist 16
FIREWORKS_AI_56_B_MOE	Größenparameter für das Fireworks AI 56B MOE-Modell. Standard ist 56
FIREWORKS_AI_80_B	Größenparameter für das Fireworks AI 80B-Modell. Standard ist 80
FIREWORKS_AI_176_B_MOE	Größenparameter für das Fireworks AI 176B MOE-Modell. Standard ist 176
FUNCTION_DEFINITION_TOKEN_COUNT	Tokenanzahl für Funktionsdefinitionen. Standard ist 9
GALILEO_BASE_URL	Basis-URL für die Galileo-Plattform
GALILEO_PASSWORD	Passwort für die Galileo-Authentifizierung
GALILEO_PROJECT_ID	Projekt-ID für die Galileo-Nutzung
GALILEO_USERNAME	Benutzername für die Galileo-Authentifizierung
GCS_BUCKET_NAME	Name des Google Cloud Storage-Buckets
GCS_PATH_SERVICE_ACCOUNT	Pfad zur JSON-Datei des Google Cloud Service-Accounts
GCS_FLUSH_INTERVAL	Flush-Intervall für GCS-Protokollierung (in Sekunden). Geben Sie an, wie oft ein Protokoll an GCS gesendet werden soll. Standard ist 20 Sekunden
GCS_BATCH_SIZE	Batch-Größe für GCS-Protokollierung. Geben Sie an, nach wie vielen Protokollen geleert werden soll. Wenn `BATCH_SIZE` auf 10 gesetzt ist, werden Protokolle alle 10 Protokolle geleert. Standard ist 2048
GCS_PUBSUB_TOPIC_ID	PubSub-Topic-ID, an die LiteLLM SpendLogs gesendet werden sollen.
GCS_PUBSUB_PROJECT_ID	PubSub-Projekt-ID, an die LiteLLM SpendLogs gesendet werden sollen.
GENERIC_AUTHORIZATION_ENDPOINT	Autorisierungs-Endpunkt für generische OAuth-Anbieter
GENERIC_CLIENT_ID	Client-ID für generische OAuth-Anbieter
GENERIC_CLIENT_SECRET	Client-Geheimnis für generische OAuth-Anbieter
GENERIC_CLIENT_STATE	State-Parameter für die generische Client-Authentifizierung
GENERIC_INCLUDE_CLIENT_ID	Client-ID in Anfragen für OAuth einschließen
GENERIC_SCOPE	Scope-Einstellungen für generische OAuth-Anbieter
GENERIC_TOKEN_ENDPOINT	Token-Endpunkt für generische OAuth-Anbieter
GENERIC_USER_DISPLAY_NAME_ATTRIBUTE	Attribut für den Anzeigenamen des Benutzers in der generischen Authentifizierung
GENERIC_USER_EMAIL_ATTRIBUTE	Attribut für die E-Mail-Adresse des Benutzers in der generischen Authentifizierung
GENERIC_USER_FIRST_NAME_ATTRIBUTE	Attribut für den Vornamen des Benutzers in der generischen Authentifizierung
GENERIC_USER_ID_ATTRIBUTE	Attribut für die Benutzer-ID in der generischen Authentifizierung
GENERIC_USER_LAST_NAME_ATTRIBUTE	Attribut für den Nachnamen des Benutzers in der generischen Authentifizierung
GENERIC_USER_PROVIDER_ATTRIBUTE	Attribut, das den Anbieter des Benutzers angibt
GENERIC_USER_ROLE_ATTRIBUTE	Attribut, das die Rolle des Benutzers angibt
GENERIC_USERINFO_ENDPOINT	Endpunkt zum Abrufen von Benutzerinformationen in generischem OAuth
GALILEO_BASE_URL	Basis-URL für die Galileo-Plattform
GALILEO_PASSWORD	Passwort für die Galileo-Authentifizierung
GALILEO_PROJECT_ID	Projekt-ID für die Galileo-Nutzung
GALILEO_USERNAME	Benutzername für die Galileo-Authentifizierung
GREENSCALE_API_KEY	API-Schlüssel für Greenscale-Dienst
GREENSCALE_ENDPOINT	Endpunkt-URL für Greenscale-Dienst
GOOGLE_APPLICATION_CREDENTIALS	Pfad zur JSON-Datei mit Google Cloud-Anmeldeinformationen
GOOGLE_CLIENT_ID	Client-ID für Google OAuth
GOOGLE_CLIENT_SECRET	Client-Geheimnis für Google OAuth
GOOGLE_KMS_RESOURCE_NAME	Name der Ressource in Google KMS
HEALTH_CHECK_TIMEOUT_SECONDS	Timeout in Sekunden für Gesundheitsprüfungen. Standard ist 60
HF_API_BASE	Basis-URL für Hugging Face API
HCP_VAULT_ADDR	Adresse für Hashicorp Vault Secret Manager
HCP_VAULT_CLIENT_CERT	Pfad zum Client-Zertifikat für Hashicorp Vault Secret Manager
HCP_VAULT_CLIENT_KEY	Pfad zum Client-Schlüssel für Hashicorp Vault Secret Manager
HCP_VAULT_NAMESPACE	Namespace für Hashicorp Vault Secret Manager
HCP_VAULT_TOKEN	Token für Hashicorp Vault Secret Manager
HCP_VAULT_CERT_ROLE	Rolle für Hashicorp Vault Secret Manager Auth
HELICONE_API_KEY	API-Schlüssel für den Helicone-Dienst
HOSTNAME	Hostname für den Server, dieser wird in die `datadog`-Logs gesendet
HOURS_IN_A_DAY	Stunden pro Tag für Berechnungszwecke. Standard ist 24
HUGGINGFACE_API_BASE	Basis-URL für Hugging Face API
HUGGINGFACE_API_KEY	API-Schlüssel für die Hugging Face API
HUMANLOOP_PROMPT_CACHE_TTL_SECONDS	Time-to-live in Sekunden für gecachte Prompts in Humanloop. Standard ist 60
IAM_TOKEN_DB_AUTH	IAM-Token für die Datenbankauthentifizierung
INITIAL_RETRY_DELAY	Anfängliche Verzögerung in Sekunden für Wiederholungsversuche von Anfragen. Standard ist 0.5
JITTER	Jitter-Faktor für die Berechnung der Wiederholungsverzögerung. Standard ist 0.75
JSON_LOGS	JSON-formatierte Protokollierung aktivieren
JWT_AUDIENCE	Erwartete Zielgruppe für JWT-Tokens
JWT_PUBLIC_KEY_URL	URL zum Abrufen des öffentlichen Schlüssels für die JWT-Verifizierung
LAGO_API_BASE	Basis-URL für die Lago API
LAGO_API_CHARGE_BY	Parameter zur Bestimmung der Gebührenbasis in Lago
LAGO_API_EVENT_CODE	Ereigniscode für Lago API-Events
LAGO_API_KEY	API-Schlüssel für den Zugriff auf Lago-Dienste
LANGFUSE_DEBUG	Debug-Modus für Langfuse umschalten
LANGFUSE_FLUSH_INTERVAL	Intervall zum Leeren von Langfuse-Protokollen
LANGFUSE_HOST	Host-URL für den Langfuse-Dienst
LANGFUSE_PUBLIC_KEY	Öffentlicher Schlüssel für die Langfuse-Authentifizierung
LANGFUSE_RELEASE	Release-Version der Langfuse-Integration
LANGFUSE_SECRET_KEY	Geheimer Schlüssel für die Langfuse-Authentifizierung
LANGSMITH_API_KEY	API-Schlüssel für die Langsmith-Plattform
LANGSMITH_BASE_URL	Basis-URL für den Langsmith-Dienst
LANGSMITH_BATCH_SIZE	Batch-Größe für Operationen in Langsmith
LANGSMITH_DEFAULT_RUN_NAME	Standardname für den Langsmith-Lauf
LANGSMITH_PROJECT	Projektname für die Langsmith-Integration
LANGSMITH_SAMPLING_RATE	Sampling-Rate für die Langsmith-Protokollierung
LANGTRACE_API_KEY	API-Schlüssel für den Langtrace-Dienst
LENGTH_OF_LITELLM_GENERATED_KEY	Länge der von LiteLLM generierten Schlüssel. Standard ist 16
LITERAL_API_KEY	API-Schlüssel für die Literal-Integration
LITERAL_API_URL	API-URL für den Literal-Dienst
LITERAL_BATCH_SIZE	Batch-Größe für Literal-Operationen
LITELLM_DONT_SHOW_FEEDBACK_BOX	Flag zum Ausblenden des Feedback-Feldes in der LiteLLM-Benutzeroberfläche
LITELLM_DROP_PARAMS	Parameter, die in LiteLLM-Anfragen verworfen werden sollen
LITELLM_MODIFY_PARAMS	Parameter, die in LiteLLM-Anfragen geändert werden sollen
LITELLM_EMAIL	E-Mail-Adresse, die dem LiteLLM-Konto zugeordnet ist
LITELLM_GLOBAL_MAX_PARALLEL_REQUEST_RETRIES	Maximale Wiederholungsversuche für parallele Anfragen in LiteLLM
LITELLM_GLOBAL_MAX_PARALLEL_REQUEST_RETRY_TIMEOUT	Timeout für Wiederholungsversuche von parallelen Anfragen in LiteLLM
LITELLM_MIGRATION_DIR	Benutzerdefiniertes Verzeichnis für Prisma-Migrationen, das für die Basisdatenbank in schreibgeschützten Dateisystemen verwendet wird.
LITELLM_HOSTED_UI	URL der gehosteten Benutzeroberfläche für LiteLLM
LITELLM_LICENSE	Lizenzschlüssel für die Nutzung von LiteLLM
LITELLM_LOCAL_MODEL_COST_MAP	Lokale Konfiguration für die Modellkostenzuordnung in LiteLLM
LITELLM_LOG	Detaillierte Protokollierung für LiteLLM aktivieren
LITELLM_MODE	Betriebsmodus für LiteLLM (z. B. Produktion, Entwicklung)
LITELLM_SALT_KEY	Salt-Schlüssel für die Verschlüsselung in LiteLLM
LITELLM_SECRET_AWS_KMS_LITELLM_LICENSE	AWS KMS-verschlüsselte Lizenz für LiteLLM
LITELLM_TOKEN	Zugriffstoken für die LiteLLM-Integration
LITELLM_PRINT_STANDARD_LOGGING_PAYLOAD	Wenn wahr, wird die Standard-Protokollierungs-Payload auf der Konsole ausgegeben – nützlich zum Debuggen
LOGFIRE_TOKEN	Token für den Logfire-Protokollierungsdienst
MAX_EXCEPTION_MESSAGE_LENGTH	Maximale Länge für Fehlermeldungen. Standard ist 2000
MAX_IN_MEMORY_QUEUE_FLUSH_COUNT	Maximale Anzahl von Leerungsoperationen für die In-Memory-Warteschlange. Standard ist 1000
MAX_LONG_SIDE_FOR_IMAGE_HIGH_RES	Maximale Länge für die längere Seite von hochauflösenden Bildern. Standard ist 2000
MAX_REDIS_BUFFER_DEQUEUE_COUNT	Maximale Anzahl von Entnahmeoperationen aus dem Redis-Puffer. Standard ist 100
MAX_SHORT_SIDE_FOR_IMAGE_HIGH_RES	Maximale Länge für die kürzere Seite von hochauflösenden Bildern. Standard ist 768
MAX_SIZE_IN_MEMORY_QUEUE	Maximale Größe für die In-Memory-Warteschlange. Standard ist 10000
MAX_SIZE_PER_ITEM_IN_MEMORY_CACHE_IN_KB	Maximale Größe in KB für jedes Element im In-Memory-Cache. Standard ist 512 oder 1024
MAX_SPENDLOG_ROWS_TO_QUERY	Maximale Anzahl von Ausgaben-Log-Zeilen, die abgefragt werden sollen. Standard ist 1.000.000
MAX_TEAM_LIST_LIMIT	Maximale Anzahl von Teams, die aufgelistet werden sollen. Standard ist 20
MAX_TILE_HEIGHT	Maximale Höhe für Bildkacheln. Standard ist 512
MAX_TILE_WIDTH	Maximale Breite für Bildkacheln. Standard ist 512
MAX_TOKEN_TRIMMING_ATTEMPTS	Maximale Anzahl von Versuchen, eine Token-Nachricht zu kürzen. Standard ist 10
MAX_RETRY_DELAY	Maximale Verzögerung in Sekunden für Wiederholungsversuche von Anfragen. Standard ist 8.0
MIN_NON_ZERO_TEMPERATURE	Minimaler Wert für die Temperatur ungleich Null. Standard ist 0.0001
MINIMUM_PROMPT_CACHE_TOKEN_COUNT	Minimale Token-Anzahl für das Caching eines Prompts. Standard ist 1024
MISTRAL_API_BASE	Basis-URL für die Mistral API
MISTRAL_API_KEY	API-Schlüssel für die Mistral API
MICROSOFT_CLIENT_ID	Client-ID für Microsoft-Dienste
MICROSOFT_CLIENT_SECRET	Client-Geheimnis für Microsoft-Dienste
MICROSOFT_TENANT	Tenant-ID für Microsoft Azure
MICROSOFT_SERVICE_PRINCIPAL_ID	Service Principal ID für Microsoft Enterprise Application. (Dies ist eine erweiterte Funktion, wenn Sie möchten, dass litellm Mitglieder von Litellm-Teams automatisch basierend auf ihren Microsoft Entra ID-Gruppen zuweist)
NO_DOCS	Flag zum Deaktivieren der Dokumentationsgenerierung
NO_PROXY	Liste der Adressen, die den Proxy umgehen sollen
NON_LLM_CONNECTION_TIMEOUT	Timeout in Sekunden für Nicht-LLM-Dienstverbindungen. Standard ist 15
OAUTH_TOKEN_INFO_ENDPOINT	Endpunkt für den Abruf von OAuth-Token-Informationen
OPENAI_BASE_URL	Basis-URL für die OpenAI API
OPENAI_API_BASE	Basis-URL für die OpenAI API
OPENAI_API_KEY	API-Schlüssel für OpenAI-Dienste
OPENAI_FILE_SEARCH_COST_PER_1K_CALLS	Kosten pro 1000 Aufrufe für die OpenAI-Dateisuche. Standard ist 0.0025
OPENAI_ORGANIZATION	Organisationskennung für OpenAI
OPENID_BASE_URL	Basis-URL für OpenID Connect-Dienste
OPENID_CLIENT_ID	Client-ID für die OpenID Connect-Authentifizierung
OPENID_CLIENT_SECRET	Client-Geheimnis für die OpenID Connect-Authentifizierung
OPENMETER_API_ENDPOINT	API-Endpunkt für die OpenMeter-Integration
OPENMETER_API_KEY	API-Schlüssel für OpenMeter-Dienste
OPENMETER_EVENT_TYPE	Art der an OpenMeter gesendeten Ereignisse
OTEL_ENDPOINT	OpenTelemetry-Endpunkt für Spuren
OTEL_EXPORTER_OTLP_ENDPOINT	OpenTelemetry-Endpunkt für Spuren
OTEL_ENVIRONMENT_NAME	Umgebungsname für OpenTelemetry
OTEL_EXPORTER	Exporter-Typ für OpenTelemetry
OTEL_EXPORTER_OTLP_PROTOCOL	Exporter-Typ für OpenTelemetry
OTEL_HEADERS	Header für OpenTelemetry-Anfragen
OTEL_EXPORTER_OTLP_HEADERS	Header für OpenTelemetry-Anfragen
OTEL_SERVICE_NAME	Dienstname-Identifikator für OpenTelemetry
OTEL_TRACER_NAME	Tracer-Name für OpenTelemetry-Tracing
PAGERDUTY_API_KEY	API-Schlüssel für PagerDuty-Alarmierung
PHOENIX_API_KEY	API-Schlüssel für Arize Phoenix
PHOENIX_COLLECTOR_ENDPOINT	API-Endpunkt für Arize Phoenix
PHOENIX_COLLECTOR_HTTP_ENDPOINT	API-HTTP-Endpunkt für Arize Phoenix
POD_NAME	Pod-Name für den Server, dieser wird in die `datadog`-Logs als `POD_NAME` ausgegeben
PREDIBASE_API_BASE	Basis-URL für die Predibase API
PRESIDIO_ANALYZER_API_BASE	Basis-URL für den Presidio Analyzer-Dienst
PRESIDIO_ANONYMIZER_API_BASE	Basis-URL für den Presidio Anonymizer-Dienst
PROMETHEUS_BUDGET_METRICS_REFRESH_INTERVAL_MINUTES	Aktualisierungsintervall in Minuten für Prometheus-Budgetmetriken. Standard ist 5
PROMETHEUS_FALLBACK_STATS_SEND_TIME_HOURS	Fallback-Zeit in Stunden für das Senden von Statistiken an Prometheus. Standard ist 9
PROMETHEUS_URL	URL für den Prometheus-Dienst
PROMPTLAYER_API_KEY	API-Schlüssel für die PromptLayer-Integration
PROXY_ADMIN_ID	Admin-Identifikator für den Proxy-Server
PROXY_BASE_URL	Basis-URL für den Proxy-Dienst
PROXY_BATCH_WRITE_AT	Zeit in Sekunden, die gewartet wird, bevor Ausgaben-Logs in die Datenbank geschrieben werden. Standard ist 10
PROXY_BUDGET_RESCHEDULER_MAX_TIME	Maximale Zeit in Sekunden, die gewartet wird, bevor die Datenbank auf Budget-Zurücksetzungen geprüft wird. Standard ist 605
PROXY_BUDGET_RESCHEDULER_MIN_TIME	Minimale Zeit in Sekunden, die gewartet wird, bevor die Datenbank auf Budget-Zurücksetzungen geprüft wird. Standard ist 597
PROXY_LOGOUT_URL	URL zum Abmelden vom Proxy-Dienst
LITELLM_MASTER_KEY	Master-Schlüssel für die Proxy-Authentifizierung
QDRANT_API_BASE	Basis-URL für die Qdrant API
QDRANT_API_KEY	API-Schlüssel für den Qdrant-Dienst
QDRANT_SCALAR_QUANTILE	Skalarer Quantilwert für Qdrant-Operationen. Standard ist 0.99
QDRANT_URL	Verbindungs-URL für die Qdrant-Datenbank
QDRANT_VECTOR_SIZE	Vektorgröße für Qdrant-Operationen. Standard ist 1536
REDIS_CONNECTION_POOL_TIMEOUT	Timeout in Sekunden für den Redis-Verbindungspool. Standard ist 5
REDIS_HOST	Hostname für den Redis-Server
REDIS_PASSWORD	Passwort für den Redis-Dienst
REDIS_PORT	Portnummer für den Redis-Server
REDIS_SOCKET_TIMEOUT	Timeout in Sekunden für Redis-Socket-Operationen. Standard ist 0.1
REDOC_URL	Der Pfad zur Redoc Fast API-Dokumentation. Standardmäßig ist dies "/redoc"
REPEATED_STREAMING_CHUNK_LIMIT	Limit für wiederholte Streaming-Chunks zur Erkennung von Schleifen. Standard ist 100
REPLICATE_MODEL_NAME_WITH_ID_LENGTH	Länge von Replicate-Modellnamen mit ID. Standard ist 64
REPLICATE_POLLING_DELAY_SECONDS	Verzögerung in Sekunden für Replicate-Polling-Operationen. Standard ist 0.5
REQUEST_TIMEOUT	Timeout in Sekunden für Anfragen. Standard ist 6000
ROUTER_MAX_FALLBACKS	Maximale Anzahl von Fallbacks für den Router. Standard ist 5
SECRET_MANAGER_REFRESH_INTERVAL	Aktualisierungsintervall in Sekunden für den Secret Manager. Standard ist 86400 (24 Stunden)
SERVER_ROOT_PATH	Root-Pfad für die Serveranwendung
SET_VERBOSE	Flag zum Aktivieren der ausführlichen Protokollierung
SINGLE_DEPLOYMENT_TRAFFIC_FAILURE_THRESHOLD	Minimale Anzahl von Anfragen, die als "angemessener Datenverkehr" für die Cooldown-Logik einzelner Deployments betrachtet werden. Standard ist 1000
SLACK_DAILY_REPORT_FREQUENCY	Häufigkeit von täglichen Slack-Berichten (z. B. täglich, wöchentlich)
SLACK_WEBHOOK_URL	Webhook-URL für die Slack-Integration
SMTP_HOST	Hostname für den SMTP-Server
SMTP_PASSWORD	Passwort für die SMTP-Authentifizierung (nicht setzen, wenn SMTP keine Authentifizierung benötigt)
SMTP_PORT	Portnummer für den SMTP-Server
SMTP_SENDER_EMAIL	E-Mail-Adresse, die als Absender in SMTP-Transaktionen verwendet wird
SMTP_SENDER_LOGO	Logo, das in E-Mails verwendet wird, die über SMTP gesendet werden
SMTP_TLS	Flag zum Aktivieren oder Deaktivieren von TLS für SMTP-Verbindungen
SMTP_USERNAME	Benutzername für die SMTP-Authentifizierung (nicht setzen, wenn SMTP keine Authentifizierung benötigt)
SPEND_LOGS_URL	URL zum Abrufen von Ausgaben-Protokollen
SSL_CERTIFICATE	Pfad zur SSL-Zertifikatsdatei
SSL_SECURITY_LEVEL	[BETA]Sicherheitsstufe für SSL/TLS-Verbindungen. Z. B. `DEFAULT@SECLEVEL=1`
SSL_VERIFY	Flag zum Aktivieren oder Deaktivieren der SSL-Zertifikatsüberprüfung
SUPABASE_KEY	API-Schlüssel für den Supabase-Dienst
SUPABASE_URL	Basis-URL für die Supabase-Instanz
STORE_MODEL_IN_DB	Wenn true, wird das Speichern von Modell- und Anmeldeinformationsinformationen in der DB aktiviert.
SYSTEM_MESSAGE_TOKEN_COUNT	Token-Anzahl für Systemnachrichten. Standard ist 4
TEST_EMAIL_ADDRESS	E-Mail-Adresse für Testzwecke
TOGETHER_AI_4_B	Größenparameter für das Together AI 4B-Modell. Standard ist 4
TOGETHER_AI_8_B	Größenparameter für das Together AI 8B-Modell. Standard ist 8
TOGETHER_AI_21_B	Größenparameter für das Together AI 21B-Modell. Standard ist 21
TOGETHER_AI_41_B	Größenparameter für das Together AI 41B-Modell. Standard ist 41
TOGETHER_AI_80_B	Größenparameter für das Together AI 80B-Modell. Standard ist 80
TOGETHER_AI_110_B	Größenparameter für das Together AI 110B-Modell. Standard ist 110
TOGETHER_AI_EMBEDDING_150_M	Größenparameter für das Together AI 150M-Einbettungsmodell. Standard ist 150
TOGETHER_AI_EMBEDDING_350_M	Größenparameter für das Together AI 350M-Einbettungsmodell. Standard ist 350
TOOL_CHOICE_OBJECT_TOKEN_COUNT	Token-Anzahl für Tool-Auswahl-Objekte. Standard ist 4
UI_LOGO_PATH	Pfad zum Logo-Bild, das in der Benutzeroberfläche verwendet wird
UI_PASSWORD	Passwort für den Zugriff auf die Benutzeroberfläche
UI_USERNAME	Benutzername für den Zugriff auf die Benutzeroberfläche
UPSTREAM_LANGFUSE_DEBUG	Flag zum Aktivieren des Debugging für Upstream Langfuse
UPSTREAM_LANGFUSE_HOST	Host-URL für den Upstream Langfuse-Dienst
UPSTREAM_LANGFUSE_PUBLIC_KEY	Öffentlicher Schlüssel für die Upstream Langfuse-Authentifizierung
UPSTREAM_LANGFUSE_RELEASE	Release-Versionskennung für Upstream Langfuse
UPSTREAM_LANGFUSE_SECRET_KEY	Geheimer Schlüssel für die Upstream Langfuse-Authentifizierung
USE_AWS_KMS	Flag zur Aktivierung des AWS Key Management Service für die Verschlüsselung
USE_PRISMA_MIGRATE	Flag zur Verwendung von prisma migrate anstelle von prisma db push. Empfohlen für Produktionsumgebungen.
WEBHOOK_URL	URL zum Empfangen von Webhooks von externen Diensten
SPEND_LOG_RUN_LOOPS	Konstante zum Festlegen, wie viele Läufe von 1000 Batch-Löschungen die spend_log_cleanup Aufgabe ausführen soll

Alle Einstellungen

litellm_settings - Referenz​

general_settings - Referenz​

router_settings - Referenz​

Umgebungsvariablen - Referenz​

litellm_settings - Referenz

general_settings - Referenz

router_settings - Referenz

Umgebungsvariablen - Referenz