Response Headers

Wenn Sie eine Anfrage an den Proxy senden, gibt der Proxy die folgenden Header zurück

Rate-Limit-Header

Header	Typ	Beschreibung
`x-ratelimit-remaining-requests`	Optional[int]	Die verbleibende Anzahl von Anfragen, die zulässig sind, bevor das Ratenlimit erreicht ist
`x-ratelimit-remaining-tokens`	Optional[int]	Die verbleibende Anzahl von Tokens, die zulässig sind, bevor das Ratenlimit erreicht ist
`x-ratelimit-limit-requests`	Optional[int]	Die maximale Anzahl von Anfragen, die zulässig sind, bevor das Ratenlimit erreicht ist
`x-ratelimit-limit-tokens`	Optional[int]	Die maximale Anzahl von Tokens, die zulässig sind, bevor das Ratenlimit erreicht ist
`x-ratelimit-reset-requests`	Optional[int]	Der Zeitpunkt, zu dem das Ratenlimit zurückgesetzt wird
`x-ratelimit-reset-tokens`	Optional[int]	Der Zeitpunkt, zu dem das Ratenlimit zurückgesetzt wird

Wie Rate-Limit-Header funktionieren

Wenn für einen Schlüssel Ratenlimits festgelegt sind

Der Proxy gibt die verbleibenden Ratenlimits für diesen Schlüssel zurück.

Wenn für einen Schlüssel keine Ratenlimits festgelegt sind

Der Proxy gibt die vom Backend-Anbieter zurückgegebenen verbleibenden Anfragen/Tokens zurück. (LiteLLM standardisiert die Antwort-Header des Backend-Anbieters, um dem OpenAI-Format zu entsprechen)

Wenn der Backend-Anbieter diese Header nicht zurückgibt, ist der Wert None.

Diese Header sind nützlich für Clients, um den aktuellen Status des Ratenlimits zu verstehen und ihre Anfragerate entsprechend anzupassen.

Latenz-Header

Header	Typ	Beschreibung
`x-litellm-response-duration-ms`	float	Gesamtdauer der API-Antwort in Millisekunden
`x-litellm-overhead-duration-ms`	float	LiteLLM-Verarbeitungsaufwand in Millisekunden

Wiederholungs-/Fallback-Header

Header	Typ	Beschreibung
`x-litellm-attempted-retries`	int	Anzahl der durchgeführten Wiederholungsversuche
`x-litellm-attempted-fallbacks`	int	Anzahl der durchgeführten Fallback-Versuche
`x-litellm-max-fallbacks`	int	Maximale Anzahl erlaubter Fallback-Versuche

Kostenverfolgungs-Header

Header	Typ	Beschreibung	Verfügbar auf Pass-Through-Endpunkten
`x-litellm-response-cost`	float	Kosten des API-Aufrufs
`x-litellm-key-spend`	float	Gesamtausgaben für den API-Schlüssel	✅

LiteLLM-spezifische Header

Header	Typ	Beschreibung	Verfügbar auf Pass-Through-Endpunkten
`x-litellm-call-id`	string	Eindeutiger Bezeichner für den API-Aufruf	✅
`x-litellm-model-id`	string	Eindeutiger Bezeichner für das verwendete Modell
`x-litellm-model-api-base`	string	Basis-URL des API-Endpunkts	✅
`x-litellm-version`	string	Verwendete LiteLLM-Version
`x-litellm-model-group`	string	Modellgruppen-Bezeichner

Antwort-Header von LLM-Anbietern

LiteLLM gibt auch die ursprünglichen Antwort-Header des LLM-Anbieters zurück. Diese Header sind mit llm_provider- vorangestellt, um sie von den LiteLLM-Headern zu unterscheiden.

Beispiel Antwort-Header

llm_provider-openai-processing-ms: 256
llm_provider-openai-version: 2020-10-01
llm_provider-x-ratelimit-limit-requests: 30000
llm_provider-x-ratelimit-limit-tokens: 150000000

Response Headers

Rate-Limit-Header​

Wie Rate-Limit-Header funktionieren​

Latenz-Header​

Wiederholungs-/Fallback-Header​

Kostenverfolgungs-Header​

LiteLLM-spezifische Header​

Antwort-Header von LLM-Anbietern​