Response Headers
Wenn Sie eine Anfrage an den Proxy senden, gibt der Proxy die folgenden Header zurĂĽck
Rate-Limit-Header​
| Header | Typ | Beschreibung |
|---|---|---|
x-ratelimit-remaining-requests | Optional[int] | Die verbleibende Anzahl von Anfragen, die zulässig sind, bevor das Ratenlimit erreicht ist |
x-ratelimit-remaining-tokens | Optional[int] | Die verbleibende Anzahl von Tokens, die zulässig sind, bevor das Ratenlimit erreicht ist |
x-ratelimit-limit-requests | Optional[int] | Die maximale Anzahl von Anfragen, die zulässig sind, bevor das Ratenlimit erreicht ist |
x-ratelimit-limit-tokens | Optional[int] | Die maximale Anzahl von Tokens, die zulässig sind, bevor das Ratenlimit erreicht ist |
x-ratelimit-reset-requests | Optional[int] | Der Zeitpunkt, zu dem das Ratenlimit zurĂĽckgesetzt wird |
x-ratelimit-reset-tokens | Optional[int] | Der Zeitpunkt, zu dem das Ratenlimit zurĂĽckgesetzt wird |
Wie Rate-Limit-Header funktionieren​
Wenn fĂĽr einen SchlĂĽssel Ratenlimits festgelegt sind
Der Proxy gibt die verbleibenden Ratenlimits fĂĽr diesen SchlĂĽssel zurĂĽck.
Wenn fĂĽr einen SchlĂĽssel keine Ratenlimits festgelegt sind
Der Proxy gibt die vom Backend-Anbieter zurĂĽckgegebenen verbleibenden Anfragen/Tokens zurĂĽck. (LiteLLM standardisiert die Antwort-Header des Backend-Anbieters, um dem OpenAI-Format zu entsprechen)
Wenn der Backend-Anbieter diese Header nicht zurĂĽckgibt, ist der Wert None.
Diese Header sind nĂĽtzlich fĂĽr Clients, um den aktuellen Status des Ratenlimits zu verstehen und ihre Anfragerate entsprechend anzupassen.
Latenz-Header​
| Header | Typ | Beschreibung |
|---|---|---|
x-litellm-response-duration-ms | float | Gesamtdauer der API-Antwort in Millisekunden |
x-litellm-overhead-duration-ms | float | LiteLLM-Verarbeitungsaufwand in Millisekunden |
Wiederholungs-/Fallback-Header​
| Header | Typ | Beschreibung |
|---|---|---|
x-litellm-attempted-retries | int | Anzahl der durchgefĂĽhrten Wiederholungsversuche |
x-litellm-attempted-fallbacks | int | Anzahl der durchgefĂĽhrten Fallback-Versuche |
x-litellm-max-fallbacks | int | Maximale Anzahl erlaubter Fallback-Versuche |
Kostenverfolgungs-Header​
| Header | Typ | Beschreibung | VerfĂĽgbar auf Pass-Through-Endpunkten |
|---|---|---|---|
x-litellm-response-cost | float | Kosten des API-Aufrufs | |
x-litellm-key-spend | float | Gesamtausgaben fĂĽr den API-SchlĂĽssel | âś… |
LiteLLM-spezifische Header​
| Header | Typ | Beschreibung | VerfĂĽgbar auf Pass-Through-Endpunkten |
|---|---|---|---|
x-litellm-call-id | string | Eindeutiger Bezeichner fĂĽr den API-Aufruf | âś… |
x-litellm-model-id | string | Eindeutiger Bezeichner fĂĽr das verwendete Modell | |
x-litellm-model-api-base | string | Basis-URL des API-Endpunkts | âś… |
x-litellm-version | string | Verwendete LiteLLM-Version | |
x-litellm-model-group | string | Modellgruppen-Bezeichner |
Antwort-Header von LLM-Anbietern​
LiteLLM gibt auch die ursprĂĽnglichen Antwort-Header des LLM-Anbieters zurĂĽck. Diese Header sind mit llm_provider- vorangestellt, um sie von den LiteLLM-Headern zu unterscheiden.
Beispiel Antwort-Header
llm_provider-openai-processing-ms: 256
llm_provider-openai-version: 2020-10-01
llm_provider-x-ratelimit-limit-requests: 30000
llm_provider-x-ratelimit-limit-tokens: 150000000