Zum Hauptinhalt springen

Response Headers

Wenn Sie eine Anfrage an den Proxy senden, gibt der Proxy die folgenden Header zurĂĽck

Rate-Limit-Header​

OpenAI-kompatible Header:

HeaderTypBeschreibung
x-ratelimit-remaining-requestsOptional[int]Die verbleibende Anzahl von Anfragen, die zulässig sind, bevor das Ratenlimit erreicht ist
x-ratelimit-remaining-tokensOptional[int]Die verbleibende Anzahl von Tokens, die zulässig sind, bevor das Ratenlimit erreicht ist
x-ratelimit-limit-requestsOptional[int]Die maximale Anzahl von Anfragen, die zulässig sind, bevor das Ratenlimit erreicht ist
x-ratelimit-limit-tokensOptional[int]Die maximale Anzahl von Tokens, die zulässig sind, bevor das Ratenlimit erreicht ist
x-ratelimit-reset-requestsOptional[int]Der Zeitpunkt, zu dem das Ratenlimit zurĂĽckgesetzt wird
x-ratelimit-reset-tokensOptional[int]Der Zeitpunkt, zu dem das Ratenlimit zurĂĽckgesetzt wird

Wie Rate-Limit-Header funktionieren​

Wenn fĂĽr einen SchlĂĽssel Ratenlimits festgelegt sind

Der Proxy gibt die verbleibenden Ratenlimits fĂĽr diesen SchlĂĽssel zurĂĽck.

Wenn fĂĽr einen SchlĂĽssel keine Ratenlimits festgelegt sind

Der Proxy gibt die vom Backend-Anbieter zurĂĽckgegebenen verbleibenden Anfragen/Tokens zurĂĽck. (LiteLLM standardisiert die Antwort-Header des Backend-Anbieters, um dem OpenAI-Format zu entsprechen)

Wenn der Backend-Anbieter diese Header nicht zurĂĽckgibt, ist der Wert None.

Diese Header sind nĂĽtzlich fĂĽr Clients, um den aktuellen Status des Ratenlimits zu verstehen und ihre Anfragerate entsprechend anzupassen.

Latenz-Header​

HeaderTypBeschreibung
x-litellm-response-duration-msfloatGesamtdauer der API-Antwort in Millisekunden
x-litellm-overhead-duration-msfloatLiteLLM-Verarbeitungsaufwand in Millisekunden

Wiederholungs-/Fallback-Header​

HeaderTypBeschreibung
x-litellm-attempted-retriesintAnzahl der durchgefĂĽhrten Wiederholungsversuche
x-litellm-attempted-fallbacksintAnzahl der durchgefĂĽhrten Fallback-Versuche
x-litellm-max-fallbacksintMaximale Anzahl erlaubter Fallback-Versuche

Kostenverfolgungs-Header​

HeaderTypBeschreibungVerfĂĽgbar auf Pass-Through-Endpunkten
x-litellm-response-costfloatKosten des API-Aufrufs
x-litellm-key-spendfloatGesamtausgaben fĂĽr den API-SchlĂĽsselâś…

LiteLLM-spezifische Header​

HeaderTypBeschreibungVerfĂĽgbar auf Pass-Through-Endpunkten
x-litellm-call-idstringEindeutiger Bezeichner fĂĽr den API-Aufrufâś…
x-litellm-model-idstringEindeutiger Bezeichner fĂĽr das verwendete Modell
x-litellm-model-api-basestringBasis-URL des API-Endpunktsâś…
x-litellm-versionstringVerwendete LiteLLM-Version
x-litellm-model-groupstringModellgruppen-Bezeichner

Antwort-Header von LLM-Anbietern​

LiteLLM gibt auch die ursprĂĽnglichen Antwort-Header des LLM-Anbieters zurĂĽck. Diese Header sind mit llm_provider- vorangestellt, um sie von den LiteLLM-Headern zu unterscheiden.

Beispiel Antwort-Header

llm_provider-openai-processing-ms: 256
llm_provider-openai-version: 2020-10-01
llm_provider-x-ratelimit-limit-requests: 30000
llm_provider-x-ratelimit-limit-tokens: 150000000