Benchmarks

Benchmarks für LiteLLM Gateway (Proxy-Server) getestet gegen einen Fake-OpenAI-Endpunkt.

Verwenden Sie diese Konfiguration für Tests

Hinweis: Wir migrieren derzeit zu aiohttp, das einen 10x höheren Durchsatz hat. Wir empfehlen die Verwendung des aiohttp_openai/ Providers für Lasttests.

model_list:
  - model_name: "fake-openai-endpoint"
    litellm_params:
      model: aiohttp_openai/any
      api_base: https://your-fake-openai-endpoint.com/chat/completions
      api_key: "test"

1 Instanz LiteLLM Proxy

Bei diesen Tests beträgt die mediane Latenz des direkten Aufrufs des Fake-OpenAI-Endpunkts 60 ms.

Metrik	LiteLLM Proxy (1 Instanz)
RPS	475
Median-Latenz (ms)	100
Latenz-Overhead, hinzugefügt durch den LiteLLM Proxy	40ms

Wichtige Erkenntnisse

Einzelinstanz: 475 RPS @ 100 ms Latenz
2 LiteLLM-Instanzen: 950 RPS @ 100 ms Latenz
4 LiteLLM-Instanzen: 1900 RPS @ 100 ms Latenz

2 Instanzen

Das Hinzufügen von 1 Instanz verdoppelt die RPS und behält die mediane Latenz von 100 ms - 110 ms bei.

Metrik	LiteLLM Proxy (2 Instanzen)
Median-Latenz (ms)	100
RPS	950

Maschinenspezifikationen, die für Tests verwendet wurden

Jede Maschine, auf der LiteLLM bereitgestellt wurde, hatte die folgenden Spezifikationen

2 CPU
4 GB RAM

Logging Callbacks

GCS Bucket Logging

Die Verwendung eines GCS-Buckets hat keine Auswirkungen auf Latenz und RPS im Vergleich zum einfachen LiteLLM Proxy

Metrik	Einfacher LiteLLM Proxy	LiteLLM Proxy mit GCS Bucket Logging
RPS	1133.2	1137.3
Median-Latenz (ms)	140	138

LangSmith Logging

Die Verwendung von LangSmith hat keine Auswirkungen auf Latenz und RPS im Vergleich zum einfachen LiteLLM Proxy

Metrik	Einfacher LiteLLM Proxy	LiteLLM Proxy mit LangSmith
RPS	1133.2	1135
Median-Latenz (ms)	140	132

Locust-Einstellungen

2500 Benutzer
100 Benutzer Ramp-Up

Benchmarks

1 Instanz LiteLLM Proxy​

Wichtige Erkenntnisse​

2 Instanzen​

Maschinenspezifikationen, die für Tests verwendet wurden​

Logging Callbacks​

GCS Bucket Logging​

LangSmith Logging​

Locust-Einstellungen​