Zum Hauptinhalt springen

Benchmarks

Benchmarks für LiteLLM Gateway (Proxy-Server) getestet gegen einen Fake-OpenAI-Endpunkt.

Verwenden Sie diese Konfiguration für Tests

Hinweis: Wir migrieren derzeit zu aiohttp, das einen 10x höheren Durchsatz hat. Wir empfehlen die Verwendung des aiohttp_openai/ Providers für Lasttests.

model_list:
- model_name: "fake-openai-endpoint"
litellm_params:
model: aiohttp_openai/any
api_base: https://your-fake-openai-endpoint.com/chat/completions
api_key: "test"

1 Instanz LiteLLM Proxy​

Bei diesen Tests beträgt die mediane Latenz des direkten Aufrufs des Fake-OpenAI-Endpunkts 60 ms.

MetrikLiteLLM Proxy (1 Instanz)
RPS475
Median-Latenz (ms)100
Latenz-Overhead, hinzugefügt durch den LiteLLM Proxy40ms

Wichtige Erkenntnisse​

  • Einzelinstanz: 475 RPS @ 100 ms Latenz
  • 2 LiteLLM-Instanzen: 950 RPS @ 100 ms Latenz
  • 4 LiteLLM-Instanzen: 1900 RPS @ 100 ms Latenz

2 Instanzen​

Das Hinzufügen von 1 Instanz verdoppelt die RPS und behält die mediane Latenz von 100 ms - 110 ms bei.

MetrikLiteLLM Proxy (2 Instanzen)
Median-Latenz (ms)100
RPS950

Maschinenspezifikationen, die für Tests verwendet wurden​

Jede Maschine, auf der LiteLLM bereitgestellt wurde, hatte die folgenden Spezifikationen

  • 2 CPU
  • 4 GB RAM

Logging Callbacks​

GCS Bucket Logging​

Die Verwendung eines GCS-Buckets hat keine Auswirkungen auf Latenz und RPS im Vergleich zum einfachen LiteLLM Proxy

MetrikEinfacher LiteLLM ProxyLiteLLM Proxy mit GCS Bucket Logging
RPS1133.21137.3
Median-Latenz (ms)140138

LangSmith Logging​

Die Verwendung von LangSmith hat keine Auswirkungen auf Latenz und RPS im Vergleich zum einfachen LiteLLM Proxy

MetrikEinfacher LiteLLM ProxyLiteLLM Proxy mit LangSmith
RPS1133.21135
Median-Latenz (ms)140132

Locust-Einstellungen​

  • 2500 Benutzer
  • 100 Benutzer Ramp-Up