Benchmarks
Benchmarks für LiteLLM Gateway (Proxy-Server) getestet gegen einen Fake-OpenAI-Endpunkt.
Verwenden Sie diese Konfiguration für Tests
Hinweis: Wir migrieren derzeit zu aiohttp, das einen 10x höheren Durchsatz hat. Wir empfehlen die Verwendung des aiohttp_openai/ Providers für Lasttests.
model_list:
- model_name: "fake-openai-endpoint"
litellm_params:
model: aiohttp_openai/any
api_base: https://your-fake-openai-endpoint.com/chat/completions
api_key: "test"
1 Instanz LiteLLM Proxy​
Bei diesen Tests beträgt die mediane Latenz des direkten Aufrufs des Fake-OpenAI-Endpunkts 60 ms.
| Metrik | LiteLLM Proxy (1 Instanz) |
|---|---|
| RPS | 475 |
| Median-Latenz (ms) | 100 |
| Latenz-Overhead, hinzugefügt durch den LiteLLM Proxy | 40ms |
Wichtige Erkenntnisse​
- Einzelinstanz: 475 RPS @ 100 ms Latenz
- 2 LiteLLM-Instanzen: 950 RPS @ 100 ms Latenz
- 4 LiteLLM-Instanzen: 1900 RPS @ 100 ms Latenz
2 Instanzen​
Das Hinzufügen von 1 Instanz verdoppelt die RPS und behält die mediane Latenz von 100 ms - 110 ms bei.
| Metrik | LiteLLM Proxy (2 Instanzen) |
|---|---|
| Median-Latenz (ms) | 100 |
| RPS | 950 |
Maschinenspezifikationen, die für Tests verwendet wurden​
Jede Maschine, auf der LiteLLM bereitgestellt wurde, hatte die folgenden Spezifikationen
- 2 CPU
- 4 GB RAM
Logging Callbacks​
GCS Bucket Logging​
Die Verwendung eines GCS-Buckets hat keine Auswirkungen auf Latenz und RPS im Vergleich zum einfachen LiteLLM Proxy
| Metrik | Einfacher LiteLLM Proxy | LiteLLM Proxy mit GCS Bucket Logging |
|---|---|---|
| RPS | 1133.2 | 1137.3 |
| Median-Latenz (ms) | 140 | 138 |
LangSmith Logging​
Die Verwendung von LangSmith hat keine Auswirkungen auf Latenz und RPS im Vergleich zum einfachen LiteLLM Proxy
| Metrik | Einfacher LiteLLM Proxy | LiteLLM Proxy mit LangSmith |
|---|---|---|
| RPS | 1133.2 | 1135 |
| Median-Latenz (ms) | 140 | 132 |
Locust-Einstellungen​
- 2500 Benutzer
- 100 Benutzer Ramp-Up