/completions
Verwendung​
- LiteLLM Python SDK
- LiteLLM Proxy Server
from litellm import text_completion
response = text_completion(
model="gpt-3.5-turbo-instruct",
prompt="Say this is a test",
max_tokens=7
)
- Modelle in config.yaml definieren
model_list:
- model_name: gpt-3.5-turbo-instruct
litellm_params:
model: text-completion-openai/gpt-3.5-turbo-instruct # The `text-completion-openai/` prefix will call openai.completions.create
api_key: os.environ/OPENAI_API_KEY
- model_name: text-davinci-003
litellm_params:
model: text-completion-openai/text-davinci-003
api_key: os.environ/OPENAI_API_KEY
- LiteLLM Proxy-Server starten
litellm --config config.yaml
- OpenAI Python SDK
- Curl-Anfrage
from openai import OpenAI
# set base_url to your proxy server
# set api_key to send to proxy server
client = OpenAI(api_key="<proxy-api-key>", base_url="http://0.0.0.0:4000")
response = client.completions.create(
model="gpt-3.5-turbo-instruct",
prompt="Say this is a test",
max_tokens=7
)
print(response)
curl --location 'http://0.0.0.0:4000/completions' \
--header 'Content-Type: application/json' \
--header 'Authorization: Bearer sk-1234' \
--data '{
"model": "gpt-3.5-turbo-instruct",
"prompt": "Say this is a test",
"max_tokens": 7
}'
Eingabeparameter​
LiteLLM akzeptiert und übersetzt die OpenAI Text Completion Parameter über alle unterstützten Anbieter hinweg.
Erforderliche Felder​
model: string - ID des zu verwendenden Modellsprompt: string oder Array - Die Eingabeaufforderung(en) zur Generierung von Vervollständigungen
Optionale Felder​
best_of: integer - Generiert best_of Vervollständigungen serverseitig und gibt die "beste" zurückecho: boolean - Gibt die Eingabeaufforderung zusätzlich zur Vervollständigung zurück.frequency_penalty: number - Zahl zwischen -2,0 und 2,0. Positive Werte bestrafen neue Tokens basierend auf ihrer bestehenden Häufigkeit.logit_bias: map - Ändert die Wahrscheinlichkeit, dass bestimmte Tokens in der Vervollständigung erscheinenlogprobs: integer - Schließt die Log-Wahrscheinlichkeiten für die logprobs wahrscheinlichsten Tokens ein. Maximalwert 5max_tokens: integer - Die maximale Anzahl der zu generierenden Tokens.n: integer - Wie viele Vervollständigungen für jede Eingabeaufforderung generiert werden sollen.presence_penalty: number - Zahl zwischen -2,0 und 2,0. Positive Werte bestrafen neue Tokens basierend darauf, ob sie im bisherigen Text vorkommen.seed: integer - Wenn angegeben, versucht das System, deterministische Stichproben zu erstellenstop: string oder Array - Bis zu 4 Sequenzen, an denen die API die Generierung von Tokens stopptstream: boolean - Gibt zurück, ob Teilfortschritte gestreamt werden sollen. Standardmäßig falsesuffix: string - Der Suffix, der nach einer Vervollständigung von eingefügtem Text kommttemperature: number - Welche Sampling-Temperatur verwendet werden soll, zwischen 0 und 2.top_p: number - Eine Alternative zum Sampling mit Temperatur, genannt Nucleus Sampling.user: string - Eine eindeutige Kennung für Ihren Endbenutzer
Ausgabeformat​
Hier ist das genaue JSON-Ausgabeformat, das Sie von Vervollständigungsaufrufen erwarten können
Folgt dem Ausgabeformat von OpenAI
- Nicht-Streaming-Antwort
- Streaming-Antwort
{
"id": "cmpl-uqkvlQyYK7bGYrRHQ0eXlWi7",
"object": "text_completion",
"created": 1589478378,
"model": "gpt-3.5-turbo-instruct",
"system_fingerprint": "fp_44709d6fcb",
"choices": [
{
"text": "\n\nThis is indeed a test",
"index": 0,
"logprobs": null,
"finish_reason": "length"
}
],
"usage": {
"prompt_tokens": 5,
"completion_tokens": 7,
"total_tokens": 12
}
}
{
"id": "cmpl-7iA7iJjj8V2zOkCGvWF2hAkDWBQZe",
"object": "text_completion",
"created": 1690759702,
"choices": [
{
"text": "This",
"index": 0,
"logprobs": null,
"finish_reason": null
}
],
"model": "gpt-3.5-turbo-instruct"
"system_fingerprint": "fp_44709d6fcb",
}
Unterstützte Anbieter​
| Anbieter | Link zur Verwendung |
|---|---|
| OpenAI | Verwendung |
| Azure OpenAI | Verwendung |