Eingabenachrichten kürzen

Verwenden Sie litellm.trim_messages(), um sicherzustellen, dass Nachrichten das Token-Limit eines Modells oder die angegebene max_tokens nicht überschreiten.

Verwendung

from litellm import completion
from litellm.utils import trim_messages

response = completion(
    model=model, 
    messages=trim_messages(messages, model) # trim_messages ensures tokens(messages) < max_tokens(model)
) 

Verwendung - max_tokens festlegen

from litellm import completion
from litellm.utils import trim_messages

response = completion(
    model=model, 
    messages=trim_messages(messages, model, max_tokens=10), # trim_messages ensures tokens(messages) < max_tokens
) 

Parameter

Die Funktion verwendet die folgenden Parameter

messages:[Erforderlich]Dies sollte eine Liste von Eingabenachrichten sein
model:[Optional]Dies ist das verwendete LiteLLM-Modell. Dieser Parameter ist optional, da Sie alternativ den Parameter max_tokens angeben können.
max_tokens:[Optional]Dies ist eine Ganzzahl, die die obere Grenze für Nachrichten manuell festlegt
trim_ratio:[Optional]Dies stellt das Zielverhältnis der zu verwendenden Token nach dem Trimmen dar. Der Standardwert ist 0,75, was impliziert, dass Nachrichten so gekürzt werden, dass etwa 75 % genutzt werden.

Eingabenachrichten kürzen

Verwendung​

Verwendung - max_tokens festlegen​

Parameter​

Verwendung

Verwendung - max_tokens festlegen

Parameter