Eingabenachrichten kürzen
Verwenden Sie litellm.trim_messages(), um sicherzustellen, dass Nachrichten das Token-Limit eines Modells oder die angegebene max_tokens nicht überschreiten.
Verwendung
from litellm import completion
from litellm.utils import trim_messages
response = completion(
model=model,
messages=trim_messages(messages, model) # trim_messages ensures tokens(messages) < max_tokens(model)
)
Verwendung - max_tokens festlegen
from litellm import completion
from litellm.utils import trim_messages
response = completion(
model=model,
messages=trim_messages(messages, model, max_tokens=10), # trim_messages ensures tokens(messages) < max_tokens
)
Parameter
Die Funktion verwendet die folgenden Parameter
messages:[Erforderlich]Dies sollte eine Liste von Eingabenachrichten seinmodel:[Optional]Dies ist das verwendete LiteLLM-Modell. Dieser Parameter ist optional, da Sie alternativ den Parametermax_tokensangeben können.max_tokens:[Optional]Dies ist eine Ganzzahl, die die obere Grenze für Nachrichten manuell festlegttrim_ratio:[Optional]Dies stellt das Zielverhältnis der zu verwendenden Token nach dem Trimmen dar. Der Standardwert ist 0,75, was impliziert, dass Nachrichten so gekürzt werden, dass etwa 75 % genutzt werden.