Zum Hauptinhalt springen

Eingabenachrichten kürzen

Verwenden Sie litellm.trim_messages(), um sicherzustellen, dass Nachrichten das Token-Limit eines Modells oder die angegebene max_tokens nicht überschreiten.

Verwendung

from litellm import completion
from litellm.utils import trim_messages

response = completion(
model=model,
messages=trim_messages(messages, model) # trim_messages ensures tokens(messages) < max_tokens(model)
)

Verwendung - max_tokens festlegen

from litellm import completion
from litellm.utils import trim_messages

response = completion(
model=model,
messages=trim_messages(messages, model, max_tokens=10), # trim_messages ensures tokens(messages) < max_tokens
)

Parameter

Die Funktion verwendet die folgenden Parameter

  • messages:[Erforderlich]Dies sollte eine Liste von Eingabenachrichten sein

  • model:[Optional]Dies ist das verwendete LiteLLM-Modell. Dieser Parameter ist optional, da Sie alternativ den Parameter max_tokens angeben können.

  • max_tokens:[Optional]Dies ist eine Ganzzahl, die die obere Grenze für Nachrichten manuell festlegt

  • trim_ratio:[Optional]Dies stellt das Zielverhältnis der zu verwendenden Token nach dem Trimmen dar. Der Standardwert ist 0,75, was impliziert, dass Nachrichten so gekürzt werden, dass etwa 75 % genutzt werden.