Zum Hauptinhalt springen

Replicate

LiteLLM unterstĂĽtzt alle Modelle auf Replicate

Verwendung​

API SCHLÜSSEL​

import os 
os.environ["REPLICATE_API_KEY"] = ""

Beispielaufruf​

from litellm import completion
import os
## set ENV variables
os.environ["REPLICATE_API_KEY"] = "replicate key"

# replicate llama-3 call
response = completion(
model="replicate/meta/meta-llama-3-8b-instruct",
messages = [{ "content": "Hello, how are you?","role": "user"}]
)

Erweiterte Nutzung – Prompt-Formatierung​

LiteLLM verfĂĽgt ĂĽber Prompt-Template-Zuordnungen fĂĽr alle meta-llama llama3 instruct-Modelle. Code anzeigen

Zum Anwenden eines benutzerdefinierten Prompt-Templates

import litellm

import os
os.environ["REPLICATE_API_KEY"] = ""

# Create your own custom prompt template
litellm.register_prompt_template(
model="togethercomputer/LLaMA-2-7B-32K",
initial_prompt_value="You are a good assistant" # [OPTIONAL]
roles={
"system": {
"pre_message": "[INST] <<SYS>>\n", # [OPTIONAL]
"post_message": "\n<</SYS>>\n [/INST]\n" # [OPTIONAL]
},
"user": {
"pre_message": "[INST] ", # [OPTIONAL]
"post_message": " [/INST]" # [OPTIONAL]
},
"assistant": {
"pre_message": "\n" # [OPTIONAL]
"post_message": "\n" # [OPTIONAL]
}
}
final_prompt_value="Now answer as best you can:" # [OPTIONAL]
)

def test_replicate_custom_model():
model = "replicate/togethercomputer/LLaMA-2-7B-32K"
response = completion(model=model, messages=messages)
print(response['choices'][0]['message']['content'])
return response

test_replicate_custom_model()

Erweiterte Nutzung – Aufrufen von Replicate-Deployments​

Aufrufen eines bereitgestellten Replicate LLM Fügen Sie das Präfix replicate/deployments/ zu Ihrem Modell hinzu, damit litellm den Endpunkt deployments aufruft. Dies ruft die Bereitstellung ishaan-jaff/ishaan-mistral auf Replicate auf

response = completion(
model="replicate/deployments/ishaan-jaff/ishaan-mistral",
messages= [{ "content": "Hello, how are you?","role": "user"}]
)
Replicate Kaltstarts

Replicate-Antworten können aufgrund von Replicate-Kaltstarts 3-5 Minuten dauern. Wenn Sie versuchen, Fehler zu beheben, versuchen Sie, die Anfrage mit litellm.set_verbose=True zu stellen. Weitere Informationen zu Replicate-Kaltstarts

Replicate-Modelle​

liteLLM unterstĂĽtzt alle Replicate LLMs

Stellen Sie für Replicate-Modelle sicher, dass Sie dem Argument model ein Präfix replicate/ voranstellen. liteLLM erkennt dies anhand dieses Arguments.

Nachfolgend finden Sie Beispiele, wie Sie Replicate LLMs mit liteLLM aufrufen können

ModellnameFunktionsaufrufErforderliche OS-Variablen
replicate/llama-2-70b-chatcompletion(model='replicate/llama-2-70b-chat:2796ee9483c3fd7aa2e171d38f4ca12251a30609463dcfd4cd76703f22e96cdf', messages)os.environ['REPLICATE_API_KEY']
a16z-infra/llama-2-13b-chatcompletion(model='replicate/a16z-infra/llama-2-13b-chat:2a7f981751ec7fdf87b5b91ad4db53683a98082e9ff7bfd12c8cd5ea85980a52', messages)os.environ['REPLICATE_API_KEY']
replicate/vicuna-13bcompletion(model='replicate/vicuna-13b:6282abe6a492de4145d7bb601023762212f9ddbbe78278bd6771c8b3b2f2a13b', messages)os.environ['REPLICATE_API_KEY']
daanelson/flan-t5-largecompletion(model='replicate/daanelson/flan-t5-large:ce962b3f6792a57074a601d3979db5839697add2e4e02696b3ced4c022d4767f', messages)os.environ['REPLICATE_API_KEY']
custom-llmcompletion(model='replicate/custom-llm-version-id', messages)os.environ['REPLICATE_API_KEY']
replicate deploymentcompletion(model='replicate/deployments/ishaan-jaff/ishaan-mistral', messages)os.environ['REPLICATE_API_KEY']

Übergabe zusätzlicher Parameter - max_tokens, temperature​

Alle von litellm.completion unterstĂĽtzten Parameter finden Sie hier

# !pip install litellm
from litellm import completion
import os
## set ENV variables
os.environ["REPLICATE_API_KEY"] = "replicate key"

# replicate llama-2 call
response = completion(
model="replicate/llama-2-70b-chat:2796ee9483c3fd7aa2e171d38f4ca12251a30609463dcfd4cd76703f22e96cdf",
messages = [{ "content": "Hello, how are you?","role": "user"}],
max_tokens=20,
temperature=0.5
)

Proxy

  model_list:
- model_name: llama-3
litellm_params:
model: replicate/meta/meta-llama-3-8b-instruct
api_key: os.environ/REPLICATE_API_KEY
max_tokens: 20
temperature: 0.5

Übergeben von Replicate-spezifischen Parametern​

Senden Sie Parameter, die von litellm.completion() nicht unterstĂĽtzt werden, aber von Replicate unterstĂĽtzt werden, indem Sie sie an litellm.completion ĂĽbergeben

Beispiel: seed, min_tokens sind Replicate-spezifische Parameter

# !pip install litellm
from litellm import completion
import os
## set ENV variables
os.environ["REPLICATE_API_KEY"] = "replicate key"

# replicate llama-2 call
response = completion(
model="replicate/llama-2-70b-chat:2796ee9483c3fd7aa2e171d38f4ca12251a30609463dcfd4cd76703f22e96cdf",
messages = [{ "content": "Hello, how are you?","role": "user"}],
seed=-1,
min_tokens=2,
top_k=20,
)

Proxy

  model_list:
- model_name: llama-3
litellm_params:
model: replicate/meta/meta-llama-3-8b-instruct
api_key: os.environ/REPLICATE_API_KEY
min_tokens: 2
top_k: 20