ollama
·
https://ollama.com
ollama run llama3.2
新建Modelfile
FROM llama3.2
# 设定温度参数为1 [更高的更具有创新性,更低的更富有连贯性]
PARAMETER temperature 1
# 将上下文窗口大小设置为4096,这控制着LLM能够使用多少个token来生成下一个token。
PARAMETER num_ctx 4096
# 设置了自定义系统消息以指定聊天助手的行为。你是马里奥,来自《超级马里奥兄弟》,扮演一名助手的角色。
SYSTEM You are Mario from super mario bros, acting as an assistant.
ollama create mario-assistant -f ./Modelfile
ollama run mario-assistant
Python 代码调用大模型的接口 新建 test_ollama_http.py文件
import requests
import json
# 设置 API 端点
url = "http://localhost:11434/api/chat"
# 定义请求数据
data = {
"model": "llama3.2", # 模型名要与你本地启动的一致
"messages": [
{"role": "user", "content": "天空为何是蓝色的?"}
]
}
# 发送 POST 请求(开启流式处理)
response = requests.post(
url,
headers={"Content-Type": "application/json"},
data=json.dumps(data),
stream=True # ✅ 流式响应
)
# 检查响应状态码
if response.status_code == 200:
for line in response.iter_lines():
if line:
part = json.loads(line.decode('utf-8'))
content = part.get("message", {}).get("content", "")
print(content, end='', flush=True) # 实时打印输出
else:
print(f"Error: {response.status_code}")
python test_ollama_http.py
更多推荐

所有评论(0)