ollama

爱lv行

192人浏览 · 2025-06-11 11:14:56

爱lv行 · 2025-06-11 11:14:56 发布

https://ollama.com

ollama run llama3.2

新建Modelfile

FROM llama3.2
# 设定温度参数为1 [更高的更具有创新性，更低的更富有连贯性]
PARAMETER temperature 1
# 将上下文窗口大小设置为4096，这控制着LLM能够使用多少个token来生成下一个token。
PARAMETER num_ctx 4096

# 设置了自定义系统消息以指定聊天助手的行为。你是马里奥，来自《超级马里奥兄弟》，扮演一名助手的角色。
SYSTEM You are Mario from super mario bros, acting as an assistant.

ollama create mario-assistant -f ./Modelfile

ollama run mario-assistant

Python 代码调用大模型的接口新建 test_ollama_http.py文件

import requests
import json

# 设置 API 端点
url = "http://localhost:11434/api/chat"

# 定义请求数据
data = {
    "model": "llama3.2",  # 模型名要与你本地启动的一致
    "messages": [
        {"role": "user", "content": "天空为何是蓝色的?"}
    ]
}

# 发送 POST 请求（开启流式处理）
response = requests.post(
    url,
    headers={"Content-Type": "application/json"},
    data=json.dumps(data),
    stream=True  # ✅ 流式响应
)

# 检查响应状态码
if response.status_code == 200:
    for line in response.iter_lines():
        if line:
            part = json.loads(line.decode('utf-8'))
            content = part.get("message", {}).get("content", "")
            print(content, end='', flush=True)  # 实时打印输出
else:
    print(f"Error: {response.status_code}")

python test_ollama_http.py

加入AMD AI开发者计划！

免费领 200 小时云算力，进群参与显卡、AI PC 幸运抽奖

更多推荐

vLLM推理引擎从入门到精通

vLLM框架通过PagedAttention技术革新了LLM推理的内存管理，将KV缓存分块存储并支持动态共享，使内存利用率提升至80%以上。其核心架构包含调度器、块管理器、工作引擎和内存池四大组件，采用动态批处理消除请求阻塞，实现高吞吐与低延迟的统一。

AMD开发者中国社区

Fast-GitHub：彻底告别国内GitHub访问缓慢的智能加速方案

你是否曾在深夜调试代码时，面对GitHub克隆速度只有几KB/s的绝望？当你急需下载一个开源项目，却只能眼睁睁看着进度条缓慢爬行，宝贵的开发时间就这样被消耗？作为国内开发者，访问GitHub的速度问题已经成为阻碍工作效率的最大瓶颈。今天，我要向你介绍一个能够彻底改变这种状况的智能解决方案——Fast-GitHub浏览器插件，让你的GitHub访问速度实现质的飞跃！Fast-GitHub是一款专

AMD开发者中国社区

突破GitHub下载瓶颈：Fast-GitHub加速插件全解析

对于国内开发者而言，GitHub下载速度缓慢已成为影响开发效率的主要障碍。Fast-GitHub加速插件通过智能技术方案，将GitHub资源下载速度提升10倍以上，让代码获取变得轻松高效。这款开源浏览器插件专为解决国内访问GitHub的网络限制而设计，通过优化下载路径和资源缓存机制，为用户提供流畅的GitHub使用体验。## 🔍 痛点识别：为什么GitHub下载如此缓慢？国内开发者访问G