python通过ollama sdk阻塞和流式调用ollama模型示例

liliangcsdn

421人浏览 · 2025-08-06 10:22:07

liliangcsdn · 2025-08-06 10:22:07 发布

假设机器已经安装ollama工具，并且已经下载好了ollama模型。

这里我们使用qwen3:8b模型。

1 pip安装ollama库

pip install ollama -i https://pypi.tuna.tsinghua.edu.cn/simple

2 运行ollama示例程序

1）阻塞式调用

from ollama import chat
from ollama import ChatResponse
response: ChatResponse = chat(model='qwen3:8b', messages=[
  {
    'role': 'user',
    'content': '新疆的美食有哪些？，请将输出控制在100个字以内。',
  },
])
print(response['message']['content'])
print(response.message.content)

2）流式调用

from ollama import chat
from ollama import ChatResponse

stream = chat(
    model='qwen3:8b',
    messages=[{'role': 'user', 'content': '新疆的美食有哪些？，请将输出控制在100个字以内。'}],
    stream=True,
)

for chunk in stream:
  print(chunk['message']['content'], end='', flush=True)

reference

----

ollama qwen3

https://ollama.com/library/qwen3

ollama-python

https://github.com/ollama/ollama-python

加入AMD AI开发者计划！

免费领 200 小时云算力，进群参与显卡、AI PC 幸运抽奖

更多推荐

FlagOS Day 0 跨芯适配 GLM-5.2：发布即覆盖四款芯片，支持 vLLM + SGLang双插件

同时，FlagGems 新增 6 大领域算子库——FlagDNN、FlagBlas、FlagSparse、FlagFFT、FlagTensor、FlagAudio，覆盖科学计算与信号处理场景，共计 102 个领域算子，从"大模型专用"走向全领域覆盖。厂商目录放置后由插件自动发现加载，vLLM-Plugin-FL、SGLang-Plugin-FL、Megatron-LM-FL、Transformer