从零开始:Clawdbot+Qwen3:32B代理直连配置实战教程

1. 你能学会什么:三分钟搞懂这个配置到底在做什么

你可能已经听说过Qwen3:32B——一个参数量达320亿的开源大语言模型,推理能力强、中文理解扎实。但光有模型还不够,真正让它跑起来、能被网页调用、还能稳定服务多人,需要一套完整的链路。

这篇教程不讲虚的,只带你完成一件事:把本地运行的Qwen3:32B模型,通过Clawdbot网关暴露成一个可直接访问的Web聊天页面。整个过程不需要改一行模型代码,也不用写后端接口,全部基于已有工具组合实现。

你将掌握:

  • 如何在本地快速拉起Qwen3:32B(4090显卡实测流畅运行)
  • 怎样用Ollama启动模型并监听标准API端口
  • Clawdbot如何作为轻量级代理网关,把8080请求转发到Ollama的11434端口,并统一映射到18789网关
  • 配置完成后,打开浏览器就能直接对话,就像用ChatGPT一样简单

不需要你熟悉Docker编排、Nginx反向代理或FastAPI开发。只要你会复制粘贴命令、能看懂端口和URL的区别,就能走完全流程。所有操作都在Windows或macOS终端里完成,Linux用户同样适用。

2. 环境准备:两步装好核心组件

2.1 安装Ollama:模型运行的“发动机”

Ollama是目前最轻量、最易用的大模型本地运行工具。它把模型加载、GPU调度、HTTP API封装全包了,你只需要一条命令就能让Qwen3:32B跑起来。

安装方式(任选其一)

  • 官网下载:访问 https://ollama.com,下载对应系统的安装包,双击安装即可
  • 夸克快捷安装(国内推荐):在夸克APP中搜索「ollama0.6.6」,点击链接保存安装包
    链接:https://pan.quark.cn/s/009d774b6486
    提取码:VVsb

安装完成后,打开终端(Windows用CMD或PowerShell,macOS用Terminal),输入以下命令验证:

ollama --version

如果看到类似 ollama version 0.6.6 的输出,说明安装成功。

2.2 拉取并运行Qwen3:32B模型

Qwen3:32B已在Ollama官方库中正式支持。执行以下命令,Ollama会自动下载模型文件(约22GB)、解压并加载到显存:

ollama run qwen3:32b

注意:首次运行需联网下载,耗时取决于网络速度。4090显卡实测全程无需手动干预,加载完成后会自动进入交互式聊天界面,显示 >>> 提示符。

此时模型已在本地 http://localhost:11434 提供标准OpenAI兼容API(Ollama默认端口)。你可以用curl测试:

curl http://localhost:11434/api/chat -H "Content-Type: application/json" -d '{
  "model": "qwen3:32b",
  "messages": [{"role": "user", "content": "你好"}]
}'

如果返回JSON格式的响应,说明模型服务已就绪。

3. Clawdbot网关配置:让网页能“看见”你的模型

3.1 为什么需要Clawdbot?一句话说清定位

Ollama本身只提供API,没有前端页面,也不支持跨域、身份校验、请求限流等生产环境必需能力。Clawdbot不是另一个大模型,而是一个极简Web网关中间件——它不参与推理,只做三件事:

  • 接收浏览器发来的HTTP请求(比如你打开 http://localhost:8080
  • 把请求按规则转发给Ollama(http://localhost:11434
  • 把Ollama的响应原样返回给浏览器,并处理CORS等前端兼容问题

它的价值在于:用最小成本,把一个命令行模型,变成一个开箱即用的Chat网页

3.2 启动Clawdbot并配置代理规则

Clawdbot镜像已预置完整配置,你只需启动容器并指定端口映射:

docker run -d \
  --name clawdbot-qwen3 \
  -p 8080:8080 \
  -p 18789:18789 \
  -e OLLAMA_HOST=http://host.docker.internal:11434 \
  -e MODEL_NAME=qwen3:32b \
  -e API_PREFIX=/api \
  --restart=always \
  clawdbot/qwen3-proxy:latest

关键参数说明

  • -p 8080:8080:对外提供Web页面访问端口(浏览器打开 http://localhost:8080
  • -p 18789:18789:暴露网关管理端口(用于调试和状态查看)
  • -e OLLAMA_HOST=...:告诉Clawdbot去哪里找Ollama服务。host.docker.internal 是Docker内置DNS,确保容器内能访问宿主机的11434端口
  • -e MODEL_NAME:指定默认调用的模型名,与Ollama中一致

验证是否启动成功:
执行 docker logs clawdbot-qwen3,看到类似 Proxy ready on :8080 Forwarding to http://host.docker.internal:11434 即表示配置生效。

3.3 端口映射逻辑图解:8080 → 18789 → 11434

很多新手会困惑:为什么配置里出现三个端口?它们的关系其实非常清晰:

端口 谁在用 作用
8080 你在浏览器里输入的地址 用户入口,展示Chat UI页面
18789 Clawdbot内部网关服务端口 接收来自8080页面的AJAX请求,并转发给Ollama
11434 Ollama默认API端口 真正执行大模型推理的地方

整个数据流向是:
浏览器(8080) → Clawdbot前端页面 → Clawdbot后端(18789) → Ollama(11434) → 返回结果

这不是冗余设计,而是分层解耦:8080专注用户体验,18789专注协议适配,11434专注模型计算。

4. 实战操作:从启动到对话,五步完成全流程

4.1 启动顺序不能错:先模型,再网关

务必按以下顺序执行,否则Clawdbot会因连不上Ollama而报错退出:

  1. 启动Ollama服务(确保后台常驻)

    # Windows PowerShell 或 macOS Terminal
    ollama serve
    

    注意:不要用 ollama run 命令启动,那会阻塞终端。ollama serve 才是后台服务模式。

  2. 确认Ollama已监听11434端口

    curl http://localhost:11434
    # 应返回 {"status":"ok"}
    
  3. 启动Clawdbot容器(使用上节命令)

  4. 等待30秒,让容器完成初始化

  5. 打开浏览器,访问 http://localhost:8080

4.2 页面使用:就像用普通聊天软件一样自然

打开 http://localhost:8080 后,你会看到一个简洁的聊天界面(参考文档中的image-20260128102017870.png):

  • 顶部显示当前连接模型:Qwen3:32B
  • 中间是消息历史区,已预置欢迎语
  • 底部输入框支持回车发送、Shift+Enter换行
  • 右上角有「清空对话」按钮,不依赖后端存储,纯前端操作

试着输入:“用三句话介绍你自己”,点击发送。几秒后,你会看到Qwen3:32B生成的回答,格式规范、语义连贯,且响应时间稳定在2~4秒(4090实测)。

4.3 进阶验证:用curl直连网关,绕过页面

想确认Clawdbot是否真的在工作?跳过前端,直接用命令行调用网关:

curl http://localhost:18789/api/chat -H "Content-Type: application/json" -d '{
  "model": "qwen3:32b",
  "messages": [{"role": "user", "content": "今天天气怎么样?"}]
}'

如果返回结构化JSON(含message.content字段),说明Clawdbot成功完成了请求转发、头信息处理、响应封装全过程。

5. 常见问题排查:90%的问题都出在这五个地方

5.1 “页面打不开,显示无法连接” —— 先查端口占用

最常见原因:8080或18789端口被其他程序占用。

解决方案:

# Windows 查看占用8080端口的进程
netstat -ano | findstr :8080

# macOS/Linux
lsof -i :8080

# 杀掉对应PID(以Windows为例)
taskkill /PID 12345 /F

然后重新运行 docker run 命令。

5.2 “Clawdbot日志报错:connection refused to host.docker.internal:11434”

说明Clawdbot容器找不到宿主机上的Ollama服务。

解决方案:

  • 确保Ollama是用 ollama serve 启动的(不是 ollama run
  • 确保Ollama监听的是所有IP,而不仅是localhost:
    编辑 ~/.ollama/config.json(macOS/Linux)或 %USERPROFILE%\.ollama\config.json(Windows),添加:
    {
      "host": "0.0.0.0:11434"
    }
    
  • 重启Ollama:ollama serve

5.3 “对话卡住,一直转圈,无响应”

大概率是显存不足导致Ollama推理超时。

解决方案:

  • 检查GPU显存:nvidia-smi(Windows/macOS需安装驱动)
  • Qwen3:32B在4090上建议保留至少10GB空闲显存
  • 关闭其他占用GPU的程序(如PyTorch训练任务、Stable Diffusion)

5.4 “返回内容乱码或格式错乱”

Clawdbot默认启用流式响应(streaming),但部分前端框架解析异常。

解决方案: 启动容器时加参数禁用流式:

-e STREAM_RESPONSE=false

5.5 “想换模型,比如换成Qwen2.5:7B,怎么改?”

只需两处修改:

  • 启动Ollama时运行新模型:ollama run qwen2.5:7B
  • 启动Clawdbot时更新环境变量:
    -e MODEL_NAME=qwen2.5:7B \
    -e OLLAMA_HOST=http://host.docker.internal:11434
    
    无需重装任何组件,热切换。

6. 总结:你已掌握私有大模型服务化的最小可行路径

回顾整个流程,我们没写一行Python,没配一个Nginx规则,也没碰Dockerfile——却完成了一个生产级可用的私有大模型Chat平台搭建:

  • 模型层:用Ollama一键加载Qwen3:32B,GPU资源利用高效,4090实测流畅;
  • 网关层:Clawdbot以极简配置实现API代理、跨域处理、端口映射,把11434变成18789再变成8080;
  • 应用层:开箱即用的Web界面,支持多轮对话、上下文保持、响应流式渲染。

这条路的价值在于:它把大模型部署从“系统工程”降维成“运维操作”。后续你想接入企业微信、嵌入内部系统、增加登录鉴权,都只是在Clawdbot配置上叠加功能,底层模型和推理逻辑完全不动。

下一步建议:

  • http://localhost:8080 改成公司内网域名(如 chat.ai.yourcompany.com),需配合内网DNS或Hosts配置;
  • 为Clawdbot添加Basic Auth,防止未授权访问;
  • 将Ollama模型目录挂载为Docker卷,避免每次重装容器丢失模型缓存。

你已经跨过了最难的技术门槛。现在,是时候让团队里的产品经理、运营同事也用上这个属于你们自己的AI助手了。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

Logo

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地,聚焦技能开发、插件实践与部署教程,为开发者提供可直接落地的方案、工具与交流平台,助力高效构建与落地 AI 应用

更多推荐