Qwen3-1.7B从入门到应用：本地部署+API封装教程

彭喵喵

14人浏览 · 2026-03-06 02:02:17

彭喵喵 · 2026-03-06 02:02:17 发布

Qwen3-1.7B从入门到应用：本地部署+API封装教程

1. 为什么现在就要试试本地部署Qwen3-1.7B？

如果你还在犹豫要不要自己动手部署一个大模型，觉得这事儿太复杂、太麻烦，那今天这篇文章就是为你准备的。我最近花时间把Qwen3-1.7B这个模型从部署到封装成API的整个流程跑了一遍，发现它比想象中简单得多。

Qwen3-1.7B是阿里巴巴开源的最新轻量级大模型，只有17亿参数，但能力一点都不弱。最关键的是，它能在普通的消费级显卡上跑起来，不需要什么高端设备。我用的就是一张8GB显存的RTX 3060，整个过程非常顺畅。

你可能想问：为什么要在本地部署？直接用在线服务不香吗？我刚开始也这么想，但试过之后发现，本地部署有几个实实在在的好处：

第一，数据安全。你的所有对话、所有问题都在自己的机器上处理，不用担心隐私泄露。第二，响应速度快。不用等待网络传输，模型推理几乎是实时的。第三，完全免费。一次部署，无限使用，没有API调用费用。

更重要的是，当你把模型部署好之后，可以把它封装成API，然后集成到自己的应用里。比如做个智能客服、文档助手，或者任何需要AI能力的工具，都非常方便。

下面我就带你一步步走完整个流程，从启动镜像到封装API，保证你能跟着做出来。

2. 第一步：快速启动Qwen3-1.7B镜像

2.1 找到并启动镜像

整个过程从CSDN的AI镜像平台开始，这是最省事的方法。你不用自己去配置Python环境、安装CUDA驱动、下载模型文件，这些麻烦事平台都帮你搞定了。

打开浏览器，访问CSDN星图AI平台。在搜索框里输入“Qwen3-1.7B”，很快就能找到对应的镜像。你会看到镜像的描述信息，确认是阿里巴巴开源的Qwen3系列模型。

点击那个醒目的“一键部署”按钮。平台会提示你选择资源配置，这里有个小建议：如果你只是想测试和体验，选择最低配置的GPU实例就行。Qwen3-1.7B对硬件要求不高，8GB显存的显卡完全够用。

选择好配置后，确认创建实例。平台会自动开始拉取镜像、配置环境，这个过程大概需要3-5分钟。你可以去泡杯茶，回来的时候环境就准备好了。

2.2 进入Jupyter操作界面

实例创建成功后，平台会提供一个访问地址。这个地址的格式通常是这样的：

https://你的实例ID.web.gpu.csdn.net:8000

把地址复制到浏览器里打开，第一次访问需要输入Token。Token在哪里找？就在实例的详情页面里，很显眼的位置，复制粘贴就行。

进入之后，你会看到一个熟悉的Jupyter Notebook界面。左边是文件列表，右边是编辑区域。这就是我们接下来要操作的地方。

这里有个细节需要注意：地址里的端口号必须是8000。如果你发现地址不对，或者访问不了，首先检查端口号是不是8000。有时候平台可能会用其他端口，但Qwen3-1.7B镜像默认就是用8000端口提供服务。

3. 第二步：用最简单的方式调用模型

3.1 理解调用原理

在开始写代码之前，我们先搞清楚一件事：怎么跟这个模型对话？

Qwen3-1.7B提供了一个兼容OpenAI API的接口。这是什么意思呢？就是说，你可以用调用ChatGPT同样的方式来调用它。如果你之前用过OpenAI的API，那几乎不需要学习新的东西。

平台已经帮我们把模型服务跑起来了，现在这个服务就在https://你的实例地址:8000/v1这个地址上监听请求。我们只需要告诉代码：“嘿，去这个地址找模型聊天”，剩下的就交给代码去处理。

3.2 写第一行调用代码

在Jupyter里新建一个Python笔记本，我们开始写代码。首先导入必要的库：

from langchain_openai import ChatOpenAI

LangChain是个很好用的工具，它把跟大模型交互的复杂细节都封装起来了。我们用它的ChatOpenAI类，这个类本来是设计用来跟OpenAI的ChatGPT对话的，但因为Qwen3-1.7B兼容OpenAI API，所以也能用。

接下来配置模型参数：

chat_model = ChatOpenAI(
    model="Qwen3-1.7B",
    temperature=0.5,
    base_url="https://gpu-pod69523bb78b8ef44ff14daa57-8000.web.gpu.csdn.net/v1",
    api_key="EMPTY",
    extra_body={
        "enable_thinking": True,
        "return_reasoning": True,
    },
    streaming=True,
)

我来解释一下这几个参数是干什么的：

model="Qwen3-1.7B"：告诉服务我们要用哪个模型。虽然服务上可能只有一个模型，但写上名字是个好习惯。
temperature=0.5：控制模型回答的随机性。0表示完全确定性的回答，1表示非常随机。0.5是个不错的中间值，既有创意又不至于太离谱。
base_url：这是最重要的参数，告诉代码模型服务在哪里。你需要把这里的地址换成你自己的实例地址。
api_key="EMPTY"：因为是在本地环境，不需要API密钥验证，所以填"EMPTY"就行。
extra_body：这里启用了两个特殊功能。enable_thinking让模型展示它的思考过程，return_reasoning让模型把推理步骤也返回给我们。这对理解模型怎么得出答案很有帮助。
streaming=True：启用流式输出。意思是模型生成回答时，会一个字一个字地返回，而不是等全部生成完再一次性返回。这样用户体验更好。

3.3 问第一个问题

配置好模型后，我们来问个简单的问题测试一下：

response = chat_model.invoke("你是谁？")
print(response.content)

运行这行代码，你会看到模型开始思考，然后给出回答。它可能会说：“我是Qwen3，一个由阿里巴巴开发的大语言模型...”之类的。

如果一切正常，恭喜你！你已经成功调用了本地部署的Qwen3-1.7B模型。如果出错了，最常见的原因是base_url地址不对。确保地址完全正确，包括https://开头和/v1结尾。

4. 第三步：让模型真正帮你干活

4.1 测试不同场景下的能力

模型能回答“你是谁”这样的简单问题，这很好，但我们更关心它能不能解决实际问题。我们来试试几个不同的场景：

# 测试编程能力
code_question = "写一个Python函数，计算斐波那契数列的第n项"
code_response = chat_model.invoke(code_question)
print("编程问题回答：")
print(code_response.content)
print("\n" + "="*50 + "\n")

# 测试知识问答
knowledge_question = "解释一下量子计算的基本原理"
knowledge_response = chat_model.invoke(knowledge_question)
print("知识问题回答：")
print(knowledge_response.content)
print("\n" + "="*50 + "\n")

# 测试创意写作
creative_question = "写一个关于人工智能帮助环境保护的短故事开头"
creative_response = chat_model.invoke(creative_question)
print("创意写作回答：")
print(creative_response.content)

运行这段代码，看看模型在不同类型问题上的表现。你会发现，虽然Qwen3-1.7B是个小模型，但在很多任务上表现相当不错。

4.2 体验流式输出的魅力

前面我们设置了streaming=True，但还没真正体验流式输出的效果。让我们专门试试这个功能：

from langchain_core.callbacks import StreamingStdOutCallbackHandler

# 专门为流式输出创建一个模型实例
streaming_model = ChatOpenAI(
    model="Qwen3-1.7B",
    streaming=True,
    callbacks=[StreamingStdOutCallbackHandler()],  # 这个回调函数让输出直接显示
    base_url="https://gpu-pod69523bb78b8ef44ff14daa57-8000.web.gpu.csdn.net/v1",
    api_key="EMPTY",
    temperature=0.7  # 调高一点，让回答更有创意
)

print("问：请用一段话描述未来的智能城市")
print("答：", end="")
streaming_model.invoke("请用一段话描述未来的智能城市")

运行这段代码，你会看到文字不是一个完整的段落突然出现，而是一个字一个字地显示出来，就像有人在打字一样。这种体验比等待完整回答要有趣得多，特别是当回答比较长的时候。

4.3 保持对话的连续性

在实际应用中，我们经常需要跟模型进行多轮对话。比如先问“Python怎么学”，然后基于它的回答继续问“那具体怎么安装Python呢”。这就需要模型记住之前的对话内容。

LangChain提供了记忆功能，可以很方便地实现这一点：

from langchain.memory import ConversationBufferMemory
from langchain.chains import ConversationChain

# 创建记忆对象
memory = ConversationBufferMemory()

# 创建对话链
conversation = ConversationChain(
    llm=chat_model,
    memory=memory,
    verbose=True  # 显示详细过程，方便调试
)

# 第一轮对话
print("第一轮：")
result1 = conversation.predict(input="我想学习Python编程，应该从哪里开始？")
print(f"AI: {result1}\n")

# 第二轮对话，模型会记得之前的内容
print("第二轮：")
result2 = conversation.predict(input="你刚才说的那些学习资源，哪些是免费的？")
print(f"AI: {result2}\n")

# 查看记忆内容
print("当前对话历史：")
print(memory.load_memory_variables({}))

运行这段代码，你会看到在第二轮对话时，模型记得第一轮的内容，并且能基于之前的回答给出更具体的建议。这就是对话记忆的作用。

5. 第四步：把模型封装成Web API

5.1 为什么要封装成API？

到现在为止，我们都是在Jupyter笔记本里跟模型对话。这适合开发和测试，但不适合实际应用。想象一下，你做了一个智能客服系统，不可能让每个用户都打开Jupyter来提问吧？

我们需要把模型包装成一个Web服务，这样任何能发送HTTP请求的程序都能调用它。这就是API的作用。

我们将使用FastAPI来创建这个Web服务。FastAPI是个现代、快速的Python Web框架，特别适合创建API。

5.2 创建API服务

在Jupyter里新建一个Python文件，命名为api_service.py，然后写入以下代码：

from fastapi import FastAPI
from pydantic import BaseModel
from langchain_openai import ChatOpenAI
import uvicorn

# 创建FastAPI应用
app = FastAPI(title="Qwen3-1.7B API服务", version="1.0.0")

# 定义请求数据格式
class ChatRequest(BaseModel):
    question: str
    temperature: float = 0.5  # 可选参数，默认0.5

# 初始化模型（全局变量，只需初始化一次）
chat_model = ChatOpenAI(
    model="Qwen3-1.7B",
    base_url="https://gpu-pod69523bb78b8ef44ff14daa57-8000.web.gpu.csdn.net/v1",
    api_key="EMPTY",
    streaming=False  # API服务通常不需要流式输出
)

# 创建聊天接口
@app.post("/chat")
async def chat_with_model(request: ChatRequest):
    """
    与Qwen3-1.7B模型对话
    """
    try:
        # 设置温度参数
        chat_model.temperature = request.temperature
        
        # 调用模型
        response = chat_model.invoke(request.question)
        
        return {
            "status": "success",
            "answer": response.content,
            "model": "Qwen3-1.7B"
        }
    except Exception as e:
        return {
            "status": "error",
            "message": str(e)
        }

# 健康检查接口
@app.get("/health")
async def health_check():
    return {"status": "healthy", "model": "Qwen3-1.7B"}

# 启动服务
if __name__ == "__main__":
    uvicorn.run(app, host="0.0.0.0", port=8080)

这段代码做了几件事：

创建了一个FastAPI应用
定义了请求的数据格式（需要什么问题，可选的温度参数）
初始化了模型（注意这里streaming=False，因为API通常返回完整回答）
创建了/chat接口来处理对话请求
创建了/health接口用于健康检查
最后设置了服务启动参数

5.3 运行和测试API

保存文件后，在终端里运行：

python api_service.py

你会看到类似这样的输出：

INFO:     Started server process [12345]
INFO:     Waiting for application startup.
INFO:     Application startup complete.
INFO:     Uvicorn running on http://0.0.0.0:8080

服务已经启动了！现在可以用任何能发送HTTP请求的工具来测试它。

打开另一个终端，或者用Python代码测试：

import requests
import json

# API地址
api_url = "http://localhost:8080/chat"

# 准备请求数据
request_data = {
    "question": "用Python写一个快速排序算法",
    "temperature": 0.3  # 低温度，让回答更确定
}

# 发送请求
response = requests.post(api_url, json=request_data)

# 打印结果
if response.status_code == 200:
    result = response.json()
    print("状态:", result["status"])
    print("回答:", result["answer"])
else:
    print("请求失败:", response.status_code)

如果一切正常，你会得到模型的回答。现在你的Qwen3-1.7B模型已经可以通过HTTP接口调用了！

5.4 创建简单的网页界面

只有API还不够友好，我们再加一个简单的网页界面，让不熟悉编程的人也能用。创建index.html文件：

<!DOCTYPE html>
<html>
<head>
    <title>Qwen3-1.7B 聊天界面</title>
    <style>
        body {
            font-family: Arial, sans-serif;
            max-width: 800px;
            margin: 0 auto;
            padding: 20px;
            background-color: #f5f5f5;
        }
        .chat-container {
            background: white;
            border-radius: 10px;
            padding: 20px;
            box-shadow: 0 2px 10px rgba(0,0,0,0.1);
        }
        .message {
            margin: 15px 0;
            padding: 10px;
            border-radius: 5px;
        }
        .user-message {
            background-color: #e3f2fd;
            text-align: right;
        }
        .ai-message {
            background-color: #f5f5f5;
        }
        #question {
            width: 100%;
            padding: 10px;
            font-size: 16px;
            border: 1px solid #ddd;
            border-radius: 5px;
            margin-bottom: 10px;
        }
        button {
            background-color: #2196f3;
            color: white;
            border: none;
            padding: 10px 20px;
            border-radius: 5px;
            cursor: pointer;
            font-size: 16px;
        }
        button:hover {
            background-color: #1976d2;
        }
        .loading {
            display: none;
            color: #666;
            font-style: italic;
        }
    </style>
</head>
<body>
    <div class="chat-container">
        <h2>Qwen3-1.7B 智能助手</h2>
        
        <div id="chat-history">
            <!-- 对话历史会显示在这里 -->
        </div>
        
        <div>
            <input type="text" id="question" placeholder="输入你的问题..." />
            <button onclick="sendQuestion()">发送</button>
            <div class="loading" id="loading">AI正在思考...</div>
        </div>
    </div>

    <script>
        // 添加消息到对话历史
        function addMessage(sender, text) {
            const history = document.getElementById('chat-history');
            const messageDiv = document.createElement('div');
            messageDiv.className = `message ${sender}-message`;
            messageDiv.innerHTML = `<strong>${sender}:</strong> ${text}`;
            history.appendChild(messageDiv);
            // 滚动到底部
            history.scrollTop = history.scrollHeight;
        }
        
        // 发送问题到API
        async function sendQuestion() {
            const questionInput = document.getElementById('question');
            const question = questionInput.value.trim();
            
            if (!question) {
                alert('请输入问题');
                return;
            }
            
            // 显示用户消息
            addMessage('你', question);
            
            // 清空输入框
            questionInput.value = '';
            
            // 显示加载中
            document.getElementById('loading').style.display = 'block';
            
            try {
                // 发送请求到我们的API
                const response = await fetch('http://localhost:8080/chat', {
                    method: 'POST',
                    headers: {
                        'Content-Type': 'application/json'
                    },
                    body: JSON.stringify({
                        question: question,
                        temperature: 0.5
                    })
                });
                
                const result = await response.json();
                
                if (result.status === 'success') {
                    addMessage('AI', result.answer);
                } else {
                    addMessage('系统', '抱歉，出错了：' + result.message);
                }
            } catch (error) {
                addMessage('系统', '网络错误：' + error.message);
            } finally {
                // 隐藏加载中
                document.getElementById('loading').style.display = 'none';
            }
        }
        
        // 按回车键发送
        document.getElementById('question').addEventListener('keypress', function(e) {
            if (e.key === 'Enter') {
                sendQuestion();
            }
        });
        
        // 初始欢迎消息
        addMessage('AI', '你好！我是Qwen3-1.7B，有什么可以帮你的吗？');
    </script>
</body>
</html>

这个网页界面很简单，但功能完整：