Spring Boot 3 + Ollama + Qwen：5分钟在Windows 11上搭建你的第一个本地AI接口

weixin_30376083

298人浏览 · 2026-06-02 10:51:25

weixin_30376083 · 2026-06-02 10:51:25 发布

Spring Boot 3 + Ollama + Qwen：5分钟在Windows 11上搭建你的第一个本地AI接口

最近两年，本地化运行大语言模型的技术突飞猛进，让开发者能够在自己的机器上就能体验强大的AI能力。作为一名Java开发者，你可能已经习惯了使用云服务提供的API，但有没有想过在自己的Windows电脑上就能运行一个完全本地的AI服务？本文将带你快速实现这个目标。

我们将使用Spring Boot 3作为后端框架，结合Ollama这个轻量级的大模型运行环境，以及阿里云的Qwen模型，在Windows 11系统上搭建一个完整的本地AI接口。整个过程只需要5分钟，你就能拥有一个可以自由调用的AI服务，无需担心网络延迟、隐私泄露或API调用限制。

1. 环境准备与Ollama安装

在开始之前，确保你的开发环境满足以下要求：

Windows 11操作系统（建议版本22H2或更新）
JDK 17或更高版本
Maven 3.6.3或更高版本
至少16GB内存（运行大模型需要较多内存）
50GB以上的可用磁盘空间（模型文件较大）

1.1 下载和安装Ollama

Ollama是一个开源的本地大模型运行环境，支持多种主流模型。安装过程非常简单：

访问Ollama官网下载Windows版本安装包
双击安装包完成基础安装（默认会安装在C盘）
验证安装是否成功：打开命令提示符，输入 ollama --version

注意：虽然Ollama本身安装包不大，但后续下载的模型文件可能达到几十GB，建议提前规划存储位置。

1.2 配置模型存储路径

为了避免C盘空间被占满，我们需要自定义模型存储位置：

打开系统属性 -> 高级 -> 环境变量
新建系统变量：
- 变量名：OLLAMA_MODELS
- 变量值：D:\ollama_models（替换为你想要的路径）
保存后重启电脑使配置生效

验证配置是否成功：

echo %OLLAMA_MODELS%

应该显示你设置的路径。

1.3 下载Qwen模型

Qwen是阿里云开源的大语言模型，有多个版本可供选择。对于初次体验，我们可以从较小的模型开始：

ollama pull qwen:0.5b-chat

这个命令会下载Qwen的0.5B参数量的聊天专用版本，下载完成后会自动存储在之前配置的目录中。

2. 创建Spring Boot项目

现在我们来创建一个新的Spring Boot项目，集成Ollama提供的本地AI能力。

2.1 初始化项目

使用你喜欢的IDE（如IntelliJ IDEA）创建一个新的Spring Boot项目，或者通过Spring Initializr生成：

项目类型：Maven
语言：Java
Spring Boot版本：3.2.x
打包方式：Jar
Java版本：17

2.2 添加必要依赖

由于Spring AI相关库还未正式发布到Maven中央仓库，我们需要添加Spring的里程碑仓库：

<repositories>
    <repository>
        <id>spring-milestones</id>
        <name>Spring Milestones</name>
        <url>https://repo.spring.io/milestone</url>
        <snapshots>
            <enabled>false</enabled>
        </snapshots>
    </repository>
</repositories>

<dependencies>
    <dependency>
        <groupId>org.springframework.ai</groupId>
        <artifactId>spring-ai-ollama-spring-boot-starter</artifactId>
        <version>0.8.1</version>
    </dependency>
    <!-- 其他Spring Boot基础依赖 -->
</dependencies>

2.3 配置应用属性

在 application.yml 中添加Ollama相关配置：

spring:
  ai:
    ollama:
      base-url: http://localhost:11434
      chat:
        options:
          model: qwen:0.5b-chat

这里 11434 是Ollama默认的API端口，确保Ollama服务正在运行。

3. 实现AI接口

现在我们可以创建一个简单的REST控制器来调用本地运行的Qwen模型。

3.1 基础聊天接口

@RestController
@RequestMapping("/api/ai")
public class AIController {
    
    private final OllamaChatClient chatClient;
    
    public AIController(OllamaChatClient chatClient) {
        this.chatClient = chatClient;
    }
    
    @GetMapping("/chat")
    public String chat(@RequestParam String message) {
        return chatClient.call(message);
    }
}

这个简单的接口已经可以处理基本的聊天请求。启动应用后，你可以通过以下URL测试：

http://localhost:8080/api/ai/chat?message=你好，介绍一下你自己

3.2 高级参数配置

大语言模型通常支持多种参数来调整生成结果，比如温度(temperature)参数。我们可以创建一个更高级的接口：

@PostMapping("/chat/advanced")
public ChatResponse advancedChat(@RequestBody ChatRequest request) {
    Prompt prompt = new Prompt(
        request.getMessage(),
        OllamaOptions.create()
            .withModel("qwen:0.5b-chat")
            .withTemperature(request.getTemperature())
    );
    return chatClient.call(prompt);
}

// 简单的请求DTO
public record ChatRequest(String message, float temperature) {}

温度参数的范围通常是0.1到2.0：

温度值	效果描述
0.1-0.5	输出更加确定和保守
0.5-1.0	平衡创造性和准确性
1.0-2.0	更加随机和创造性

3.3 流式响应处理

对于较长的响应，流式传输可以提供更好的用户体验：

@GetMapping(value = "/chat/stream", produces = MediaType.TEXT_EVENT_STREAM_VALUE)
public Flux<String> streamChat(@RequestParam String message) {
    return chatClient.stream(message);
}

4. 性能优化与实用技巧

在实际使用中，你可能会遇到一些性能问题或需要优化体验。以下是几个实用技巧：

4.1 模型选择建议

Qwen提供了多个版本的模型，可以根据你的硬件配置选择：

模型版本	参数量	内存需求	适用场景
qwen:0.5b-chat	0.5B	~2GB	快速测试、简单对话
qwen:1.8b-chat	1.8B	~4GB	平衡性能和效果
qwen:7b-chat	7B	~14GB	更复杂的任务

4.2 内存管理

运行大模型会消耗大量内存，可以通过以下方式优化：

关闭不必要的后台应用
增加虚拟内存（页面文件）大小
使用 ollama serve 命令时添加 --num-gpu-layers 参数利用GPU加速

4.3 常见问题排查

如果遇到问题，可以检查以下几点：

确保Ollama服务正在运行：
```
netstat -ano | findstr 11434
```
检查模型是否正确加载：
```
ollama list
```
查看日志获取更多信息：
```
ollama serve
```

4.4 进阶开发思路

一旦基础功能运行正常，你可以考虑：

添加对话历史管理
实现多轮对话上下文
集成到现有业务系统中
开发管理界面监控模型使用情况

在本地开发环境中运行大语言模型为开发者提供了前所未有的灵活性和隐私保护。虽然本地模型的性能可能不如云端的大型模型，但对于许多应用场景已经足够，而且完全掌控在自己手中。

亚马逊云科技技术品牌专区

更多推荐

Gemini 2.5 Flash Lite 新手极速上手指南

在开发智能应用时，很多开发者常常面临一个两难选择：是追求模型的强大理解能力，还是担心高昂的算力成本和复杂的部署流程？特别是在处理长文档分析、图片内容识别或需要实时交互的场景下，传统方案往往显得力不从心。要么响应速度慢得让人失去耐心，要么在处理复杂上下文时出现“遗忘”现象，导致回答断章取义。其实，随着新一代大模型 API 的成熟，这些问题已经有了更优雅的解法。不需要自己搭建庞大的服务器集群，也不必深

亚马逊云科技技术品牌专区

Kiro Editor 开发实战：使用 Cargo 构建、测试与性能优化指南

欢迎来到这篇终极指南，我们将深入探索如何使用Rust构建高性能的终端文本编辑器Kiro Editor。无论你是Rust新手还是经验丰富的开发者，这篇完整教程将带你了解如何利用Cargo工具链进行高效的开发、测试和性能优化，打造一款快速、轻量且功能强大的UTF-8文本编辑器。## 什么是Kiro Editor？Kiro Editor是一款使用Rust编写的极简终端文本编辑器，它最初是著名编辑

亚马逊云科技技术品牌专区

Kimi 智能助手新手入门与实战指南

在处理长篇技术文档或行业研报时，我们往往只需要其中的核心结论或特定数据。利用 AI 进行长文档摘要，可以极大缩短信息获取周期。操作时，直接将文档内容复制粘贴到对话框中（注意遵守平台的长度限制，若超长可分段处理），然后配合精准的指令。假设你手头有一份五十页的《云计算架构演进趋势报告》，你可以输入：“请阅读以下关于云计算架构的报告内容。首先，用不超过 200 字总结全文的核心观点。其次，提取出文中提到