Spring AI + DeepSeek：让数据库听懂人话查数据实战案例

Spring AI + DeepSeek：让数据库听懂人话查数据实战案例：本文将带你探索这一技术组合的完整实现路径，从基础原理到生产实践，从避坑指南到性能优化，让你在短时间内掌握这项提升开发效率的利器。

冰河

1007人浏览 · 2025-11-03 01:09:03

冰河 · 2025-11-03 01:09:03 发布

大家好，我是冰河~~

小伙伴们，你们是否有过这样的经历：此时已经是深更半夜，其他同事早就下班了，而你，还在工位上盯着显示器，调试那个缠绕着三层子查询、五个表连接的SQL语句，可怎么调试都出不来想要的效果，查询出来的结果数据总是不对。由于第二天项目就要提测，此时的你，也只能这么耗着。。。

经过反复思考、打磨、折腾和整理，《实战AI大模型》专栏的目录结构和大致内容已整理好，星球热更中，基于AI大模型设计和研发的实际大厂生产场景的项目也已安排。加入 冰河技术 知识星球跟冰河一起学习大模型核心技术

其实，作为开发者，我们崇尚自动化，却对SQL编写这种重复性劳动习以为常。最近比较长的一段时间，冰河在研究Spring AI与DeepSeek结合，如何提高数据查询的自动化和智能化时，越发感觉：数据查询本就应该如此简单直观。那些耗费心力的复杂SQL，是时候交给更擅长模式识别的AI来处理了。

本文将带你探索这一技术组合的完整实现路径，从基础原理到生产实践，从避坑指南到性能优化，让你在短时间内掌握这项提升开发效率的利器。

一、当Spring生态遇见大语言模型

在传统开发模式中，数据查询需要经历“业务需求→语义解析→SQL编写→执行优化”的复杂链条。而Spring AI与DeepSeek的整合，本质上是在构建一个智能的数据访问中间层。

1.1 架构解析：智能查询的三层转换

这个系统的核心工作流程可以分解为三个认知层次：

语义理解层

Spring AI充当了业务语言到查询意图的翻译器。它接收自然语言描述，结合预先提供的数据库元数据，构建出结构化的查询意图表示。

逻辑生成层

DeepSeek基于查询意图和数据库Schema，生成符合语法规范且逻辑正确的SQL语句。这一过程类似于经验丰富的DBA在理解业务需求后编写查询方案。

执行优化层

生成的SQL通过传统的JDBC层执行，结果集经由Spring框架封装后返回。整个过程保持了Spring生态的数据访问一致性。

1.2 技术选型考量

Spring AI 1.0.0：作为Spring官方推出的AI集成框架，它提供了统一的AI操作抽象，避免了与具体模型API的紧耦合。

DeepSeek模型：在准确性与性能间取得良好平衡，特别擅长代码生成任务。支持多种部署方式，兼顾便利性与数据安全。

Spring Boot 3.2+：为整个应用提供现代化的基础架构，包括原生编译、完善的监控生态等企业级特性。

二、环境搭建：构建智能查询底座

2.1 项目初始化配置

创建基于Spring Boot 3.2的项目，在pom.xml中配置核心依赖：

<dependencyManagement>
    <dependencies>
        <dependency>
            <groupId>org.springframework.ai</groupId>
            <artifactId>spring-ai-bom</artifactId>
            <version>1.0.0</version>
            <type>pom</type>
            <scope>import</scope>
        </dependency>
    </dependencies>
</dependencyManagement>

<dependencies>
    <dependency>
        <groupId>org.springframework.boot</groupId>
        <artifactId>spring-boot-starter-web</artifactId>
    </dependency>
    <dependency>
        <groupId>org.springframework.ai</groupId>
        <artifactId>spring-ai-deepseek-spring-boot-starter</artifactId>
    </dependency>
    <dependency>
        <groupId>org.springframework.boot</groupId>
        <artifactId>spring-boot-starter-jdbc</artifactId>
    </dependency>
    <dependency>
        <groupId>com.mysql</groupId>
        <artifactId>mysql-connector-j</artifactId>
        <scope>runtime</scope>
    </dependency>
</dependencies>

2.2 深度定制化配置

application.yml配置示例：

spring:
  datasource:
    url: jdbc:mysql://localhost:3306/ai_query_demo
    username: ${DB_USERNAME:root}
    password: ${DB_PASSWORD:}
    driver-class-name: com.mysql.cj.jdbc.Driver
  
  ai:
    deepseek:
      base-url: ${DEEPSEEK_BASE_URL:https://api.deepseek.com}
      api-key: ${DEEPSEEK_API_KEY:}
    chat:
      client:
        provider: deepseek
      model: deepseek-reasoner

logging:
  level:
    org.springframework.ai: DEBUG

部署模式选择建议：

API模式：适合快速验证和原型开发，无需考虑硬件资源
本地部署：适合数据敏感场景，建议使用Ollama管理模型生命周期

三、核心实现：构建智能查询引擎

3.1 领域模型设计

采用清晰的领域模型定义，为AI提供准确的数据结构信息：

@Schema(description = "用户实体")
public class User {
    @Schema(description = "用户ID，主键")
    private Long id;
    
    @Schema(description = "用户姓名")
    private String name;
    
    @Schema(description = "用户年龄")
    private Integer age;
    
    @Schema(description = "所在城市")
    private String city;
    
    @Schema(description = "账户余额，单位元")
    private BigDecimal balance;
    
    @Schema(description = "所属部门ID")
    private Integer departmentId;
}

3.2 智能查询服务实现

核心服务类承担自然语言到SQL的转换职责：

@Service
@Slf4j
public class NaturalLanguageQueryService {
    private final ChatClient chatClient;
    private final JdbcTemplate jdbcTemplate;
    
    // 数据库元数据描述 - 这是AI理解数据结构的桥梁
    private static final String DATABASE_SCHEMA = """
        数据库表结构详情：
        
        用户表(user):
        - id: BIGINT, 主键，唯一标识用户
        - name: VARCHAR(100), 用户真实姓名
        - age: INTEGER, 用户年龄，范围18-100
        - city: VARCHAR(50), 用户所在城市
        - balance: DECIMAL(10,2), 账户余额，精度到分
        - department_id: INTEGER, 外键，关联部门表
        
        部门表(department):
        - id: INTEGER, 主键，部门唯一标识
        - name: VARCHAR(50), 部门名称
        - manager: VARCHAR(100), 部门负责人
        - create_time: DATETIME, 部门创建时间
        
        表关联关系：
        user.department_id = department.id
        """;
    
    // 优化的提示词模板
    private static final String SQL_GENERATION_PROMPT = """
        你是一个专业的SQL开发专家，请基于以下数据库结构生成准确、高效的MySQL查询语句。
        
        数据库结构：
        {schema}
        
        生成要求：
        1. 严格只返回SQL语句，不包含任何解释性文字
        2. 使用标准MySQL 8.0语法
        3. 明确指定查询字段，避免使用SELECT *
        4. 字符串条件使用单引号，正确转义特殊字符
        5. 合理使用JOIN替代子查询提升性能
        6. 包含必要的WHERE条件避免全表扫描
        
        用户查询需求：{query}
        """;
    
    public QueryResult executeNaturalLanguageQuery(String userQuery) {
        try {
            String generatedSql = generateSql(userQuery);
            log.info("AI生成SQL: {}", generatedSql);
            
            validateSql(generatedSql); // 基础SQL安全校验
            List<Map<String, Object>> results = jdbcTemplate.queryForList(generatedSql);
            
            return QueryResult.success(results, generatedSql);
        } catch (Exception e) {
            log.error("自然语言查询执行失败: {}", e.getMessage());
            return QueryResult.error("查询执行失败: " + e.getMessage());
        }
    }
    
    private String generateSql(String userQuery) {
        String prompt = SQL_GENERATION_PROMPT
            .replace("{schema}", DATABASE_SCHEMA)
            .replace("{query}", userQuery);
            
        ChatResponse response = chatClient.prompt()
            .user(prompt)
            .call()
            .chatResponse();
            
        return response.getResult().getOutput().getContent();
    }
}

3.3 统一API接口设计

提供RESTful风格的查询接口：

@RestController
@RequestMapping("/api/query")
@Validated
public class NaturalLanguageQueryController {
    
    private final NaturalLanguageQueryService queryService;
    
    @Operation(summary = "自然语言数据查询")
    @GetMapping("/natural")
    public ResponseEntity<ApiResponse<QueryResult>> queryByNaturalLanguage(
            @Parameter(description = "自然语言查询语句", required = true)
            @RequestParam @NotBlank String q) {
        
        QueryResult result = queryService.executeNaturalLanguageQuery(q);
        return ResponseEntity.ok(ApiResponse.success(result));
    }
    
    @Operation(summary = "批量自然语言查询")
    @PostMapping("/batch")
    public ResponseEntity<ApiResponse<List<QueryResult>>> batchQuery(
            @RequestBody @Valid BatchQueryRequest request) {
        
        List<QueryResult> results = request.getQueries().stream()
            .map(queryService::executeNaturalLanguageQuery)
            .collect(Collectors.toList());
            
        return ResponseEntity.ok(ApiResponse.success(results));
    }
}

3.4 效果验证

启动应用后，通过API测试以下场景：

简单查询

GET /api/query/natural?q=查询所有用户信息

生成SQL：SELECT * FROM user;

条件筛选

GET /api/query/natural?q=查询北京地区年龄大于30岁的用户

生成SQL：SELECT * FROM user WHERE city = '北京' AND age > 30;

复杂关联

GET /api/query/natural?q=统计每个部门的用户数量并按数量降序排列

生成SQL：SELECT d.name, COUNT(u.id) FROM department d LEFT JOIN user u ON d.id = u.department_id GROUP BY d.name ORDER BY COUNT(u.id) DESC;

可以看到，以前需要反复调试的复杂SQL，现在用一句话就搞定了！

四、生产级优化策略

4.1 提示词工程优化

基于实践总结的提示词优化策略：

// 进阶版提示词模板
private static final String ADVANCED_PROMPT_TEMPLATE = """
    作为高级SQL工程师，请为以下需求生成最优查询方案。
    
    数据库上下文：
    {schema}
    
    业务规则约束：
    1. 用户状态：0=正常, 1=禁用, 2=注销（只查询状态0的记录）
    2. 余额字段单位为元，查询时保持精度
    3. 时间范围查询使用BETWEEN优化性能
    4. 分页查询使用LIMIT offset, count语法
    
    性能要求：
    - 优先使用索引字段作为查询条件
    - 避免在WHERE子句中使用函数计算
    - 多表关联时指定明确的连接条件
    
    安全规范：
    - 严格避免SQL注入风险
    - 不生成任何数据修改语句
    - 敏感字段需进行脱敏处理
    
    参考示例：
    输入：查询北京地区年龄30岁以上用户，按余额降序排列
    输出：SELECT name, age, balance FROM user WHERE city = '北京' AND age > 30 ORDER BY balance DESC
    
    当前需求：{query}
    """;

4.2 查询性能保障机制

@Component
public class QueryOptimizationService {
    
    // SQL执行计划分析
    public void analyzeQueryPlan(String sql) {
        // 实现执行计划分析逻辑
        // 识别全表扫描、缺失索引等问题
    }
    
    // 查询结果缓存
    @Cacheable(value = "queryResults", key = "#naturalLanguageQuery")
    public QueryResult cachedNaturalLanguageQuery(String naturalLanguageQuery) {
        return queryService.executeNaturalLanguageQuery(naturalLanguageQuery);
    }
    
    // 生成SQL的质量评估
    public boolean validateGeneratedSql(String sql) {
        return !containsDangerousOperations(sql) && 
               hasReasonableComplexity(sql) &&
               includesProperConditions(sql);
    }
}

4.3 安全防护体系

构建多层次的安全防护：

@Component
public class QuerySecurityInterceptor {
    
    // SQL注入检测
    public boolean detectSqlInjection(String naturalLanguageQuery) {
        // 实现自然语言层面的恶意指令检测
        return !containsMaliciousPatterns(naturalLanguageQuery);
    }
    
    // 数据权限控制
    public boolean checkDataAccessPermission(String sql, UserContext userContext) {
        // 基于用户角色和权限过滤可访问数据范围
        return isWithinAccessScope(sql, userContext);
    }
    
    // 敏感数据脱敏
    public Map<String, Object> maskSensitiveData(Map<String, Object> record) {
        // 对手机号、身份证等敏感字段进行脱敏
        return applyDataMasking(record);
    }
}

五、企业级部署实践

5.1 监控与可观测性

集成完整的监控体系：

management:
  endpoints:
    web:
      exposure:
        include: health,metrics,prometheus
  endpoint:
    health:
      show-details: always

spring:
  application:
    name: ai-query-service
  
logging:
  pattern:
    console: "%d{yyyy-MM-dd HH:mm:ss} - %logger{36} - %msg%n"

5.2 性能调优指南

基于负载测试的优化建议：

连接池配置

spring:
  datasource:
    hikari:
      maximum-pool-size: 20
      minimum-idle: 5
      connection-timeout: 30000

模型推理优化

使用量化版本的DeepSeek模型降低资源消耗
配置合适的batch size平衡吞吐与延迟
启用GPU加速提升推理速度

缓存策略

高频查询结果缓存，降低模型调用频次
SQL生成结果缓存，避免重复计算
数据库元数据缓存，提升提示词构建速度

六、应用场景拓展

6.1 报表生成自动化

将自然语言查询能力集成到报表系统中：

@Service
public class ReportGenerationService {
    
    public Report generateReport(ReportRequest request) {
        String analysisQuery = buildAnalysisQuery(request.getDimensions(), request.getMetrics());
        QueryResult data = queryService.executeNaturalLanguageQuery(analysisQuery);
        
        return Report.builder()
            .data(data)
            .visualization(generateCharts(data))
            .insights(extractInsights(data))
            .build();
    }
}

6.2 数据探索助手

构建交互式数据探索体验：

@Controller
public class DataExplorationController {
    
    @MessageMapping("/data.explore")
    @SendTo("/topic/data.updates")
    public ExplorationResult exploreData(ExplorationMessage message) {
        // 实时生成查询并推送结果
        return queryService.exploreByNaturalLanguage(message.getQuery());
    }
}

七、总结

经过数月的生产实践，这个基于Spring AI与DeepSeek的智能查询系统已经成为团队的核心基础设施。它改变的不仅仅是开发效率，更是团队与数据交互的基本范式。

从技术演进的角度看，我们正在经历从"如何查询"到"查询什么"的转变。开发者得以从繁琐的语法细节中解放，专注于业务逻辑和数据价值的挖掘。这种转变类似于从汇编语言到高级语言的演进——不是底层能力的替代，而是抽象层次的提升。

随着多模态模型和代码生成技术的进步，自然语言与数据系统的交互将更加深入。我们可以预见的是：

复杂分析的自然语言化：从简单查询扩展到复杂的数据分析和预测建模
交互式查询优化：基于对话的查询结果精炼和迭代优化
智能数据治理：自动的数据质量检测、血缘分析和影响评估

在这个智能技术快速演进的时代，保持技术敏感度、勇于实践创新，是我们每个技术人的必修课。希望本文的分享能够为大家带来一定的启发，看到技术融合带来的无限可能。

好了，今天就到这儿吧，我是冰河，我们下期见~~

深圳城市开发者社区

一座年轻的奋斗人之城，一个温馨的开发者之家。在这里，代码改变人生，开发创造未来！

更多推荐

vLLM-ascend快速上手：从零到一部署Llama2推理服务

本文详细介绍了在昇腾AI平台上部署vLLM推理服务的完整流程，以Llama2-7B模型为例，涵盖环境配置、模型转换、服务启动到性能优化的全链路实践。重点解析了昇腾平台特有的技术要点，包括驱动版本匹配、环境变量设置、模型格式转换等关键环节，并提供了性能测试框架和问题排查工具。通过系统化的参数调优和监控体系建设，开发者可以快速构建生产可用的LLM推理服务，充分发挥昇腾AI硬件的计算潜力。文章还总结了常

深圳城市开发者社区

PyTorch模型迁移昇腾平台全流程：ResNet50实战指南

"""NPU加速的数据增强操作"""NPU加速的随机水平翻转"""if torch.rand(1).item() < p:# 在NPU上执行翻转，避免CPU-NPU数据传输return images.flip(-1) # 沿宽度维度翻转return images"""NPU加速的随机旋转（简化版）"""# 在实际应用中应使用更高效的实现# 这里简化展示概念return images。