
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
上一篇我们跑通了一个最小 RAG:文档入库 → 向量搜索 → 喂给模型 → 得到回答。能用了,但离"好用"还差得远。
上一篇我们给 bot 装了 Memory,它终于能记住"刚聊过什么"。但还有一类问题它照样答不上来:你公司的事、你电脑里的文档、你脑子里的业务知识——它全不知道。
Ollama是一款专注于简化大型语言模型本地部署和运行的开源框架,基于Go语言实现,支持跨平台运行,并以“开箱即用”为核心理念,适合个人开发者和轻量化场景。

本文将手把手教你使用高性能推理引擎vLLM部署Qwen大模型,并提供Python和Java两种语言的实现代码,帮助不同技术背景的开发者快速上手。

LLaMA Factory微调后的大模型Chat对话效果,与该模型使用vLLM推理架构中的对话效果,可能会出现不一致的情况。

今天我们就来深入解析两款主流的大模型推理引擎——vLLM和Ollama,帮助您做出正确的技术选型。
如果你一直在用Ollama进行本地LLM实验,现在想转向vLLM以获得生产级性能,这篇文章的主要目的是讲解这两个框架的区别,探讨选择正确框架的重要性,并提供一步步的指导。
在本专栏的前面文章基于Spring AI MCP实现了本地 ChatBI 问答应用,本文还是依据该场景,采用 LangChain + vLLM + Qwen3-32B + MCP 技术栈构建该流程
MindSpeed LLM作为昇腾AI生态的重要技术支撑,专为大规模语言模型设计,具有超强的计算能力和灵活的开发支持。
模型微调通常来说,虽然可以提高任务的效果,但通常来说,微调的成本远大于提示词调优,模型微调相对来说复杂性高、资源需求大而且成本高。








