
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
Ollama是一款专注于简化大型语言模型本地部署和运行的开源框架,基于Go语言实现,支持跨平台运行,并以“开箱即用”为核心理念,适合个人开发者和轻量化场景。

本文将手把手教你使用高性能推理引擎vLLM部署Qwen大模型,并提供Python和Java两种语言的实现代码,帮助不同技术背景的开发者快速上手。

LLaMA Factory微调后的大模型Chat对话效果,与该模型使用vLLM推理架构中的对话效果,可能会出现不一致的情况。

今天我们就来深入解析两款主流的大模型推理引擎——vLLM和Ollama,帮助您做出正确的技术选型。
如果你一直在用Ollama进行本地LLM实验,现在想转向vLLM以获得生产级性能,这篇文章的主要目的是讲解这两个框架的区别,探讨选择正确框架的重要性,并提供一步步的指导。
在本专栏的前面文章基于Spring AI MCP实现了本地 ChatBI 问答应用,本文还是依据该场景,采用 LangChain + vLLM + Qwen3-32B + MCP 技术栈构建该流程
MindSpeed LLM作为昇腾AI生态的重要技术支撑,专为大规模语言模型设计,具有超强的计算能力和灵活的开发支持。
模型微调通常来说,虽然可以提高任务的效果,但通常来说,微调的成本远大于提示词调优,模型微调相对来说复杂性高、资源需求大而且成本高。

我看过很多 LangChain 教程,大多数上来就是"什么是 Agent""什么是 RAG",看完脑子里全是词,手上什么都没有。

整体来看,这一讲的核心结论是:AI Agent 时代,比拼的不只是模型本身,而是上下文管理、任务组织和人类设定目标与边界的能力。








