logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

模型对齐不是一句“安全“,而是三层工程问题

本文从工程视角拆解 LLM 对齐并非一次性技术选择,而是分层防护体系。通过真实成本与覆盖率对比,系统分析了无对齐、Guardrails、DPO、RLAIF、RLHF、Constitutional AI、Structured Output 等方案的适用边界,指出运行时控制的性价比往往高于重训练。文章给出清晰的决策表与演进路径,强调在多数场景下,训练对齐 + Guardrails + 人工审核的三层组

#语言模型#人工智能
多模态能力在工程上到底什么时候才“值得上“?

本文探讨了多模态AI(图像、语音、视频)在实际工程中的挑战与边界。图像处理成本高昂(每张图约1000-2000 tokens),准确率(60-80%)明显低于文本(85-95%),且调试难度大。语音识别适合清晰音频场景,但方言/嘈杂环境效果不佳。视频处理成本最高(每分钟约30K tokens),仅适用于关键场景。工程决策应权衡成本、准确率和调试难度,避免盲目使用多模态技术,而应针对特定场景选择最优

#语言模型#人工智能
从 CoT 到 o1-style:大模型“强推理“能力到底升级了什么?

本文对比了标准思维链(CoT)与强推理(o1-style)的工程代价,指出推理能力提升会带来5-10倍成本增长和不可控延迟。CoT适用于高频场景,强推理仅在高错误成本、低频任务中成立。建议优先采用轻量级近似方案,并强调生产环境中可控性比极限准确率更重要。核心观点是:推理能力选择应基于场景需求,而非单纯追求技术先进性。

#人工智能
2026大模型应用技术栈全景图谱

2026年大模型应用技术全景图谱,按8站式能力升级路线梳理:能回答→能查证(RAG 1.0-3.0/GraphRAG)→能执行(Tool Use/MCP)→能协作(Agent/Skills)→能上线(推理部署)→能持续变强(LLMOps/安全)。涵盖300+技术术语,每项按"是什么/解决什么/场景"呈现,标注2026新词。适合新手学习、实践者查找、架构师追踪前沿。

#人工智能#语言模型
Agentic RAG = 多轮任务编排升级

文章介绍 Agentic RAG:把一次检索升级为“Plan→多轮检索→Reflect补缺→结构化推荐”,适合需求模糊的咨询型任务,并通过控制阀限制轮数与成本。

#语言模型
从 Hybrid 到 Verification:生产级 RAG 的 4 阶段升级路线

RAG 失败的根本不是模型,而是检索链路。本文提供生产级 RAG 的完整路线图:4 个必做阶段(Hybrid、Rerank、Context Engineering、Verification)+ 4 个按需模块(Query Rewrite、HyDE、GraphRAG、Agentic RAG)。每个阶段配最小实现和升级信号,帮助工程师避免 6 类常见翻车。

从零到一:用LangChain搭建房产RAG系统

这是我的第一个完整RAG系统Demo。用一周时间从零开始,搭建了一个房产推荐AI系统。系统涉及向量表示学习、检索增强生成(RAG)、提示工程、对话管理、LCEL编程范式等核心知识。核心流程:用户提问 → 向量化 → 检索相关房源 → LLM生成答案 → 保存对话历史。技术栈:LangChain + Chroma + DashScope + FastAPI + Streamlit。

#chrome#语言模型#python
LlamaIndex:用索引和检索重新定义RAG系统

这是我学习LlamaIndex框架的完整记录。通过9个递进式的本地demo,从零开始理解RAG系统的核心概念。包括Document、Node、Index、QueryEngine、ChatEngine等5个核心概念的详细讲解,以及单轮查询和多轮对话的实现方法。适合想要快速上手LlamaIndex的初学者。

#语言模型
从零到一:用LangChain搭建房产RAG系统

这是我的第一个完整RAG系统Demo。用一周时间从零开始,搭建了一个房产推荐AI系统。系统涉及向量表示学习、检索增强生成(RAG)、提示工程、对话管理、LCEL编程范式等核心知识。核心流程:用户提问 → 向量化 → 检索相关房源 → LLM生成答案 → 保存对话历史。技术栈:LangChain + Chroma + DashScope + FastAPI + Streamlit。

#chrome#语言模型#python
到底了