官能个人主页

@weixin_53902256

官能

2024-12-30 15:18:57 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

模型对齐不是一句“安全“，而是三层工程问题

本文从工程视角拆解 LLM 对齐并非一次性技术选择，而是分层防护体系。通过真实成本与覆盖率对比，系统分析了无对齐、Guardrails、DPO、RLAIF、RLHF、Constitutional AI、Structured Output 等方案的适用边界，指出运行时控制的性价比往往高于重训练。文章给出清晰的决策表与演进路径，强调在多数场景下，训练对齐 + Guardrails + 人工审核的三层组

#语言模型 #人工智能

多模态能力在工程上到底什么时候才“值得上“？

本文探讨了多模态AI（图像、语音、视频）在实际工程中的挑战与边界。图像处理成本高昂（每张图约1000-2000 tokens），准确率（60-80%）明显低于文本（85-95%），且调试难度大。语音识别适合清晰音频场景，但方言/嘈杂环境效果不佳。视频处理成本最高（每分钟约30K tokens），仅适用于关键场景。工程决策应权衡成本、准确率和调试难度，避免盲目使用多模态技术，而应针对特定场景选择最优

#语言模型 #人工智能

从 CoT 到 o1-style：大模型“强推理“能力到底升级了什么？

本文对比了标准思维链（CoT）与强推理（o1-style）的工程代价，指出推理能力提升会带来5-10倍成本增长和不可控延迟。CoT适用于高频场景，强推理仅在高错误成本、低频任务中成立。建议优先采用轻量级近似方案，并强调生产环境中可控性比极限准确率更重要。核心观点是：推理能力选择应基于场景需求，而非单纯追求技术先进性。

#人工智能

2026大模型应用技术栈全景图谱

2026年大模型应用技术全景图谱，按8站式能力升级路线梳理：能回答→能查证（RAG 1.0-3.0/GraphRAG）→能执行（Tool Use/MCP）→能协作（Agent/Skills）→能上线（推理部署）→能持续变强（LLMOps/安全）。涵盖300+技术术语，每项按"是什么/解决什么/场景"呈现，标注2026新词。适合新手学习、实践者查找、架构师追踪前沿。

#人工智能 #语言模型

Agentic RAG = 多轮任务编排升级

文章介绍 Agentic RAG：把一次检索升级为“Plan→多轮检索→Reflect补缺→结构化推荐”，适合需求模糊的咨询型任务，并通过控制阀限制轮数与成本。

#语言模型

从 Hybrid 到 Verification：生产级 RAG 的 4 阶段升级路线

RAG 失败的根本不是模型，而是检索链路。本文提供生产级 RAG 的完整路线图：4 个必做阶段（Hybrid、Rerank、Context Engineering、Verification）+ 4 个按需模块（Query Rewrite、HyDE、GraphRAG、Agentic RAG）。每个阶段配最小实现和升级信号，帮助工程师避免 6 类常见翻车。

从零到一：用LangChain搭建房产RAG系统

这是我的第一个完整RAG系统Demo。用一周时间从零开始，搭建了一个房产推荐AI系统。系统涉及向量表示学习、检索增强生成(RAG)、提示工程、对话管理、LCEL编程范式等核心知识。核心流程：用户提问 → 向量化 → 检索相关房源 → LLM生成答案 → 保存对话历史。技术栈：LangChain + Chroma + DashScope + FastAPI + Streamlit。

#chrome #语言模型 #python

LlamaIndex：用索引和检索重新定义RAG系统

这是我学习LlamaIndex框架的完整记录。通过9个递进式的本地demo，从零开始理解RAG系统的核心概念。包括Document、Node、Index、QueryEngine、ChatEngine等5个核心概念的详细讲解，以及单轮查询和多轮对话的实现方法。适合想要快速上手LlamaIndex的初学者。

#语言模型

从零到一：用LangChain搭建房产RAG系统

#chrome #语言模型 #python

到底了