logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

当被面试管问到:Agent的意图识别如何做到95%准确率?你怎么回答?

达到95%准确率绝非单一技术突破,而是分类体系、数据质量、系统架构、持续迭代四维协同的系统工程。全文结合了智能汽车、电商等场景,分层拆解可落地的关键路径。

文章图片
#人工智能#nlp
记住,生产级RAG的核心不在于“大模型选了好”

RAG 的成败不在大模型,而在系统工程。本文系统拆解生产级 RAG 架构的七大核心环节,揭示为何多数 Demo 级方案无法落地,并给出可工程化的实践路径。

文章图片
#RAG
RAG不是万能的,但没有RAG是万万不能的:8种主流架构全景解析

RAG不是简单“检索+生成”,而是知识与推理的精密耦合。本文系统剖析8种主流RAG架构——从Naive到SFR,揭示其设计逻辑、适用边界与工程权衡,辅以LangChain可运行代码,助你构建真正可靠的知识增强系统。

文章图片
垂域大模型评估不再靠“感觉”:用结构化测试集+自动化打分实现效果可量化

垂域大模型落地难,不在训练而在评估。本文系统讲解如何从非结构化文档一键生成多题型测试集,并结合规则判分与教师模型打分,构建可量化、可对比、可追踪的评估闭环,让SFT/RAG调优效率翻倍。

文章图片
#自动化
AI Agent如何实现记忆的三个维度详尽分析

智能体记忆远不止是“记住对话历史”。本文系统拆解其在形式上的三类实现(词元级、参数化、潜在记忆)、功能上的三大支柱(事实、经验、工作记忆)以及动态层面的形成-演化-检索闭环,揭示记忆如何使大模型从静态生成器转变为持续进化的智能体。

文章图片
一起来围观Anthropic官方万的AI Agent评估方法论

为什么你的 Agent 总是“看起来行,实际上不行”?本文系统拆解 Anthropic 提出的 AI Agent 评估方法论,从 Transcript 与 Outcome 的根本区分,到三类评分器的组合策略,再到 pass@k 与 pass^k 的指标选择逻辑,揭示如何构建一个既能捕捉能力边界、又能保障稳定性的评估体系。这不是一套测试工具,而是一套理解智能体行为的语言。

文章图片
#人工智能
AI接管编码:软件工程师的“主编化”转型已不可逆

AI正以惊人速度接管代码编写,工程师角色正从“写作者”转向“审校者”。本文系统剖析这一趋势的技术动因、现实进展与职业影响,并指出:掌握AI协作能力,已成为新一代工程师的生存基本功。

文章图片
#人工智能
LLM推理引擎选型实战指南:用Transformers、llama.cpp 还是 vLLM 之争

本文深入解析Transformer、llama.cpp和vLLM三大主流LLM推理引擎的技术特点与适用场景,通过操作系统概念的类比帮助开发者根据硬件条件、使用场景和性能需求做出明智选择。无论您是个人开发者还是企业用户,都能找到最适合的推理解决方案。

文章图片
#transformer
Qwen3-Coder-Next开源了:来看它如何用3B激活参数撬动80B潜力的

仅激活30亿参数却能匹敌更大模型,Qwen3-Coder-Next通过大规模可执行任务训练与MoE架构,在真实软件工程环境中验证了“小激活、大能力”的可行性,为高效编程智能体提供了新路径。

文章图片
蚂蚁最新8B小模型拿下SOTA

抛弃ID Embedding和LoRA参数,用自然语言描述用户偏好——蚂蚁与东北大学提出的AlignXplore+框架,以8B小模型实现跨任务、跨模型的SOTA个性化能力,让大模型真正“读懂”每一个具体的人。

文章图片
    共 474 条
  • 1
  • 2
  • 3
  • 48
  • 请选择