
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
AI Agent = LLM + 感知 + 规划 + 工具调用 + 记忆 + 长程自主。它不只是聊天,而是能自主完成多步骤任务。从Chatbot到Agent,是从"回答问题"到"解决问题"的质变;2026年的Agent又进一步——从"调用API"进化到"操作真实电脑",AI正在从"答题层"变成"操作层"。Agent是一个能感知环境、做出决策、采取行动以实现目标的自主系统。LLM(大脑)+ 工具(手
2026年大模型评测体系已高度专业化,需从7个维度综合评估:通用能力(LiveBench/MMLU-Pro)、编程(SWE-Bench Pro)、推理(AIME/GPQA)、Agent能力、长上下文、安全和中文。关键趋势包括:1)抗污染动态评测(LiveBench)取代静态榜单;2)推理模型形成独立评测体系;3)编程能力分化为基础(HumanEval)和工程级(SWE-Bench Pro)双轨制。

今天 AI 工程最值得关注的是 AI 方向的基础设施化:anthropics/claude-cookbooks、Microsoft Copilot Cowork Exfiltrates、用Firecracker微VM自建Lambda运行时 代表能力正在从模型层下沉到工具链和工作流。

大语言模型幻觉问题:2026年研究进展与应对策略 摘要: OpenAI 2025年研究证实,大语言模型的幻觉问题(生成看似合理但错误的内容)在数学上不可避免,根源在于训练目标的统计学特性。研究发现: 推理模型幻觉率更高(达48%),因更不愿承认无知; 现有评测体系变相鼓励猜测,导致模型宁可错误也要作答; 幻觉可分为事实性、忠实性、推理性和抽象性四类,其中推理幻觉最具欺骗性。2026年主流解决方案包

今日AI工程领域聚焦三大核心突破:开源80386微码实现重现经典x86架构,为硬件优化提供新思路;深度学习性能优化指南《Making Deep Learning Go Brrrr》从原理层面提升训练效率;代码可视化工具Understand-Anything将任意代码库转化为交互式知识图谱。这些进展显示AI能力正从模型层下沉至基础设施和工具链,涵盖硬件、算法和开发环境多个维度,值得开发者重点关注并评

预训练(让它会说话,TB级数据,千卡月级训练)→SFT(让它会回答,万级指令数据,单机几小时)→对齐(让它说得好,五条路线按需选)。2026年的对齐训练已经从"RLHF vs DPO"的二选一,演化为RLHF/DPO/GRPO/RLVR/RLAIF五条路线的组合工程。维度RLHFDPOGRPORLVRRLAIF核心思想RM+PPO直接偏好组内竞争可验证奖励AI替代人类奖励来源人类排序偏好对组内相对

Token = LLM处理文本的最小单位 核心要点: 分词算法:BPE(GPT)、WordPiece(BERT)、Unigram(T5)三大主流方法 词表大小:GPT-4用100K词表,LLaMA 3扩至128K提升多语言效率 上下文窗口:2026年1M成为标配(可处理整本《三体》) 中英差异:中文Token效率较低(相同内容比英文多用1.3-1.8倍Token) 典型流程: 文本→分词→Toke

2026年AI对齐研究呈现三大趋势:1)数学证明完美对齐不可行,转向"受控错位"和多样性管理(PNAS Nexus);2)认知科学与AI深度交叉,强调以科学理解而非人类行为为对齐基准(Bramley Lab);3)LLM多Agent仿真成为认知研究新范式,在供应链等场景验证可行性(ACL 2026)。研究显示,混合认知对齐(HCA)理论对AI系统设计提出"可预期性"和"意图透明度"新要求,标志着对
Transformer是一种革命性的神经网络架构,通过自注意力机制取代传统RNN,实现了并行处理序列数据。其核心组件包括多头注意力机制、位置编码和前馈网络,通过残差连接和层归一化堆叠多层。自注意力机制允许模型直接建模任意位置间的关系,而位置编码则保留了序列顺序信息。这种架构不仅训练效率高,还能捕捉长距离依赖关系,成为GPT、BERT等大模型的基础。文章详细解析了注意力计算过程、多头机制原理及代码实

AI Agent & RAG系统化学习指南(摘要) 本指南提供12周递进式学习路径,涵盖AI Agent与RAG技术全栈知识。分为三阶段: 基础夯实(1-4周):掌握Transformer、RLHF/DPO对齐等LLM核心原理,深入ReAct/Plan-then-Execute等Agent架构范式; 工程实战(5-8周):实践GraphRAG/HiRAG等前沿方案,通过LangChain/Llam







