
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文深入解析了Transformer架构的核心组成与数据流。文章首先介绍了Encoder-Decoder的基本概念,强调Encoder的双向性和Decoder的自回归特性。随后详细拆解了Transformer的层级结构,包括Encoder的Self-Attention和Feed Forward网络,以及Decoder特有的Masked Self-Attention和Cross-Attention。

这篇文章摘要介绍了如何将零散的AI Agent组件整合成一个完整的可执行程序。文章分为三个主要部分: 整体架构:将之前开发的各个模块(LLM客户端、ReAct循环、文件操作工具、命令行工具)整合成一个统一的系统,创建命令行入口让用户可以直接运行Agent。 关键技术: 采用滑动窗口策略管理对话历史,在保留关键信息的同时控制Token消耗 设计循环终止条件(任务完成、无行动输出、达到最大轮数) 实现

摘要 本文介绍如何通过 CRAG(Corrective RAG)架构解决传统 RAG 系统"盲目自信"的问题。CRAG 在检索和生成之间插入置信度评估模块,根据相关性分数(0-10)动态选择处理路径:高置信度(≥7)直接生成,中等置信度(3-7)重写查询二次检索,低置信度(<3)触发外部搜索。实验表明,该方法使 Context Recall 提升 26%(0.62→0.7

摘要 本文介绍如何通过 CRAG(Corrective RAG)架构解决传统 RAG 系统"盲目自信"的问题。CRAG 在检索和生成之间插入置信度评估模块,根据相关性分数(0-10)动态选择处理路径:高置信度(≥7)直接生成,中等置信度(3-7)重写查询二次检索,低置信度(<3)触发外部搜索。实验表明,该方法使 Context Recall 提升 26%(0.62→0.7

本文深入解析了ReAct循环(Reasoning+Acting)的工作原理,这是构建智能Agent的核心机制。通过密室逃脱游戏的类比,作者生动展示了人类解决问题的"观察-思考-行动"循环模式。文章详细拆解了ReAct循环的数学公式和实现步骤,包括状态更新、思考决策、执行行动和反馈观察的完整闭环。对比了普通对话模型与ReAct Agent的本质区别,强调后者能通过循环执行和反馈调

Transformer架构中的残差连接与Layer Normalization 本文深入分析了Transformer架构中残差连接和Layer Normalization的作用机制。原论文采用Post-LN结构(LayerNorm(x + Sublayer(x))),而后续模型如GPT-2改用Pre-LN结构(x + Sublayer(LayerNorm(x)))。通过数学推导揭示了Pre-LN更

本文探讨了语言生成模型的三种范式:自回归(AR)、离散扩散和连续隐空间扩散。自回归模型(如GPT)通过链式法则逐token生成文本,具有训练高效但缺乏全局规划的缺陷。扩散模型在图像领域表现出色,但应用于离散文本面临挑战。研究者提出两种解决方案:离散扩散(如LLaDA)直接在token空间进行mask-and-predict操作,而连续隐空间扩散(如Cola DLM)通过VAE将文本映射到连续空间进

本文深入解析了Cola-DLM模型的推理流水线,从prompt输入到文本生成的全过程。主要分为四个关键步骤:1) 分词与block对齐处理,确保输入长度符合模型要求;2) 前缀编码阶段,使用VAE将token转换为隐空间表示;3) 核心的分块先验传输过程,通过DiT模型结合CFG和Euler ODE进行迭代去噪;4) 最终的条件解码与采样阶段,采用温度调节、top-k/top-p等策略生成输出文本

这篇文章摘要介绍了如何将零散的AI Agent组件整合成一个完整的可执行程序。文章分为三个主要部分: 整体架构:将之前开发的各个模块(LLM客户端、ReAct循环、文件操作工具、命令行工具)整合成一个统一的系统,创建命令行入口让用户可以直接运行Agent。 关键技术: 采用滑动窗口策略管理对话历史,在保留关键信息的同时控制Token消耗 设计循环终止条件(任务完成、无行动输出、达到最大轮数) 实现

本文探讨了Cola DLM扩散语言模型在多模态扩展的潜力与挑战。论文通过共享MMDiT先验和独立VAE编码器的设计,初步实现了文本-图像的联合隐空间建模。该框架的三大优势在于:VAE解耦各模态处理、先验模型共享语义学习、Flow Matching的连续性兼容。但面临隐空间对齐、计算效率和训练数据等挑战。与Chameleon等方案相比,Cola DLM的连续隐空间统一更具数学优雅性。文章指出扩散语言








