
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文学习了一种基于推测解码(speculative decoding)的Transformer模型加速推理方法。该方法通过使用一个快速但低精度的草稿模型M_q预先生成候选序列,再由目标模型M_p进行验证和修正,显著减少了推理时间。

2025年大模型记忆技术进入"后参数时代",九大门派各显神通: 技术路线:从分页派、遗忘派到慢思维派,形成完整技术谱系,涵盖操作系统式换页、遗忘曲线、知识图谱自生长等创新方法。 应用场景:各派针对不同场景优化,如客服FAQ适合分页派,AI伴侣需要遗忘派+卡片派组合,医疗文档则需OS派+慢思维派。 核心优势:突破传统RAG局限,解决参数固化、记忆不一致等痛点,实现记忆的可管理、可

DAPO算法,在GRPO基础上进行四项关键改进:1)非对称剪枝(Clip-Higher),通过设置不同上下界ε_low和ε_high,解决熵崩溃问题;2)动态采样机制,过滤无梯度样本;3)Token级梯度计算,避免长回答权重稀释;4)软长度惩罚,优化截断处理。实验表明DAPO在AIME任务上仅用50%训练步数即达到50分表现。此外,文章还讨论了VC-PPO中的价值预训练和Decoupled-GAE

本文介绍了一个基于FastAPI的沙箱代码执行服务,主要特点包括: 采用Docker容器实现完全隔离的执行环境,每个请求都在独立容器中运行 提供资源限制功能,包括CPU配额(默认0.5核)、内存限制(默认512MB)和执行超时(默认30秒) 支持自动依赖管理,当检测到requirements.txt时会自动创建虚拟环境并安装依赖 提供RESTful API接口,支持自定义Docker镜像、执行命令

RLVR(可验证奖励的强化学习)是当前主流的大模型训练方法,通过预定义规则(如数学答案匹配、代码测试)提供二元奖励信号,替代传统RLHF的主观评估。其核心优势在于客观性、易设计性和防作弊能力,广泛应用于数学推理、代码生成等确定性任务。构建RLVR需关注数据准备、奖励函数设计和验证体系,但存在领域依赖性强和可能窄化模型能力的局限。未来将聚焦垂直领域优化和工业级实施方案,推动技术实际落地。

本文总结了多种视频观看时长预估方法。Weighted LR通过加权正样本和logits建模预估时长;D2Q分组预测但未解决顺序依赖问题;树回归利用二叉树分段并引入方差loss保持顺序性;CREAD采用离散化-分类-恢复框架,通过概率积分恢复连续时长;EMD则基于运输成本最小化原理,利用Mallows距离解决有序分类问题,适用于存在类别依赖的场景。这些方法从不同角度解决了时长预估中的偏差和顺序依赖问

本文分享了Flash Attention v2的学习笔记,主要内容包括: Flash Attention v2的主要优化点:减少非matmul计算、优化seqlen维度并行、改进Warp分区策略 对比v1和v2的计算逻辑差异,包括IO交换次数减少和循环顺序调整 提供官方Triton实现的代码片段,展示了注意力机制的核心计算过程 介绍了在不同硬件平台上的配置选项 文章是系列笔记的一部分,涉及Flas

摘要 本文系统介绍了多种大语言模型(LLM)优化框架与技术: 验证重试机制:通过初始化配置、验证循环和智能修复策略(如JSONPatch)提升工具调用的准确性。 LATS框架:采用蒙特卡洛树搜索实现思维树扩展,通过"选择-扩展-评估-回溯"四步循环获得结构化解决方案。 LLMCompiler:创新性任务并行框架,通过任务图规划、智能调度和结果合并,显著提升复杂问题处理效率。 多

本文提出了一种新型强化学习算法AEPO(Agentic Entropy-Balanced Policy Optimization),旨在解决大模型在多轮工具调用任务中因过度依赖熵信号导致的两个关键问题:高熵轨迹崩溃和梯度裁剪失效。AEPO通过动态熵平衡机制(包括熵预监控和分支惩罚)和熵感知策略优化(停止梯度裁剪和优势估计),在14个推理任务上实现了SOTA性能,仅需1K训练样本就超越GPT-4o等

近年来,研究者提出了多种混合推理方法,在思考(CoT)和非思考模式间实现智能切换。








