logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention翻译

长上下文建模对于下一代语言模型至关重要,然而,标准注意力机制的高计算成本带来了巨大的计算挑战。稀疏注意力机制为在保持模型性能的同时为提高效率提供了一个很有前景的方向。**我们提出了 Natively trainable Sparse Attention ——NSA,它将算法创新与硬件优化相结合,实现了高效的长上下文建模**。NSA采用动态分层稀疏策略,结合了粗粒度 token 压缩和细粒度 tok

文章图片
#语言模型#人工智能#自然语言处理
Multimodal OCR: Parse Anything from Documents翻译

我们提出了一种名为 **dots.mocr** 的 Multimodal OCR (MOCR) 文档解析范式,**它将文本和图形联合解析为统一的文本表示**。与传统的 OCR 系统专注于文本识别并将图形区域裁剪为像素不同,我们的方法将图表、示意图、表格和图标等视觉元素视为一级解析目标,使系统能够在解析文档的同时保留元素间的语义关系。**该方法具有以下几个优势**:(1)它将文本和图形都重构为结构化

文章图片
DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence翻译

我们发布了 DeepSeek-V4 系列的预览版,其中包括两个强大的混合专家 (MoE) 语言模型:**DeepSeek-V4-Pro**(参数量 1.6T,激活参数 49B)和 **DeepSeek-V4-Flash**(参数量 284B,激活参数 13B),两者均支持百万级上下文长度。DeepSeek-V4 系列在架构和优化方面进行了多项关键升级:(1) **混合注意力架构**,结合了压缩稀疏

文章图片
#人工智能#语言模型#自然语言处理
DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence翻译

我们发布了 DeepSeek-V4 系列的预览版,其中包括两个强大的混合专家 (MoE) 语言模型:**DeepSeek-V4-Pro**(参数量 1.6T,激活参数 49B)和 **DeepSeek-V4-Flash**(参数量 284B,激活参数 13B),两者均支持百万级上下文长度。DeepSeek-V4 系列在架构和优化方面进行了多项关键升级:(1) **混合注意力架构**,结合了压缩稀疏

文章图片
#人工智能#语言模型#自然语言处理
DeepImageSearch翻译

现有的多模态检索系统在语义匹配方面表现出色,但它们隐含地假设 query-image 的相关性可以独立衡量。这种范式忽略了真实视觉流中固有的丰富依赖关系,其中信息分布在时间序列中,而非局限于单个快照。为了弥补这一不足,我们引入了**DeepImageSearch**,一种新的智能体范式,它将图像检索重新定义为一个自主探索任务。模型必须规划并对原始视觉历史进行多步骤推理,以基于隐式上下文线索定位目标

文章图片
#人工智能#语言模型
EAGLE-3: Scaling up Inference Acceleration of Large Language Models via Training-Time Test翻译

现代 LLM 的顺序特性导致其计算成本高昂且速度缓慢,而推测性采样已被证明是解决这一问题的有效方案。诸如 EAGLE 之类的方法在特征层执行自回归,通过重用目标模型中的顶层特征来获得比传统推测性采样更好的结果。**LLM 领域的一个发展趋势是扩展训练数据以在不增加推理成本的情况下提升模型智能**。然而,我们观察到,扩展数据对 EAGLE 的改进有限。我们发现,这种限制源于 EAGLE 的特征预测约

文章图片
#语言模型#人工智能#自然语言处理
Effective harnesses for long-running agents翻译

摘要 本文探讨了长期运行AI智能体面临的挑战及解决方案。主要问题在于智能体在离散会话中工作时会丢失上下文记忆,导致效率低下。研究提出了双重解决方案:初始化智能体负责首次运行时设置环境(包括脚本、进度文件和Git提交),编码智能体则在后续会话中逐步推进任务。通过增量开发、严格测试和进度记录等方法,智能体能在多个上下文窗口中持续工作。实验表明,该方法能显著提升智能体在复杂任务(如Web应用开发)中的表

#语言模型#人工智能
DFlash: Block Diffusion for Flash Speculative Decoding翻译

自回归大语言模型(LLM)性能优异,但其固有的顺序解码机制导致推理延迟高、GPU 利用率低。推测性解码通过使用快速 draft 模型来缓解这一瓶颈,该 draft 模型的输出由目标 LLM 并行验证。然而,现有方法仍然依赖于自回归 draft 生成,这仍然是顺序的,限制了实际加速的提升。Diffusion LLM 通过实现并行生成提供了一种很有前景的替代方案,但当前的 Diffusion 模型通常

文章图片
#人工智能#语言模型#自然语言处理
gpt-oss-120b & gpt-oss-20b Model Card翻译

我们推出了 gpt-oss-120b 和 gpt-oss-20b,这两个开放权重推理模型遵循 Apache 2.0 许可证和我们的 gpt-oss 使用政策。这些纯文本模型是根据开源社区的反馈开发的,与我们的 Responses API 兼容,旨在用于具有强大指令遵循能力的 Agent 工作流中,支持网页搜索和 Python 代码执行等工具,并具备推理能力——包括**能够针对不需要复杂推理的任务调

文章图片
#人工智能#语言模型#自然语言处理
How we built our multi-agent research system翻译

  Claude 现在拥有 Research 能力,可以跨网络、Google Workspace 和任何集成进行搜索,以完成复杂的任务。  这个多智能体系统从原型到生产的历程,教会了我们关于系统架构、工具设计和提示工程的重要经验。多智能体系统由多个智能体(LLM)组成,它们以循环的方式自主使用工具。我们的 Research 功能包含一个智能体,它会根据用户查询规划研究流程,然后使用工具创建并行智能

文章图片
#人工智能#语言模型#自然语言处理
    共 137 条
  • 1
  • 2
  • 3
  • 14
  • 请选择