
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
视觉理解和编码是前沿多模态大语言模型的两大核心能力——然而,它们与人类能力相比,表现却截然不同。在编码方面,模型已经远远超越了专家级水平,能够生成、调试和优化复杂的项目。但在视觉方面,差距依然巨大:正如我们之前的项目 BabyVision 所展示的那样,模型仍然难以完成人类能够轻松解决的任务。这种不对称性引出了一个自然的问题:编码能否用于提升视觉能力?

我们探索了一种基于 Transformer 架构的新型扩散模型。我们训练图像的潜在扩散模型,用一个作用于潜在图像块的 Transformer 网络替换了常用的 U-Net 骨干网络。我们通过前向传播复杂度(以Gflops衡量)来分析扩散 Transformer(DiT)的可扩展性。我们发现,通过增加Transformer 的深度/宽度或增加输入标记的数量来提高 Gflops 的 DiT,其 FID

深度搜索能力已成为前沿大语言模型(LLM)智能体不可或缺的核心能力,然而,由于缺乏透明、高质量的训练数据,高性能搜索智能体的开发仍然被行业巨头所主导。这种持续的数据匮乏从根本上阻碍了更广泛的研究群体在该领域的开发和创新。为了弥合这一差距,我们推出了 **OpenSeeker**,这是首个完全开源的搜索智能体(包括模型和数据),它通过两项核心技术创新实现了前沿级别的性能:(1)基于事实的可扩展可控问

摘要:文章探讨了人工智能代理(Agent)的发展趋势,从专业领域特定代理转向通用代理与专业技能(Skills)相结合的范式。随着Claude Code等通用编码代理的成熟,行业发现核心问题在于代理缺乏领域专业知识。Skills作为解决方案应运而生,它通过结构化文件集合打包领域知识,使通用代理能按需获取专业技能。文章详细介绍了Skills的三层架构、生态系统(基础技能、合作伙伴技能和企业技能)以及它

本文介绍了如何将 AlphaAvatar 通过 Channel 架构接入 WhatsApp,实现从 Playground 到真实通信场景的跨越。我们将深入解析 AlphaAvatar 的 Runtime、Bridge 与 Driver 解耦设计,并通过 Baileys Driver 实现 WhatsApp 消息的完整链路接入,包括消息接收、路由转发以及 Agent 自动回复。同时,文章也总结了当前

有监督微调 (SFT) 是领域自适应的标准范式,但它常常导致灾难性遗忘。与之形成鲜明对比的是,on-policy Reinforcement Learning (RL) 能够有效地保留通用能力。**我们研究了这种差异,并发现了一个根本性的分布差距:RL 遵循模型的内部信念,而 SFT 则迫使模型适应外部监督**。这种不匹配通常表现为“**Confident Conflicts**”——即概率低但熵

在大语言模型时代,混合专家(MoE)架构在模型参数扩展时,是一种管理计算成本的有效方法。然而,传统的混合专家架构(例如 GShard)从 $N$ 个专家中激活排名 $top-K$ 的专家,**在确保专家专业化方面面临挑战,即每个专家获取的知识不重叠且具有针对性**。为此,我们提出了 DeepSeekMoE 架构,旨在实现极致的专家专业化。该架构包含两个主要策略:(1)将专家精细划分为 $mN$ 个

我们提出 DeepSeek-OCR 2,旨在研究一种新型编码器的可行性 — **DeepEncoder V2**。**该编码器能够根据图像语义动态地重新排列视觉 token**。传统的视觉语言模型(VLM)在将图像输入 LLM 时,总是以固定的位置编码,按照固定的光栅扫描顺序(从左上到右下)处理视觉 token。然而,这与人类视觉感知相悖。人类视觉感知遵循灵活但语义连贯的扫描模式,这种模式由其固有

Skills与MCP协同构建智能工作流:MCP提供工具连接,Skills赋予操作知识。MCP负责安全访问外部系统(如Notion、GitHub),而Skills则定义工作流程(如会议准备、财务分析),确保结果一致性。二者结合可实现清晰的任务发现、可靠的多步骤编排和标准化输出。MCP适用于实时数据访问和系统操作,Skills则编码团队专业知识和工作流程。典型案例包括通过MCP连接财务数据源执行自动化

我们推出了 DeepSeek-V3.2 模型,该模型兼顾了高计算效率、卓越的推理能力和智能体性能。DeepSeek-V3.2 的关键技术突破如下:(1) **DeepSeek Sparse Attention (DSA)**:我们引入了 DSA,这是一种高效的注意力机制,能够在长上下文场景下显著降低计算复杂度,同时保持模型性能。(2) **Scalable Reinforcement Learni








