logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

ChatRex & RexSeek & RexThinker: 结合多模态大语言模型的目标检测模型构建

ChatRex、RexSeek 和 RexThinker,这三者分别代表着目标检测任务从自然语言理解、到指代消解、再到多模态推理能力的三次进化。

文章图片
#经验分享#人工智能#计算机视觉 +2
Fast-dLLM v2:高效训练推理的块扩散大语言模型框架

Fast-dLLM v2 旨在通过高效块扩散架构突破大模型推理的速度瓶颈。

文章图片
#语言模型#人工智能#自然语言处理
从 DeepSeek-V3 到 Kimi K2:八种现代大语言模型架构设计

摘要: 本文对比了2025年主流大语言模型(LLM)的架构演进,聚焦于DeepSeek V3/R1和OLMo 2的关键创新。DeepSeek V3采用**多头潜在注意力(MLA)压缩KV缓存以提升推理效率,并通过混合专家(MoE)**架构(含共享专家)实现参数高效利用(6710亿参数中仅激活37亿)。OLMo 2则以其开源透明性著称,虽性能非顶尖但为LLM开发提供了清晰蓝图。文章指出,尽管近年模型

文章图片
#语言模型#人工智能#自然语言处理
开源最强多模态大模型InternVL 2.0是怎么炼成的?

青稞Talk主页:qingkelab.github.io/talks所有直播回放:https://appodzjvyp51702.h5.xiaoeknow.com随着大语言模型的兴起,多模态大模型也取得了显著进步,推动了复杂的视觉语言对话和交互,弥合了文本与视觉信息之间的鸿沟。然而,现有的开源模型与商用闭源模型(如GPT-4o和Gemini 1.5 Pro)之间的能力差距仍然显著。InternVL

文章图片
#人工智能#语言模型#开源
长文本推理一定要改架构?阿里最新提出 RTPurbo:仅需百步训练,无损达到 97%+ 稀疏度与 9 倍加速

RTPurbo:基于原生稀疏性的高效大语言模型推理优化 摘要: 本文提出RTPurbo,一种通过轻量级微调激活大语言模型原生稀疏特性的高效推理优化方案。研究发现,经过Full Attention训练的模型在Head和Token级别已具备高度稀疏性:仅15%的Attention Head承担长程检索功能,且低频RoPE编码可构建极低维检索空间。RTPurbo通过离线Head校准、动态稀疏注意力机制和

文章图片
#架构#人工智能
清华最新论文!动态 MoE 迁移算法 ZEDA:让 MoE 自己学会“摸鱼“,推理提速 20%

本文提出ZEDA方法,通过注入零专家和自蒸馏训练,将已训练好的MoE模型低成本迁移为动态MoE模型。核心创新包括:1)引入零专家作为跳过计算的选项;2)采用SFT+OPD两阶段自蒸馏适应新结构;3)设计分组辅助损失控制计算节省比例。实验表明,该方法能在跳过约50%专家计算的情况下,保持模型在数学推理、代码生成和指令遵循等任务上的性能仅小幅下降。相比直接修改路由或裁剪专家,ZEDA提供了一种更温和高

文章图片
#算法#人工智能#深度学习
ICLR 2026|Next-ToBE:让“自信而短视“的大模型看得更远、推理更准

华东师范大学与复旦大学团队在ICLR 2026论文《Next-ToBE》中提出了一种创新的大语言模型训练方法。研究发现,当前模型预测分布中已隐含未来token信息,但标准next-token训练目标未能充分利用这一前瞻能力。Next-ToBE通过将单点one-hot标签扩展为覆盖未来窗口的软目标分布,在不改变模型结构的情况下激活了模型的潜在前瞻能力。实验表明,该方法在数学推理、代码生成等任务上显著

文章图片
#人工智能
ICLR 2026|Next-ToBE:让“自信而短视“的大模型看得更远、推理更准

华东师范大学与复旦大学团队在ICLR 2026论文《Next-ToBE》中提出了一种创新的大语言模型训练方法。研究发现,当前模型预测分布中已隐含未来token信息,但标准next-token训练目标未能充分利用这一前瞻能力。Next-ToBE通过将单点one-hot标签扩展为覆盖未来窗口的软目标分布,在不改变模型结构的情况下激活了模型的潜在前瞻能力。实验表明,该方法在数学推理、代码生成等任务上显著

文章图片
#人工智能
Claude Code 源码逆向工程与系统性分析!Harness Engineering: 基于 Claude Code 的完全指南

近 5 万字的claude code解析,55 张专业图表,基于扫描泄露的 Claude Code 50万行源码的系统性分析,帮助大家理解harness engineering。

文章图片
#人工智能#交互#学习
Claude Code 源码深度解析:运行机制与 Memory 模块详解

本文对Claude Code CLI工具的源码进行了深度解析,重点分析其核心运行机制和Memory模块设计。文章首先介绍了Claude Code作为Anthropic开发的命令行AI编程助手的技术栈(Bun/TypeScript/Commander.js等)和项目结构。随后详细阐述了其核心运行流程:从用户输入开始,通过QueryEngine管理对话状态,进入queryLoop()核心循环处理消息准

文章图片
#elasticsearch#大数据#搜索引擎 +1
    共 126 条
  • 1
  • 2
  • 3
  • 13
  • 请选择