
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文提出ARRA(自回归表示对齐)框架,通过引入全局视觉对齐损失与混合令牌,在不修改LLM架构的前提下,解决了其文本到图像生成时的全局连贯性不足问题。实验验证,ARRA在医疗(MIMIC-CXR)、自然图像(ImageNet)等领域均有效:降低先进LLM的FID值(如MIMIC-CXR上降25.5%),支持领域适配(医疗场景FID降18.6%),且加速训练收敛,证明“重设计训练目标”是突破跨模态生

马炜杰及其团队的这项研究,不仅为裸眼3D显示技术带来了里程碑式的突破,更展现了交叉学科思维的巨大潜力。EyeReal方案以其低成本、高性能和优越的用户体验,为数字娱乐、智能教育、工业设计、医疗影像等领域打开了全新的想象空间。正如马炜杰在社交媒体上所分享的:“科研的本质是探索未知,沿途的挑战终将成为人生的独特风景。”从一位对AI充满热情的“跨界者”,到站上世界顶尖科学舞台的青年学者,马炜杰用行动诠释

马炜杰及其团队的这项研究,不仅为裸眼3D显示技术带来了里程碑式的突破,更展现了交叉学科思维的巨大潜力。EyeReal方案以其低成本、高性能和优越的用户体验,为数字娱乐、智能教育、工业设计、医疗影像等领域打开了全新的想象空间。正如马炜杰在社交媒体上所分享的:“科研的本质是探索未知,沿途的挑战终将成为人生的独特风景。”从一位对AI充满热情的“跨界者”,到站上世界顶尖科学舞台的青年学者,马炜杰用行动诠释

本文提出LiDARCrafter这一统一框架,专为可控4D LiDAR序列生成与编辑设计。其通过场景图解析文本指令,结合多分支扩散模型生成目标布局、静态帧,并以自回归策略保证序列时间连贯性,同时构建覆盖场景-目标-序列级的评估基准。在nuScenes数据集上的实验表明,该框架在保真度、连贯性与可控性上全面超越现有方法,不仅能生成高质量LiDAR数据,还可合成安全关键场景,为自动驾驶下游系统评估提供

在发布多款自研大模型后,小米具身智能团队发布首篇论文,推出统一具身智能与自动驾驶的新模型MiMo-Embodied。该模型以罗福莉团队此前发布的MiMo-VL为基座持续训练,在17项具身任务和12项自动驾驶任务中表现领先,从工程层面实现了两大分离技术领域的统一建模。这是小米智驾团队首席科学家陈龙博士担任项目负责人、郝孝帅为核心第一作者的团队首个重大成果,此前曾有媒体误解为罗福莉的首个小米成果,当事

在发布多款自研大模型后,小米具身智能团队发布首篇论文,推出统一具身智能与自动驾驶的新模型MiMo-Embodied。该模型以罗福莉团队此前发布的MiMo-VL为基座持续训练,在17项具身任务和12项自动驾驶任务中表现领先,从工程层面实现了两大分离技术领域的统一建模。这是小米智驾团队首席科学家陈龙博士担任项目负责人、郝孝帅为核心第一作者的团队首个重大成果,此前曾有媒体误解为罗福莉的首个小米成果,当事

谁能想到,DeepSeek-OCR的模型竟让硅谷集体沸腾?DeepSeek刚开源的DeepSeek-OCR,凭"用视觉压缩一切文本"的颠覆性思路,不仅在GitHub狂揽4K星+、冲上榜HuggingFace热榜第二,更被网友盛赞"开源了谷歌Gemini的核心机密",堪称AI领域的"JPEG时刻"!DeepSeek的OCR项目由Haoran Wei、Yaofeng Sun、Yukun Li三位研究员

2025年,何恺明团队以“简化、结构、泛化、物理性、重构”为关键词,完成了一场对深度学习核心范式的系统性反思与重塑。在生成领域,团队通过去除噪声条件、引入分形结构、设计单步流场等创新,剥离冗余组件,揭示了生成建模的本质机制;在表征学习中,以“解构退化”的反向思维,证明了简洁架构的强大潜力;在物理推理方向,融合经典力学与神经算子,实现了可解释、多任务的物理建模;在理论层面,重审数据集偏差问题,为行业

Meta 提出了一种新颖的训练 LLMs 的方法,这种方法在进行模型训练时同时预 测多个 token,而不是传统的每次预测一个token 的方法。这种多 token 模型不仅 将文本生成速度提高了三倍,而且还提高了模型的智能性,MBPP 和 HumanEval 等编码基准的卓越性能证明了这种方法的有效性。新的架构包括额外的输出头, 允许模型在进行预测时考虑后续标记的上下文,从而产生更加连贯和上下文

现代卷积神经网络(ConvNets)常采用金字塔结构,忽略了人类视觉系统中自上而下注意力机制这一仿生原理。本文提出的OverLoCK是首个集成该机制的纯卷积骨干网络架构,它通过Base-Net、Overview-Net和Focus-Net三个协同子网络实现“先概览、后细看”的功能。同时,论文提出上下文混合动态卷积(ContMix),能有效建模长距离依赖关系并保留局部归纳偏差。








