logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

AAAI2026 Oral 重磅首发!港大 & 自动化所 ARRA,混合令牌 + 对齐损失,LLM 文生图全局一致性实现质的飞跃!

本文提出ARRA(自回归表示对齐)框架,通过引入全局视觉对齐损失与混合令牌,在不修改LLM架构的前提下,解决了其文本到图像生成时的全局连贯性不足问题。实验验证,ARRA在医疗(MIMIC-CXR)、自然图像(ImageNet)等领域均有效:降低先进LLM的FID值(如MIMIC-CXR上降25.5%),支持领域适配(医疗场景FID降18.6%),且加速训练收敛,证明“重设计训练目标”是突破跨模态生

文章图片
#自动化#计算机视觉
复旦大学26岁博士生《Nature》正刊发文,破解裸眼3D显示数十年技术瓶颈

马炜杰及其团队的这项研究,不仅为裸眼3D显示技术带来了里程碑式的突破,更展现了交叉学科思维的巨大潜力。EyeReal方案以其低成本、高性能和优越的用户体验,为数字娱乐、智能教育、工业设计、医疗影像等领域打开了全新的想象空间。正如马炜杰在社交媒体上所分享的:“科研的本质是探索未知,沿途的挑战终将成为人生的独特风景。”从一位对AI充满热情的“跨界者”,到站上世界顶尖科学舞台的青年学者,马炜杰用行动诠释

文章图片
#计算机视觉#3d
复旦大学26岁博士生《Nature》正刊发文,破解裸眼3D显示数十年技术瓶颈

马炜杰及其团队的这项研究,不仅为裸眼3D显示技术带来了里程碑式的突破,更展现了交叉学科思维的巨大潜力。EyeReal方案以其低成本、高性能和优越的用户体验,为数字娱乐、智能教育、工业设计、医疗影像等领域打开了全新的想象空间。正如马炜杰在社交媒体上所分享的:“科研的本质是探索未知,沿途的挑战终将成为人生的独特风景。”从一位对AI充满热情的“跨界者”,到站上世界顶尖科学舞台的青年学者,马炜杰用行动诠释

文章图片
#计算机视觉#3d
自动驾驶生成式革命!AAAI2026 Oral 顶会成果:新国立 & 自动化所 LiDARCrafter,文本秒变 4D LiDAR 序列,高危场景生成让仿真更真实!

本文提出LiDARCrafter这一统一框架,专为可控4D LiDAR序列生成与编辑设计。其通过场景图解析文本指令,结合多分支扩散模型生成目标布局、静态帧,并以自回归策略保证序列时间连贯性,同时构建覆盖场景-目标-序列级的评估基准。在nuScenes数据集上的实验表明,该框架在保真度、连贯性与可控性上全面超越现有方法,不仅能生成高质量LiDAR数据,还可合成安全关键场景,为自动驾驶下游系统评估提供

文章图片
#自动驾驶#自动化#人工智能
小米放大招!陈龙博士领衔,罗福莉技术加持,全球首个跨域统一模型 MiMo-Embodied,17+12 项任务登顶,开启智能新纪元!

在发布多款自研大模型后,小米具身智能团队发布首篇论文,推出统一具身智能与自动驾驶的新模型MiMo-Embodied。该模型以罗福莉团队此前发布的MiMo-VL为基座持续训练,在17项具身任务和12项自动驾驶任务中表现领先,从工程层面实现了两大分离技术领域的统一建模。这是小米智驾团队首席科学家陈龙博士担任项目负责人、郝孝帅为核心第一作者的团队首个重大成果,此前曾有媒体误解为罗福莉的首个小米成果,当事

文章图片
小米放大招!陈龙博士领衔,罗福莉技术加持,全球首个跨域统一模型 MiMo-Embodied,17+12 项任务登顶,开启智能新纪元!

在发布多款自研大模型后,小米具身智能团队发布首篇论文,推出统一具身智能与自动驾驶的新模型MiMo-Embodied。该模型以罗福莉团队此前发布的MiMo-VL为基座持续训练,在17项具身任务和12项自动驾驶任务中表现领先,从工程层面实现了两大分离技术领域的统一建模。这是小米智驾团队首席科学家陈龙博士担任项目负责人、郝孝帅为核心第一作者的团队首个重大成果,此前曾有媒体误解为罗福莉的首个小米成果,当事

文章图片
DeepSeek-OCR 开源即霸榜,100token 干翻 7000 个,AI “JPEG 时刻” 降临!!

谁能想到,DeepSeek-OCR的模型竟让硅谷集体沸腾?DeepSeek刚开源的DeepSeek-OCR,凭"用视觉压缩一切文本"的颠覆性思路,不仅在GitHub狂揽4K星+、冲上榜HuggingFace热榜第二,更被网友盛赞"开源了谷歌Gemini的核心机密",堪称AI领域的"JPEG时刻"!DeepSeek的OCR项目由Haoran Wei、Yaofeng Sun、Yukun Li三位研究员

文章图片
#人工智能
深度学习本质被看透!何恺明团队2025年以“简化+结构沟“为核心,五大方向突破,推动AI从工程优化到理论可解释

2025年,何恺明团队以“简化、结构、泛化、物理性、重构”为关键词,完成了一场对深度学习核心范式的系统性反思与重塑。在生成领域,团队通过去除噪声条件、引入分形结构、设计单步流场等创新,剥离冗余组件,揭示了生成建模的本质机制;在表征学习中,以“解构退化”的反向思维,证明了简洁架构的强大潜力;在物理推理方向,融合经典力学与神经算子,实现了可解释、多任务的物理建模;在理论层面,重审数据集偏差问题,为行业

文章图片
#人工智能#深度学习
Meta提出多token模型,开启人工智能的新起点,或将彻底改变当前主流的模型训练方法!

Meta 提出了一种新颖的训练 LLMs 的方法,这种方法在进行模型训练时同时预 测多个 token,而不是传统的每次预测一个token 的方法。这种多 token 模型不仅 将文本生成速度提高了三倍,而且还提高了模型的智能性,MBPP 和 HumanEval 等编码基准的卓越性能证明了这种方法的有效性。新的架构包括额外的输出头, 允许模型在进行预测时考虑后续标记的上下文,从而产生更加连贯和上下文

文章图片
#深度学习#机器学习#人工智能
CVPR 2025 | CNN:我又活过来了!港大 OverLoCK 重塑即插即用视觉Backbone网络,性能碾压传统模型!

现代卷积神经网络(ConvNets)常采用金字塔结构,忽略了人类视觉系统中自上而下注意力机制这一仿生原理。本文提出的OverLoCK是首个集成该机制的纯卷积骨干网络架构,它通过Base-Net、Overview-Net和Focus-Net三个协同子网络实现“先概览、后细看”的功能。同时,论文提出上下文混合动态卷积(ContMix),能有效建模长距离依赖关系并保留局部归纳偏差。

文章图片
#cnn#网络#人工智能
    共 118 条
  • 1
  • 2
  • 3
  • 12
  • 请选择