
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
关注公众号,发现CV技术之美Diffusion Transformer模型由于全局self-attention,其计算复杂度与序列长度平方成正比,导致其在高分辨率图像和长时间视频生成任务中面临计算成本高的问题。为此,来自中山大学和360 AI Research的研究人员基于Proxy token提出了一种高效的Diffusion Transformer 即PT-DiT, 能够适用于文本生成图像、视
研究者使用轻量级分割头直接在隐空间中预测出分割掩码,从而在引入极小计算开销的情况下,无需进行解码操作,帮助模型在生成视频的同时在潜在空间中执行物体分割任务,从而更好地理解物体的细粒度形状。在此基础上,轨迹可控的视频生成(trajectory-controllable video generation)涌现了许多工作,使得通过明确定义的路径精确控制生成视频中的物体运动轨迹成为可能。然而,现有方法在处
关注公众号,发现CV技术之美在多模态大语言模型(MLLMs)的发展中,视觉-语言连接器作为将视觉特征映射到LLM语言空间的关键组件,起到了桥梁作用。因此,它几乎成为了所有多模态大语言模型中不可或缺的结构之一。然而,如何高效地将视觉特征映射到LLM的探索还有很大提升空间。字节团队与中大合作提出的 ParGo 模型,通过巧妙地融合全局视野和局部细节,不仅在多项权威基准测试(Benchmark)中表现出
然而,一些新兴趋势——如多模态大模型(MLMs)、人工智能代理(AI Agents)、大语言模型(LLMs)、基础模型(FMs)、先进学习范式(如无监督、半监督、自监督学习)、以及对公平性与泛化能力的关注——在保障自动医学诊断的安全性与可靠性方面仍未得到充分探索。本次研讨会特别强调,在技术讨论的基础上,融合临床医生与放射科专家的实践洞见,以更好地推动该领域的发展。📝 扩展摘要(Extended
关注公众号,发现CV技术之美项目主页:https://x-plug.github.io/MobileAgent/论文地址:https://arxiv.org/abs/2501.11733在如今的智能手机时代,手机的使用已然成为人们日常生活的重要组成部分。除了娱乐,用户还需要应对许多繁琐耗时的任务,例如跨购物平台比价、检索和记录信息等。尽管现有的移动智能助手在简单指令和单个应用上已有不错的表现,但面
受该现象启发,作者根据视频理解所需要的4种核心能力(制定计划、搜索片段、验证片段、回答问题),为VideoMind定义了4个角色,并构建了一个角色化的工作流,有效地解决了长视频中的时序推理问题。给定一个视频和一个问题,该模型可以拆解问题、指定计划、搜索片段、验证结果,并根据获取的片段推理最终答案。该策略仅需要在Base模型上添加少量可学习参数,即可实现多个角色/功能间的无缝切换,既获得了比单一模型
这种方法使得模型能够在生成过程中动态地抑制幻觉的产生。尤为突出的是,在显著降低幻觉的同时,模型在通用任务上的表现不仅得以保持,甚至有所提升,充分验证了该方法的有效性与兼容性。通过检测器之间的交叉验证,系统自动区分幻觉与真实样本,并在此基础上构建高质量的域内偏好数据集,整个过程无需依赖专有大模型或人工标注,保证了方法的自主性与可扩展性。如图案例所示,基线模型因误读图像内容得出错误结论,而我们的模型能
Aero-1-Audio在LibriSpeech Clean上的WER仅为1.49,在SPGISpeech上的WER为1.97,这一表现超过了多款商用ASR服务,如ElevenLabs/Scribe、REV.AI/Fusion等,同时也优于经典的OpenAI Whisper large v3模型。作为一款轻量级但功能强大的音频模型,Aero-1-Audio在参数效率和性能之间实现了出色的平衡。在处
GenAI-Bench赛道 主要聚焦于文本生成视频(Text-to-Video, T2V)算法所生成视频的感知质量评估。其中,Multi-Dimensional Quality Prediction分赛道,模型需分别预测四个质量维度的得分,以更细致地刻画生成视频的各方面表现,捕捉更为复杂的质量差异。赛道二:GenAI-Bench: AIGC Video Quality Assessment Tra
当前普遍使用的图文跨模态模型如OpenAI CLIP,EVA-CLIP等,仍是基于第一代的整体图文对比学习算法训练得到,它们擅长捕捉全局信息,却难以分辨物体的细微属性差异,在处理细粒度视觉理解时面临非常大的挑战。例如,区分“一只黑色的狗”与“一只深棕色的狗”,或识别“陶瓷茶杯”与“玻璃茶杯”的材质差异,往往会让模型陷入困惑。视觉与语言的跨模态理解是大模型时代众多关键技术与业务应用的核心基石,如多模







