
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
他们提出了一种名为BOB(Beyond Objects)的新方法,旨在解决一个困扰业界已久的难题:如何利用文生图(T2I)模型,为细粒度分类任务生成高质量的训练数据,尤其是在只有少量真实样本(即“少样本学习”)的情况下。它不仅仅是简单地生成图片,而是通过因果干预的思想,从根本上提升了合成数据的质量和多样性,对于推动AIGC技术在严肃的科研和工业场景中的落地,具有非常重要的价值。例如,提示语不再是简
扩散模型通过一个“加噪-去噪”的过程来生成数据,因其出色的生成质量和稳定性,已成为当前视频生成领域的主流范式。工作原理:模型从参考图像中提取出独特的、能够定义身份的特征(如人脸特征、服装纹理等),并将这些特征作为一种强约束,在生成视频的每一帧时都注入该特征,从而确保角色在不同动作和视角下仍保持身份的连贯性。为了突破这些瓶颈,研究者们开始探索集成额外的非文本条件,如摄像机运动轨迹、深度图、人体姿态、
关注公众号,发现CV技术之美Diffusion Transformer模型由于全局self-attention,其计算复杂度与序列长度平方成正比,导致其在高分辨率图像和长时间视频生成任务中面临计算成本高的问题。为此,来自中山大学和360 AI Research的研究人员基于Proxy token提出了一种高效的Diffusion Transformer 即PT-DiT, 能够适用于文本生成图像、视
研究者使用轻量级分割头直接在隐空间中预测出分割掩码,从而在引入极小计算开销的情况下,无需进行解码操作,帮助模型在生成视频的同时在潜在空间中执行物体分割任务,从而更好地理解物体的细粒度形状。在此基础上,轨迹可控的视频生成(trajectory-controllable video generation)涌现了许多工作,使得通过明确定义的路径精确控制生成视频中的物体运动轨迹成为可能。然而,现有方法在处
关注公众号,发现CV技术之美在多模态大语言模型(MLLMs)的发展中,视觉-语言连接器作为将视觉特征映射到LLM语言空间的关键组件,起到了桥梁作用。因此,它几乎成为了所有多模态大语言模型中不可或缺的结构之一。然而,如何高效地将视觉特征映射到LLM的探索还有很大提升空间。字节团队与中大合作提出的 ParGo 模型,通过巧妙地融合全局视野和局部细节,不仅在多项权威基准测试(Benchmark)中表现出
然而,一些新兴趋势——如多模态大模型(MLMs)、人工智能代理(AI Agents)、大语言模型(LLMs)、基础模型(FMs)、先进学习范式(如无监督、半监督、自监督学习)、以及对公平性与泛化能力的关注——在保障自动医学诊断的安全性与可靠性方面仍未得到充分探索。本次研讨会特别强调,在技术讨论的基础上,融合临床医生与放射科专家的实践洞见,以更好地推动该领域的发展。📝 扩展摘要(Extended
关注公众号,发现CV技术之美项目主页:https://x-plug.github.io/MobileAgent/论文地址:https://arxiv.org/abs/2501.11733在如今的智能手机时代,手机的使用已然成为人们日常生活的重要组成部分。除了娱乐,用户还需要应对许多繁琐耗时的任务,例如跨购物平台比价、检索和记录信息等。尽管现有的移动智能助手在简单指令和单个应用上已有不错的表现,但面
受该现象启发,作者根据视频理解所需要的4种核心能力(制定计划、搜索片段、验证片段、回答问题),为VideoMind定义了4个角色,并构建了一个角色化的工作流,有效地解决了长视频中的时序推理问题。给定一个视频和一个问题,该模型可以拆解问题、指定计划、搜索片段、验证结果,并根据获取的片段推理最终答案。该策略仅需要在Base模型上添加少量可学习参数,即可实现多个角色/功能间的无缝切换,既获得了比单一模型
这种方法使得模型能够在生成过程中动态地抑制幻觉的产生。尤为突出的是,在显著降低幻觉的同时,模型在通用任务上的表现不仅得以保持,甚至有所提升,充分验证了该方法的有效性与兼容性。通过检测器之间的交叉验证,系统自动区分幻觉与真实样本,并在此基础上构建高质量的域内偏好数据集,整个过程无需依赖专有大模型或人工标注,保证了方法的自主性与可扩展性。如图案例所示,基线模型因误读图像内容得出错误结论,而我们的模型能
Aero-1-Audio在LibriSpeech Clean上的WER仅为1.49,在SPGISpeech上的WER为1.97,这一表现超过了多款商用ASR服务,如ElevenLabs/Scribe、REV.AI/Fusion等,同时也优于经典的OpenAI Whisper large v3模型。作为一款轻量级但功能强大的音频模型,Aero-1-Audio在参数效率和性能之间实现了出色的平衡。在处







