
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
一个专注于探索生成式AI前沿技术及其应用的实验室。我们致力于推动生成式AI在各个领域的创新与突破,挖掘其潜在的应用场景,为企业和个人提供切实可行的解决方案。
DeepSeek回应消失传闻,发布DeepSeek V3.2模型

而OISA的方法更像人类的感知过程,它将音频切分成与视频帧对应的片段,然后交替处理视觉和听觉信息,就像"看一帧,听一段,再看一帧,再听一段"这样的节奏。如今,复旦大学的研究团队希望让人工智能也能像人类一样,不仅能"看到"视频画面,"听到"声音,还能理解这些信息的深层含义,并给出合理的解释。"(只是在逗你玩)的说话者,并解释说"老板在逗他的同事"。A:OISA采用了独特的"音视频交错"策略,将音频切

宾夕法尼亚大学突破:AI生成符合物理定律的视频

在更复杂的组合任务中,即使是经过grokking训练的模型,在面对全新问题时的表现也只有7%,这表明复杂的多步推理仍然是一个具有挑战性的问题。此外,当任务从简单的结构化数据扩展到完整的维基百科段落时,模型的表现也会下降,这反映了真实世界文本的复杂性和噪音对AI推理能力的影响。这个研究的神奇之处在于,一个只有1.24亿参数的小型GPT-2模型,经过特殊训练后,在复杂的多步推理任务上竟然达到了95-1

不过,华沙大学联合多个研究机构的团队在2025年8月发表了一项突破性研究,首次将μ参数化技术成功扩展到了混合专家(MoE)架构中,为这个困扰业界的问题提供了优雅的解决方案。它就像是找到了一个万能的烹饪公式,能够确保无论制作多大份量的食物,都能保持相同的美味。而现在,他们可以在相对较小的模型上进行参数调优,然后将结果直接应用到大模型上,大大减少了计算资源的消耗。总的来说,这项由华沙大学领导的国际合作

他们发现,这些画像展现了丰富的多样性,涵盖了从"分析深度型"到"平衡视角型",从"创意欣赏型"到"幽默搞笑型"等13种不同的用户类型。而最小的群体是"环保关注型"和"幽默搞笑型"用户,各有8个。比如,如果用户选择了一个简洁的回答而不是详细的解释,AI可能会推测"这个用户可能比较注重效率,不喜欢冗长的叙述",或者"这个用户可能在寻找快速的解决方案"。他们开发了一个叫做"SynthesizeMe"的创

这项由北京大学计算机科学学院的骆俊宇、张明等研究者,联合腾讳优图实验室、南洋理工大学、芝加哥大学等多家顶尖机构共同完成的大规模综述研究,发表于2025年3月的预印本论文平台arXiv。感兴趣的读者可以通过arXiv:2503.21460v1获取完整论文。这项研究首次系统性地梳理了大语言模型智能体这一前沿领域的完整技术图谱,为理解AI智能体的未来发展提供了重要指南。在人工智能飞速发展的今天,我们正见

首先是"数字水印"技术,所有通过MegaPortrait生成的视频都会包含不可见的标识,表明这是AI生成的内容。展望未来,随着这项技术的不断完善和普及,我们可能会看到一个全新的数字世界,在那里,静态和动态之间的界限变得模糊,每个人的创意都能得到充分的表达。"数据稀缺性"是另一个棘手的问题。MegaPortrait采用了一种全新的"学习策略",就像一个聪明的学生,不需要死记硬背所有的知识点,而是学会

在报告中,ChatGPT是位居首位的AI助手,28%的受访者首选它。其次是谷歌的Gemini,占23%,Meta AI和亚马逊的Alexa均占18%,苹果的Siri占16%。根据一项新调查显示,91%的AI用户都有自己偏爱的聊天机器人,无论是ChatGPT、Gemini、Alexa还是其他工具,他们都会优先尝试。Menlo Ventures对5000名成年人进行的调查发现,这种"默认工具动态"意味

GCD方法虽然开创了摄像机控制的视频到视频生成,但由于训练数据的领域限制和较弱的视频条件机制,在真实世界视频上的泛化能力有限。同时,为了提高内容生成能力,系统在训练过程中以一定概率实施文本到视频和图像到视频的摄像机控制生成任务,这样不仅提升了模型的生成能力,还使得训练出的模型能够同时支持三种不同类型的摄像机控制生成任务。这正是ReCamMaster要解决的核心问题——它能够根据一段已有的视频,重新









