logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

一个专注于探索生成式AI前沿技术及其应用的实验室。我们致力于推动生成式AI在各个领域的创新与突破,挖掘其潜在的应用场景,为企业和个人提供切实可行的解决方案。

DeepSeek回应消失传闻,发布DeepSeek V3.2模型

DeepSeek回应消失传闻,发布DeepSeek V3.2模型

文章图片
#人工智能#DeepSeek
复旦大学推出OmniAVS:让AI看懂、听懂视频中的每个细节

而OISA的方法更像人类的感知过程,它将音频切分成与视频帧对应的片段,然后交替处理视觉和听觉信息,就像"看一帧,听一段,再看一帧,再听一段"这样的节奏。如今,复旦大学的研究团队希望让人工智能也能像人类一样,不仅能"看到"视频画面,"听到"声音,还能理解这些信息的深层含义,并给出合理的解释。"(只是在逗你玩)的说话者,并解释说"老板在逗他的同事"。A:OISA采用了独特的"音视频交错"策略,将音频切

文章图片
#人工智能#音视频#语音识别
宾夕法尼亚大学突破:AI生成符合物理定律的视频

宾夕法尼亚大学突破:AI生成符合物理定律的视频

文章图片
#视频生成
TUM团队突破性发现:AI模型竟能用“错误“数据学会完美推理!

在更复杂的组合任务中,即使是经过grokking训练的模型,在面对全新问题时的表现也只有7%,这表明复杂的多步推理仍然是一个具有挑战性的问题。此外,当任务从简单的结构化数据扩展到完整的维基百科段落时,模型的表现也会下降,这反映了真实世界文本的复杂性和噪音对AI推理能力的影响。这个研究的神奇之处在于,一个只有1.24亿参数的小型GPT-2模型,经过特殊训练后,在复杂的多步推理任务上竟然达到了95-1

文章图片
#人工智能#算法
华沙大学团队破解MoE架构调参难题

不过,华沙大学联合多个研究机构的团队在2025年8月发表了一项突破性研究,首次将μ参数化技术成功扩展到了混合专家(MoE)架构中,为这个困扰业界的问题提供了优雅的解决方案。它就像是找到了一个万能的烹饪公式,能够确保无论制作多大份量的食物,都能保持相同的美味。而现在,他们可以在相对较小的模型上进行参数调优,然后将结果直接应用到大模型上,大大减少了计算资源的消耗。总的来说,这项由华沙大学领导的国际合作

文章图片
#架构
斯坦福大学研究团队发明“会读心术“的AI:一个提示就能帮大模型了解你的喜好

他们发现,这些画像展现了丰富的多样性,涵盖了从"分析深度型"到"平衡视角型",从"创意欣赏型"到"幽默搞笑型"等13种不同的用户类型。而最小的群体是"环保关注型"和"幽默搞笑型"用户,各有8个。比如,如果用户选择了一个简洁的回答而不是详细的解释,AI可能会推测"这个用户可能比较注重效率,不喜欢冗长的叙述",或者"这个用户可能在寻找快速的解决方案"。他们开发了一个叫做"SynthesizeMe"的创

文章图片
#人工智能
北大与腾讯联手:让机器像人类团队一样协作思考

这项由北京大学计算机科学学院的骆俊宇、张明等研究者,联合腾讳优图实验室、南洋理工大学、芝加哥大学等多家顶尖机构共同完成的大规模综述研究,发表于2025年3月的预印本论文平台arXiv。感兴趣的读者可以通过arXiv:2503.21460v1获取完整论文。这项研究首次系统性地梳理了大语言模型智能体这一前沿领域的完整技术图谱,为理解AI智能体的未来发展提供了重要指南。在人工智能飞速发展的今天,我们正见

文章图片
#人工智能#机器学习#深度学习
斯坦福等高校联手:静态照片生成全身数字人

首先是"数字水印"技术,所有通过MegaPortrait生成的视频都会包含不可见的标识,表明这是AI生成的内容。展望未来,随着这项技术的不断完善和普及,我们可能会看到一个全新的数字世界,在那里,静态和动态之间的界限变得模糊,每个人的创意都能得到充分的表达。"数据稀缺性"是另一个棘手的问题。MegaPortrait采用了一种全新的"学习策略",就像一个聪明的学生,不需要死记硬背所有的知识点,而是学会

文章图片
#人工智能
我们最常用的AI聊天机器人以及使用方式调研报告

在报告中,ChatGPT是位居首位的AI助手,28%的受访者首选它。其次是谷歌的Gemini,占23%,Meta AI和亚马逊的Alexa均占18%,苹果的Siri占16%。根据一项新调查显示,91%的AI用户都有自己偏爱的聊天机器人,无论是ChatGPT、Gemini、Alexa还是其他工具,他们都会优先尝试。Menlo Ventures对5000名成年人进行的调查发现,这种"默认工具动态"意味

文章图片
#人工智能#机器人
浙江大学团队打造的神奇视频重拍工具ReCamMaster

GCD方法虽然开创了摄像机控制的视频到视频生成,但由于训练数据的领域限制和较弱的视频条件机制,在真实世界视频上的泛化能力有限。同时,为了提高内容生成能力,系统在训练过程中以一定概率实施文本到视频和图像到视频的摄像机控制生成任务,这样不仅提升了模型的生成能力,还使得训练出的模型能够同时支持三种不同类型的摄像机控制生成任务。这正是ReCamMaster要解决的核心问题——它能够根据一段已有的视频,重新

文章图片
#音视频#人工智能
    共 523 条
  • 1
  • 2
  • 3
  • 53
  • 请选择