logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

马斯克开始疯狂剧透Grok 5了

这事还得从Grok 4超越预期的表现说起,发布才两个月就登上多个榜单第一的宝座,而就在刚刚,ARC Prize发布了两个最新的。先简单介绍一下ARC-AGI排行榜,其旨在评估AI解决复杂难题的能力,类似于人类的智力测试,从而反映LLM的推理能力。测试任务包含v1和v2版本,v2需要LLM完成更多的多步骤推理,一般来说,即使是最优秀的LLM也只能在v2中获得。Grok 4的训练量是Grok 2的10

爆发力超越波士顿动力液压机器人,PHYBOT M1实现全球首次全尺寸重型电驱人形机器人完美拟人态后空翻

动易科技坚信,只有在接近成人尺度的平台上,成功挑战人类身体极限的动作,才能证明其所依托的硬件架构、驱动系统与控制算法,具备了在真实、复杂、高强度的生产环境中替代乃至超越人类作业的潜力。因此,团队对电机,本体的关键参数进行了预先辩识,在参数辩识的基础上进行域随机化,保证了策略对现实误差更强的泛化能力,极大提升了策略从仿真到实物的转移成功率。当前的数据集质量参差不齐,大部分的数据不符合物理规律,直接使

#机器人
快手可灵也吃上了香蕉,一通离谱prompt测试,好好玩要爆了

一把复古金属浇水壶从画面右上角伸入,壶口倾斜,将水壶里的水流浇湿到明信片的土地上,照片里干裂的土地迅速变湿,颜色加深,湿润的土地从裂缝中冒出嫩绿春笋破土而出,迅速生长拔高,从明信片中长出来,3D效果。基于该视频生成下一个镜头:突然,一只手落在男人的肩上,视频里的男人一回头,发现是自己的特工搭档,搭档立刻捂住他的嘴让他别出声,两人神情紧绷地扫视四周。值得表扬的是,人物一致性保持的还不错,但是“落在肩

#人工智能
Grok新生图功能大翻车,画人总是画不对,网友喊话马斯克:给谷歌道歉

西风 发自 凹非寺量子位 | 公众号 QbitAI马斯克被啪啪“打脸”,自家大模型Grok的draw me新生图功能抽疯,画人总是画不对。网友崩溃大喊:再也不用了。不怪大哥生气,他的????头像明明长这样婶儿:结果Grok硬生生把人家画成了这样:要么严重发福,要么愁眉苦脸,抬头纹等不好的地方都学到了,其他基本跟本人不沾边。有网友看不下去,随手用别的模型给大哥画了一张,这才把大哥哄好:Grok画不好

周靖人署名,通义实验室开源智能体自进化系统:让模型学会“自我反思”,14B也能越级打怪

这种进化不仅体现在分数的增长,更带来了“越级挑战”的效果,经过强化后的14B模型,在特定任务上的表现已经超越了未经过同类优化的32B乃至更大参数量的模型(如Qwen2.5-32B)。针对长程任务中Token消耗大、记忆管理难的痛点,系统还引入了上下文管理器,在保证推理连贯性的同时,有效控制了显存开销,并支持从滑动窗口到自主记忆管理的多种策略。在更小参数量的7B模型上的提升也同样显著,平均完成率从1

全新稀疏注意力优化!腾讯最新超轻量视频生成模型HunyuanVideo 1.5核心技术解密

镜头推进,霓虹灯从“H”开始,伴随着‘滋滋’的电流声,每个字母依次亮起粉紫色的光芒,直到全部点亮,照亮了潮湿的街道。镜头以高角度广角拍摄,展现了人群和霓虹灯,随后迅速拉近,聚焦于一位年轻的女性。:通过8.3B参数的DiT架构与3D因果VAE编解码器,实现空间16倍、时间4倍的高效压缩,以最小参数量激发模型潜力,达到业界领先的生成效果。显著降低了使用门槛,提示词构建: 团队同样整理了一个均衡的万量级

AI记忆系统首获统一框架!6大操作让大模型拥有人类记忆能力

long-term memory)、长上下文建模(long-context modeling)、参数记忆修改(parametric memory modification)与多源记忆融合(multi-则成为支撑多轮交互与任务延续的关键,涌现出如 WorldMem 与 E-Agent 等具备自维护能力的系统,能够实现多模态记忆的持续压缩、参数记忆不仅是模型知识调控的关键接口,也是未来智能体学习能力延

#人工智能
全球首个无限时长视频生成!新扩散模型引爆万亿市场,电影级理解,全面开源

对此,昆仑万维团队提出的SkyReels-V2,便是通过结合多模态大语言模型(MLLM)、多阶段预训练、强化学习和扩散强制框架,实现了在提示遵循度、视觉质量、运动动态和时长方面的突破性进展。不过可以肯定的一点是,当技术最终成功隐入创作的背景,成为思维的自然延伸时,人类讲故事的方式,以及通过故事理解世界的方式,都将发生我们今日难以想象的深刻转变。夕阳西下,余晖洒在两人脸上,彼此深情对视。不仅在时长方

阿里PC-Agent重构人机交互,精准拆解跨应用指令,自动化办公更进一步

PC-Agent团队 投稿量子位 | 公众号 QbitAI面向复杂PC任务的多模态智能体框架PC-Agent,来自阿里通义实验室。从Office到浏览器,跨APP工作流都可以交给AI来完成了。指令1(翻译):在记事本应用程序中,打开“文档”中的“备忘录”文件,查看上午的第二项活动。在时钟应用程序中,在该活动开始前1小时设置闹钟。指令2(翻译):在文件资源管理器中,打开“文档”中的“旅行计划”文件,

#重构#人机交互#自动化 +1
最大的开源GraphRag:知识图谱完全自主构建|港科大&华为

测试AutoSchemaKG将原始段落转换为知识图谱数据后,多项选择题(MCQ)的性能保留情况,遵循现有工作的评估协议,为每个原始段落使用LLaMA-3-70B-Instruct生成五个多项选择题,为每个数据集采样了200个原始段落,共获得1,000个多项选择题。使用完整的维基百科与维基教科书来构建ATLAS-Wiki,使用Semantic Scholar的摘要部分来构建ATLAS-Pes2o,并

#知识图谱#人工智能
    共 1484 条
  • 1
  • 2
  • 3
  • 149
  • 请选择