logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

LongCat 发布原生「深度研究」智能体,为你量身定制更可靠的吃喝玩乐攻略

找一个会途经的地方,要有比较有名的景点的,我们去逛逛,最好是古镇什么的,在那里买买特产店的小玩意儿。通过 “通专结合”,将理工科的强大逻辑推理能力注入到生活决策场景中,使 Agent 不仅能 “写文章”,更能像分析师一样 “拆解复杂需求”。Render Agent 能够理解报告内容的语义结构,动态决定最佳的视觉呈现形式(如自动生成对比表格,决策流程图或数据可视化图表),让本地生活信息的呈现从 “静

文章图片
#人工智能
多维创新打造强泛化智能体模型,LongCat-Flash-Thinking-2601技术报告发布

LongCat-Flash-Thinking-2601 通过环境扩展与噪声训练,显著降低了智能体对垂直场景的依赖,为开源模型在真实世界任务中的泛化能力设立了新的参考标准。我们相信,真正通用的智能体,不应是温室里的盆景,而应是能在真实世界风雨中扎根的大树。LongCat-Flash-Thinking-2601 的发布,是我们向这个目标迈出的坚实一步。开源是我们播下的一颗种子,我们期待与整个社区一起,

文章图片
#人工智能
美团 LongCat-Video-Avatar 发布,实现开源SOTA级拟真表现

今年 8 月,美团开源的项目凭借无限长度生成能力与精准的唇形、头部、表情及姿态同步表现,迅速成为语音驱动虚拟人领域的主流工具,。10月底,LongCat 团队开源了视频生成模型,尤其在长视频生成领域具备显著优势。在 InfiniteTalk 和 LongCat-Video 基座的良好基础上,LongCat 团队针对实际场景中的核心痛点持续优化,正式发布并开源——。

文章图片
#人工智能
LongCat 发布 AMO-Bench:突破 AIME 评测饱和困境,重新定义 LLM 数学上限

参照国际数学竞赛官方竞赛大纲,题目被划分为五大类:代数方程与不等式(11 题,占比 22%)、函数与数列(13 题,占比 26%)、几何(5 题,占比 10%)、数论(9 题,占比 18%)、组合数学(12 题,占比 24%),覆盖数学奥赛核心知识点,考察模型在不同领域是否存在能力短板。表现最优的 GPT-5-Thinking(High)正确率仅 52.4%,且大部分模型表现低于 40%,即便头部

文章图片
#人工智能
技术分享 | LongCat-Video 以长视频为锚点,构建世界模型技术底座

若指令由AI“大脑”输出,数字人可根据用户反应实时调整动作,对剧情创作而言,支持“边生成边构思”,大幅提升创作灵活性,后续将展示更多具体案例。我们的模型参数为 13.6B,可同时支持文生视频、图生视频与视频续写功能。例如,生成“人物跑步”的初始视频,续写时加入新剧情:第二段让人物发现旁边的杰尼龟并与之击掌,第三段引入小火龙,最后让人物骑上小火龙飞走。例如,初始剧情为“人物走进房间”,第二段可设计“

文章图片
#音视频#人工智能
美团发布 LongCat-Image 图像生成模型,编辑能力登顶开源SOTA

为有效继承文生图模型的知识和美感,同时避免文生图后训练阶段收窄的状态空间对编辑指令多样性的限制,基于文生图Mid-training阶段模型进行初始化,并采用指令编辑与文生图多任务联合学习机制,深化对复杂多样化指令的理解。(MOS)方法,核心覆盖 文本-图像对齐、视觉合理度、视觉真实度、美学质量4个维度,LongCat-Image 的真实度相比主流开闭源模型表现出色,同时在文本-图像对齐与合理度上达

文章图片
#人工智能
技术分享 | LongCat-Video 以长视频为锚点,构建世界模型技术底座

若指令由AI“大脑”输出,数字人可根据用户反应实时调整动作,对剧情创作而言,支持“边生成边构思”,大幅提升创作灵活性,后续将展示更多具体案例。我们的模型参数为 13.6B,可同时支持文生视频、图生视频与视频续写功能。例如,生成“人物跑步”的初始视频,续写时加入新剧情:第二段让人物发现旁边的杰尼龟并与之击掌,第三段引入小火龙,最后让人物骑上小火龙飞走。例如,初始剧情为“人物走进房间”,第二段可设计“

文章图片
#音视频#人工智能
LongCat 发布 AMO-Bench:突破 AIME 评测饱和困境,重新定义 LLM 数学上限

参照国际数学竞赛官方竞赛大纲,题目被划分为五大类:代数方程与不等式(11 题,占比 22%)、函数与数列(13 题,占比 26%)、几何(5 题,占比 10%)、数论(9 题,占比 18%)、组合数学(12 题,占比 24%),覆盖数学奥赛核心知识点,考察模型在不同领域是否存在能力短板。表现最优的 GPT-5-Thinking(High)正确率仅 52.4%,且大部分模型表现低于 40%,即便头部

文章图片
#人工智能
美团 LongCat 团队发布全模态一站式评测基准UNO-Bench:揭示单模态与全模态能力的组合规律

本文提出了一站式全模态大模型评测基准——UNO-Bench。该基准通过科学的评测框架,首次揭示了多模态智能并非简单的线性叠加,而是遵循着一种乘积规律,这一规律在能力较弱的模型上体现为瓶颈限制,而在顶尖模型上则表现为协同增益的特性,这个全模态大模型的“组合定律”为行业提供了一种全新的、跨越模型规模的分析范式。LongCat团队的评测结果进一步表明,以Gemini为代表的闭源模型在单模态及跨模态理解上

文章图片
#人工智能
到底了