
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
看到一篇字节的AE分离(Attn/MoE)的文章《》 挺有趣的.文章有一个非常简单的叙事, Microbatch, 然后M:N的Attn:MoE配比并配合异构算力来降低成本.

毕业季,大模型人才正在被各家大厂和创业公司。刚刚,腾讯也曝光了他们与大模型相关的人才计划,并且直通2025年校招——将,并且放话薪资算力什么的不用愁。不出所料,各家抢人下手都既快又狠,晚一步生怕就抢不到(不是)。也是借这个苗头,突然发现了鹅厂每年招贤纳士的精髓,那就是然后狂吸各种牛人/大咖/天才/专家。这不,当下最热辣滚烫的大模型项目也不例外。不过有个疑惑存在很久了,心怀梦想的各位天才/专家们被吸

如果给小模型更长的思考时间,它们性能可以超越更大规模的模型。最近一段时间,业内对小模型的研究热情空前地高涨,通过一些「实用技巧」让它们在性能上超越更大规模的模型。可以说,将目光放到提升较小模型的性能上来有其必然性。对于大语言模型而言,训练时计算(train-time compute)的扩展主导了它们的发展。尽管这种模式已被证明非常有效,但越来越大模型的预训练所需的资源却变得异常昂贵,数十亿美元的集

蒸馏模型的性能可以量化估算了。众所周知,知识蒸馏技术当前正被大模型领域广泛使用,它可以在大幅压缩模型体量的同时保持一定的性能、降低模型时延、提升模型精度,与此同时还能对知识域进行集成和迁移。近日,苹果研究人员提出了一种蒸馏扩展定律(Distillation Scaling Laws),基于计算预算及其在学生和教师之间的分配,我们现在开始可以估算蒸馏模型的性能了。图 1. 蒸馏扩展定律的外推。蒸馏扩

什么?!用AI Agent搞的账号,竟然14天,还开始了???你没看错,这是真事。据说啊,你只需要跟这个Agent说一个想讨论的话题,例如“怎么选咖啡”、“化妆品成分对比”等等,它就可以自己去小红书、知乎等平台上搜索上百个信源做总结。而且是可以出一个完整报告的那种,可想而知账号是有多**“高产”**了。那么这个Agent,到底是何方AI是也?不卖关子,它就是刚刚发布的新功能——。简单来说呢,就是它

来了,来自微软研究院!在相同超参数的设置下,可以达到。这意味着。用这种方法训练的模型规模最高可达130亿参数规模,训练Tokens数量也达到千亿级别。而且用的还不是真·FP4,而是通过FP8来模拟,如果采用真的FP4,效果还能进一步提升。(注:研究开展时,尚未有原生支持FP4的硬件,故作者通过在FP8的TensorCore上模拟实现)网友评论说,效率更高质量却没什么损失,FP4真的是个game c

本文提出了首个关于新兴领域 MM4TSA(多模态赋能时间序列分析)的综述,旨在系统性地回答一个核心问题:“时间序列分析如何从多模态中受益?”在本综述中,我们系统地总结了三类具有代表性的受益路径:(1)

随着大语言模型 (LLM) 的出现,扩展 Transformer 架构已被视为彻底改变现有 AI 格局并在众多不同任务中取得最佳性能的有利途径。因此,无论是在工业界还是学术界,探索如何扩展 Transformer 模型日益成为一种趋势。

人类在处理复杂的模式识别任务时表现出色,但往往需要借助工具来辅助决策。例如,我们会查阅书籍、使用谷歌搜索或计算器来补充知识,从而得出更准确的结论。。比如,模型可以利用数据库检索工具,查看客户的购买历史,生成个性化的购物推荐。或者,基于用户的查询,模型可以自动进行多次API调用,代替用户回复电子邮件,甚至完成金融交易等操作。要实现这些功能,模型不仅需要能够访问外部工具,还必须具备规划和执行任务的能力

RAG (检索增强生成)是企业 AI 大模型应用落地的主要应用形态之一,特别是在智能问答、报告生成、内容审核、Text2SQL、流程自动化和 AI 编程等领域大规模应用和落地 RAG 架构。








