
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
选自Deep (Learning) Focus作者:Cameron R. Wolfe编译:Panda自 OpenAI 发布 o1-mini 模型以来,推理模型就一直是 AI 社区的热门话题,而春节前面世的开放式推理模型 DeepSeek-R1 更是让推理模型的热度达到了前所未有的高峰。近日,Netflix 资深研究科学家 Cameron R. Wolfe 发布了一篇题为「揭秘推理模型」的深度长文,
飞往SFO的沿途风景,Shot on IPhone恰逢年末年度总结盛行,回国无心科研,我便强迫自己分享一下自己的过去半年的科研心路历程。目的有二:1. 继往开来,学有所思。2.受东川路第一伊蕾娜:年度总结 --2024年满血版(https://zhuanlan.zhihu.com/p/14918304358)影响,尝试记录并分享,同知乎小伙伴们交流。知乎:Vincent地址:https://zhu
作者:haotian,清华大学信息与通信工程硕士编辑:青稞AIhttps://zhuanlan.zhihu.com/p/22288441283相比cold-start-sft-->rl的传统流程,笔者更偏爱base上的rl。base上的rl在理论和实践层面都对未来模型的优化方向有重要的指导意义。理论层面policy-gradient+kl-constraint可以推导出residual-..
原文:https://zhuanlan.zhihu.com/p/20751924531一、DeepSeek[1]核心理论创新1.MLA[2]大模型架构创新自GPT采用Transformer架构取得成功以来,经典Transformer架构一直是很多大模型的标配。但这不意味着Transformer是完美无缺的。DeepSeek在Transformer架构的基础上也做了很多创新,主要为:多头潜在注意力即
三面应该是加面的大老板面,从交流可以看出来对整个大模型这块的理解还是很深刻的,收获不小。了解哪些大模型和多模态大模型,然后就聊了大模型这一路是怎么发展过来的,Transformer、BERT、GPT、LLaMA、Qwen 这些,以及当时的 o1 推理模型。一面比较常规,几乎都是八股问题,我觉得只要了解常见的多模态大模型都问题不大,主要还是要理解各个模型设计的动机是什么,这也是面试最喜欢考察的。二面
继决定免费之后,百度刚刚又发布一则重磅消息——下一代文心模型,决定开源!而且官宣内容只有一句话(字少事大的感觉):我们将在未来几个月中陆续推出文心大模型4.5系列,并于6月30日起正式开源。从收费到免费,从闭源到开源……嗯,DeepSeek带来的冲击着实是有亿点点大。从闭源到开源的文心一言回顾文心一言的发展历程,2023年3月16日,是一个重要的时间节点。在这一天,百度的文心一言正式启动邀测。而这
导读本次分享聚焦于多模态 RAG 的实现路径与发展前景。核心议题涵盖五方面:1.基于语义抽取的多模态 RAG2.基于 VLM 的多模态 RAG3.如何 Scale 基于 VLM 的多模态 RAG4.技术路线的选择5.问答环节分享嘉宾|金海 Infiniflow 联合创始人出品社区|DataFun01基于语义抽取的多模态 RAG多模态 RAG 的发展方向旨在构建一个高度集成的系统,能够无...
文 | 炼丹学徒编 | 小轶从前车马很慢,显卡跑的也慢,一生只够爱一个RNN。后来时代进步了,数据量和计算力阔绰了,堆叠起来的Transformer能够在更深更宽的模型结构里吃下去更多的数...
作者|季逸超https://zhuanlan.zhihu.com/p/720575010纠结了一下还是决定把中秋假期捣鼓的山寨版 o1 模型开源出来。受限于数据和算力,该模型还只是个玩具,离 OpenAI o1 差十万八千里。但实验的过程中有些记录值得分享出来抛砖引玉:起因是在测试 o1 时,种种迹象 (见下方附录) 表明它在 inference-time 似乎没有进行 MCTS 或外置的 ...
后台留言『交流』,加入 NewBee算法讨论组今年 5 月的谷歌 I/O 大会上,皮查伊宣布了对标 GPT-4 的大模型 PaLM 2,但同时也提到谷歌的研究重心正在转向 Gemini,后者是一种多模态和高效的机器学习工具。为了更快地开发 Gemini,谷歌在今年 4 月份合并了内部的两个人工智能实验室:谷歌大脑(Google Brain)和 DeepMind,Gemini 这项联合计划就由来自两







