logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

从o1-mini到DeepSeek-R1,万字长文带你读懂推理模型的历史与技术

选自Deep (Learning) Focus作者:Cameron R. Wolfe编译:Panda自 OpenAI 发布 o1-mini 模型以来,推理模型就一直是 AI 社区的热门话题,而春节前面世的开放式推理模型 DeepSeek-R1 更是让推理模型的热度达到了前所未有的高峰。近日,Netflix 资深研究科学家 Cameron R. Wolfe 发布了一篇题为「揭秘推理模型」的深度长文,

#人工智能#深度学习#机器学习
2024 年度总结 LLM System Research:过去半年的科研心路历程

飞往SFO的沿途风景,Shot on IPhone恰逢年末年度总结盛行,回国无心科研,我便强迫自己分享一下自己的过去半年的科研心路历程。目的有二:1. 继往开来,学有所思。2.受东川路第一伊蕾娜:年度总结 --2024年满血版(https://zhuanlan.zhihu.com/p/14918304358)影响,尝试记录并分享,同知乎小伙伴们交流。知乎:Vincent地址:https://zhu

复现DeepSeek Zero的RL调参经验

作者:haotian,清华大学信息与通信工程硕士编辑:青稞AIhttps://zhuanlan.zhihu.com/p/22288441283相比cold-start-sft-->rl的传统流程,笔者更偏爱base上的rl。base上的rl在理论和实践层面都对未来模型的优化方向有重要的指导意义。理论层面policy-gradient+kl-constraint可以推导出residual-..

#人工智能#机器学习#深度学习 +2
DeepSeek大模型原创核心技术解读

原文:https://zhuanlan.zhihu.com/p/20751924531一、DeepSeek[1]核心理论创新1.MLA[2]大模型架构创新自GPT采用Transformer架构取得成功以来,经典Transformer架构一直是很多大模型的标配。但这不意味着Transformer是完美无缺的。DeepSeek在Transformer架构的基础上也做了很多创新,主要为:多头潜在注意力即

大模型面经-淘天

三面应该是加面的大老板面,从交流可以看出来对整个大模型这块的理解还是很深刻的,收获不小。了解哪些大模型和多模态大模型,然后就聊了大模型这一路是怎么发展过来的,Transformer、BERT、GPT、LLaMA、Qwen 这些,以及当时的 o1 推理模型。一面比较常规,几乎都是八股问题,我觉得只要了解常见的多模态大模型都问题不大,主要还是要理解各个模型设计的动机是什么,这也是面试最喜欢考察的。二面

百度修正决策,李彦宏重新拥抱开源

继决定免费之后,百度刚刚又发布一则重磅消息——下一代文心模型,决定开源!而且官宣内容只有一句话(字少事大的感觉):我们将在未来几个月中陆续推出文心大模型4.5系列,并于6月30日起正式开源。从收费到免费,从闭源到开源……嗯,DeepSeek带来的冲击着实是有亿点点大。从闭源到开源的文心一言回顾文心一言的发展历程,2023年3月16日,是一个重要的时间节点。在这一天,百度的文心一言正式启动邀测。而这

#百度
多模态RAG技术:从语义抽取到VLM

导读本次分享聚焦于多模态 RAG 的实现路径与发展前景。核心议题涵盖五方面:1.基于语义抽取的多模态 RAG2.基于 VLM 的多模态 RAG3.如何 Scale 基于 VLM 的多模态 RAG4.技术路线的选择5.问答环节分享嘉宾|金海 Infiniflow 联合创始人出品社区|DataFun01基于语义抽取的多模态 RAG多模态 RAG 的发展方向旨在构建一个高度集成的系统,能够无...

Transformer太大了,我要把它微调成RNN

文 | 炼丹学徒编 | 小轶从前车马很慢,显卡跑的也慢,一生只够爱一个RNN。后来时代进步了,数据量和计算力阔绰了,堆叠起来的Transformer能够在更深更宽的模型结构里吃下去更多的数...

#人工智能#算法#深度学习 +2
山寨版 OpenAI o1 实验记录

作者|季逸超https://zhuanlan.zhihu.com/p/720575010纠结了一下还是决定把中秋假期捣鼓的山寨版 o1 模型开源出来。受限于数据和算力,该模型还只是个玩具,离 OpenAI o1 差十万八千里。但实验的过程中有些记录值得分享出来抛砖引玉:起因是在测试 o1 时,种种迹象 (见下方附录) 表明它在 inference-time 似乎没有进行 MCTS 或外置的 ...

谷歌小范围测试Gemini ?比训练GPT-4算力大5倍,多模态能力大提升

后台留言『交流』,加入 NewBee算法讨论组今年 5 月的谷歌 I/O 大会上,皮查伊宣布了对标 GPT-4 的大模型 PaLM 2,但同时也提到谷歌的研究重心正在转向 Gemini,后者是一种多模态和高效的机器学习工具。为了更快地开发 Gemini,谷歌在今年 4 月份合并了内部的两个人工智能实验室:谷歌大脑(Google Brain)和 DeepMind,Gemini 这项联合计划就由来自两

    共 227 条
  • 1
  • 2
  • 3
  • 23
  • 请选择