
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文提出了AutoFlow框架,用于自动生成大型语言模型(LLM)代理的工作流,以解决复杂任务。传统人工设计工作流需要大量领域知识和精力,阻碍了代理的大规模部署。AutoFlow采用自然语言程序表示工作流,通过工作流优化程序迭代提升质量。框架提供两种生成方法:基于微调的方法针对特定任务优化LLM参数,基于上下文的方法则利用语境信息,适用于开源和闭源LLM。实验表明,AutoFlow生成的工作流优于

DeepSeek-V2是一款创新的混合专家(MoE)语言模型,通过2360亿参数实现高效推理(仅激活210亿参数/Token)。该模型采用两大核心技术:1)多头潜在注意力(MLA)通过低秩键值压缩减少93.3%的KV缓存;2)DeepSeekMoE架构通过稀疏计算降低42.5%训练成本。在8.1T token多源语料训练后,模型经SFT和强化学习优化,支持128K上下文长度。评测显示,其聊天版本在

DeepSeek-V2是一款创新的混合专家(MoE)语言模型,通过2360亿参数实现高效推理(仅激活210亿参数/Token)。该模型采用两大核心技术:1)多头潜在注意力(MLA)通过低秩键值压缩减少93.3%的KV缓存;2)DeepSeekMoE架构通过稀疏计算降低42.5%训练成本。在8.1T token多源语料训练后,模型经SFT和强化学习优化,支持128K上下文长度。评测显示,其聊天版本在

摘要: EvoLM研究框架系统分析了语言模型全生命周期的训练动态,涵盖预训练、持续预训练、监督微调(SFT)和强化学习(RL)阶段。通过训练100+个1B/4B参数模型,研究发现: 预训练规模:模型性能随计算量增长而提升,但超过80-160倍模型参数的预训练后收益显著递减,甚至导致下游任务性能下降; 持续预训练:领域适应阶段需平衡新知识学习与通用能力保留,重放预训练数据可有效缓解遗忘; 微调阶段:

摘要 本研究系统比较了监督微调(SFT)与强化学习(RL)在大型语言模型后训练中的优劣与协同效应。SFT通过专家标注数据直接优化模型输出,而RL则依赖奖励信号进行策略优化。研究发现:(1)SFT在数据质量高时表现优异,但易受分布偏移影响;(2)RL更适合复杂推理和交互任务,但需要大量探索;(3)混合方法(如结合SFT的初始策略与RL的在线优化)在数学推理、代码生成等任务中展现出最优性能。2023-

开源大语言模型的发展速度确实令人瞩目。然而,现有文献中描述的缩放法则呈现出不尽相同的结论,这为大规模语言模型的扩展蒙上了一层阴影。我们深入研究了缩放法则,并针对当前广泛使用的7B与67B两种开源配置,提出了我们独特的发现,以促进大规模模型的扩展。在缩放法则的指导下,我们推出了DeepSeek LLM项目,这是一个致力于从长远视角推进开源语言模型发展的计划。为支持预训练阶段,我们构建了一个目前包含2

开源大语言模型的发展速度确实令人瞩目。然而,现有文献中描述的缩放法则呈现出不尽相同的结论,这为大规模语言模型的扩展蒙上了一层阴影。我们深入研究了缩放法则,并针对当前广泛使用的7B与67B两种开源配置,提出了我们独特的发现,以促进大规模模型的扩展。在缩放法则的指导下,我们推出了DeepSeek LLM项目,这是一个致力于从长远视角推进开源语言模型发展的计划。为支持预训练阶段,我们构建了一个目前包含2

西湖大学赵世钰老师的强化学习的数学原理课程(B站)学习笔记第一章包含两个方面的内容:第一部分是一些基本概念第二部分在MDP框架下以更加正式的形式去介绍本章核心:建立RL的基础概念体系,理解MDP的数学形式化整节课会广泛运用的一个案例是网格世界这个网格世界由不同的网格组成,有的可以进去、有的禁止进入、有的是目标网格,网格世界也有边界这个案例非常容易理解和直观状态空间:9个格子(s1到s9),其中
AlexNet是人工智能深度学习在CV领域的开山之作,是最先把深度卷积神经网络应用于图像分类领域的研究成果,对后面的诸多研究起到了巨大的引领作用,因此有必要学习这个算法并能够实现它。

【北邮鲁鹏老师计算机视觉课程笔记】05 Hough 霍夫变换。








