
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
与Claude和GPT模型相比,DeepSeek模型过去一度被开发者社区忽视。不过,过去几个月以来,DeepSeek的发展势头非常迅猛。随着DeepSeek 2.5发布(该版本整合了DeepSeek-V2-Chat和DeepSeek-Coder-V2-Instruct的功能),该模型热度达到顶峰。DeepSe...

本文详细阐述了大型语言模型推理性能的几个基本原理,不含任何实验数据或复杂的数学公式,旨在加深读者对相关原理的理解。此外,作者还提出了一种极其简单的推理时延模型,该模型与实证结果拟合度高,可更好地预测和解释Transformer模型的推理过程。为了更好地阅读本文,读者需了解一些Transformer模型的相关先验知识,比如《图解Transformer》的...

近年来,神经网络模型规模呈指数级增长,从2018年拥有超1亿参数的Bert到2020年拥有1750亿个参数GPT-3,短短两年模型的参数量增加了3个数量级,而且这种增长还看不到尽头。人们刚刚开始发掘神经网络的应用潜力,但传统的训练和推理方式已然无法跟上神经网络规模的飞速增长速度,无法满足大规模机器学习所需的内存和算力需求。为此,国内外诸多创业公司寻求对软...

半个月以来,ChatGPT这把火越烧越旺。国内很多大厂相继声称要做中文版ChatGPT,还公布了上线时间表,不少科技圈已功成名就的大佬也按捺不住,携巨资下场,要创建“中国版OpenAI“。不过,看看过去半个月在群众眼里稍显窘迫的Meta的Galactica,以及Google紧急发布的Bard,就知道在短期内打造一个比肩甚至超越ChatGPT效果的模型没那么简单。让很多人不免感到诧异的是,ChatG

8月6日,OpenAI联合创始人、ChatGPT架构师John Schulman宣布离职,将加入另一家由前OpenAI员工Dario Amodei创办的大模型公司Anthropic。近9年前,Schulman在研究生毕业后加入OpenAI,成为创始团队的一员。他是深度强化学习的早期先驱之一,很多人不知道的是,他也是ChatGPT项目的负责人,是他领导了ChatGPT的秘密武器RLHF(人类反馈的强

11月8日是OneFlow开源100天的纪念日,为了这个有纪念性的日子,我们为大家准备了一个“百天大礼包”——深度学习框架性能优化系列文章,希望能和大家共同探讨开源框架如何进行优化,从各个...
回头来看,ChatGPT的横空出世验证了Ilya Sutskever此前预想的AI发展方向。在OpenAI成立早期,强化学习大牛Pieter Abbeel曾与Ilya共事,在他看来,Ilya对AI的思考总是走在他人的前面,而为了验证自己的想法,他总是在恰当的时间更换自己的工作处境,并做出了领域内最具开创性的工作...

【翻译】深度学习框架简史(A Brief History of Deep Learning Frameworks)原文链接:https://towardsdatascience.com/a-brief-history-of-deep-learning-frameworks-8debf3ba6607作者:Lin YuanMachine Learning @ Waymo | ex-Amazonian翻
迄今,人们对神经网络的一大疑虑是,它是难以解释的黑盒。本文则主要从理论上理解为什么神经网络对模式识别、分类效果这么好,其本质是通过一层层仿射变换和非线性变换把原始输入做扭曲和变形,直至可以非常容易被区分不同的类别。实际上,反向传播算法(BP) 其实就是根据训练数据不断地微调这个扭曲的效果。......

LoRA是用于训练自定义LLM的高效参数微调技术。本文作者Sebastian Raschka通过成百上千次实验,他为使用LoRA和QLoRA对LLM进行微调提供了实用见解,包括节省内存、选择最佳配置等。Sebastia是威斯康星大学麦迪逊分校的统计学助理教授,也是人工智能平台Lightning AI的LLM研究员。(本文由OneFlow编译发布,转载请联系授权。原文:https://lightn.








