
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
LoRA是用于训练自定义LLM的高效参数微调技术。本文作者Sebastian Raschka通过成百上千次实验,他为使用LoRA和QLoRA对LLM进行微调提供了实用见解,包括节省内存、选择最佳配置等。Sebastia是威斯康星大学麦迪逊分校的统计学助理教授,也是人工智能平台Lightning AI的LLM研究员。(本文由OneFlow编译发布,转载请联系授权。原文:https://lightn.

上下文长度的增加是 LLM 的一个显著发展趋势。过去一年,几种长上下文语言模型陆续问世,包括 GPT-4(32k上下文)、MosaicML 的 MPT(65k上下文)、Anthropic 的 Claude(100k上下文)等。然而,扩大 Transformer 的上下文长度是一个挑战,因为其核心的注意力层在时间复杂度和空间复杂度与输入序列长度的平方成正比。一年前,来自斯坦福大学、纽约州立大学布法罗

ChatGPT的发布是语言大模型(LLM)发展史的转折点,它让人们意识到LLM的潜力,并引发了“AI竞赛”,世界上主要人工智能实验室和初创公司都参与其中。在这之后,基于LLM的聊天机器人层出不穷。ChatGPT及相关LLM模型让我们共同见证了AI的历史性变革,很多人好奇,LLM和它们的运作方式究竟是怎样的?它们是如何被构建的?未来又将走向何方?本文对此进行了深入探讨。本文作者Etienne Ber

本文对比了全参数微调和LoRA,并分析了这两种技术各自的优势和劣势。作者使用了三个真实用例来训练LLaMA 2模型,这提供了比较特定任务的性能、硬件要求和训练成本的基准。本文证明了使用LoRA需要在serving效率和模型质量之间做出权衡,而这取决于具体的任务。此外,本文还提供了关于如何通过智能提示技术来稳定LoRA训练的深入见解,并进一步验证了采用较低的学习率可以增强最终模型检查点的可靠性。实验

9月26日,OpenAI宣布ChatGPT新增了图片识别和语音能力,使得ChatGPT不仅可以进行文字交流,还可以给它展示图片并进行互动,这是一次ChatGPT向多模态进化的重大升级。OpenAI联合创始人,ChatGPT架构师John Schulman此前认为,添加多模态功能会给大模型带来极大的性能提升...

上下文窗口(context window)是指语言模型在进行预测或生成文本时,所考虑的前一个词元(token)或文本片段的大小范围。在语言模型中,上下文窗口对于理解和生成与特定上下文相关的文本至关重要。较大的上下文窗口可以提供更丰富的语义信息、消除歧义、处理上下文依赖性,并帮助模型生成连贯、准确的文本,还能更好地捕捉语言的上下文相关性,使得模型能够根据前文来做出更准确的预测或生成。最新发布的语言大

【翻译】深度学习框架简史(A Brief History of Deep Learning Frameworks)原文链接:https://towardsdatascience.com/a-brief-history-of-deep-learning-frameworks-8debf3ba6607作者:Lin YuanMachine Learning @ Waymo | ex-Amazonian翻
平台中的大多数工具均为自主研发,包括支持大规模调度的托管 Kubernetes、基于 Slurm 的集群调度系统、用于实验管理的 MLflow、自研的可观测性工具,以及一个具备安全保障的云端基础设施控制平台。它跳过了这一环节,设计了自己的服务器机架,以建立一个更加垂直整合的系统,从数据中心架构到托管式 Kubernetes 服务,再到像 Nebius AI Studio 这样的应用层工具(该工具为
撰文 | 郭冉、姚迟、郑泽康、柳俊丞2020年末,OneFlow 发布了《OneFlow 性能优化分享:如何实现一个高效的 Softmax CUDA kernel?》 ,其中介绍了OneF...
深度学习正以“软件2.0”的姿态进入到AIGC、生物制药、新材料以及科学计算等领域。这些领域的模型规模越来越大,尤其以ChatGPT为代表的大模型层出不穷,但由于算力增速不足、分布式编程门槛高,分布式人工智能系统成为产学两界共同关注的焦点。CCF学科前沿讲习班The CCF Advanced Disciplines LecturesCCFADL第136期主题 分布式人工智能系统2023年5月19日