
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
这是一个激动人心的时代,所有人都能够利用语言大模型(LLM)进行各种各样的产品构建。过去一年里,LLM已经达到了“足够好”的水平,可以应用于现实世界的场景,并且模型每年都在迭代,变得更好、更便宜。伴随着社交媒体上的一系列产品演示,预计到2025年,AI领域的...

本文分析了机器学习硬件性能的最新趋势,重点关注不同GPU和加速器的计算性能、内存、互连带宽、性价比和能效等指标。这篇分析旨在提供关于ML硬件能力及其瓶颈的全面视图。本文作者来自调研机构Epoch,致力于研究AI发展轨迹与治理的关键问题和趋势。(本文由OneFlow编译发布,转载请联系授权。原文:https://epochai.org/blog/trends-in-machine-learning-

最近语言大模型(LLM)异常火爆,一个非常特别的开源社区正在探索在消费级硬件上微调、提供服务和进行推理的最佳方式。为满足上述需求,出现了许多出色的开源代码库,以HuggingFace生态系统为中心,这些代码库还包括FastChat、Axolotl和LLama.cpp。本文专注于分布式训练策略的具体细节,特别是DeepSpe...

一、框架分布式简介本文仅重点摘录对于OneFlow框架分布式的简介,更多分布式框架简介请移步原文获取,如需阅读请点击原文链接。OneFlow看过其他框架中的分布式代码示例,是不是觉得很复杂...
文章重点关注三个方面:促成AI进步的计算硬件和软件系统;过去十年在机器学习领域一些令人兴奋的应用示例;如何创建更强大的机器学习系统,以真正实现创建智能机器的目标。

OpenAI的视频生成模型Sora爆火一个多月,有关Diffusion Model的解析和探讨还在持续。近日,在硅基流动、EPIC、Datawhale主办的《多模态时代已至,Diffusion Model怎么玩儿?》活动中,硅基流动的OneDiff作者之一姚迟对图片/视频生成推理加速进行了全面介绍。自开源Stable Diffusion模型发布以来,OneDiff就以其卓越的性能长期保持领先。目前

原创:谭婧世间有一种软件,名叫“深度学习框架”。在人工智能的江湖,常听人言:得框架者,得天下。多年以前,一面画着大G的大旗在高处飘扬,美国谷歌公司的深度学习框架占据大半江山。万万没有想...
迄今,人们对神经网络的一大疑虑是,它是难以解释的黑盒。本文则主要从理论上理解为什么神经网络对模式识别、分类效果这么好,其本质是通过一层层仿射变换和非线性变换把原始输入做扭曲和变形,直至可以非常容易被区分不同的类别。实际上,反向传播算法(BP) 其实就是根据训练数据不断地微调这个扭曲的效果。......

上下文长度的增加是 LLM 的一个显著发展趋势。过去一年,几种长上下文语言模型陆续问世,包括 GPT-4(32k上下文)、MosaicML 的 MPT(65k上下文)、Anthropic 的 Claude(100k上下文)等。然而,扩大 Transformer 的上下文长度是一个挑战,因为其核心的注意力层在时间复杂度和空间复杂度与输入序列长度的平方成正比。一年前,来自斯坦福大学、纽约州立大学布法罗

ChatGPT的发布是语言大模型(LLM)发展史的转折点,它让人们意识到LLM的潜力,并引发了“AI竞赛”,世界上主要人工智能实验室和初创公司都参与其中。在这之后,基于LLM的聊天机器人层出不穷。ChatGPT及相关LLM模型让我们共同见证了AI的历史性变革,很多人好奇,LLM和它们的运作方式究竟是怎样的?它们是如何被构建的?未来又将走向何方?本文对此进行了深入探讨。本文作者Etienne Ber








