logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

英伟达的AI霸主地位会持久吗?

目前英伟达因其 GPU 芯片在 AI 革命中扮演着核心角色,使其成为AI时代最赚钱的公司。本文作者Pete Warden总结了铸就英伟达 AI 霸主地位的四点优势:几乎无人运行大规模机器学习应用;英伟达的替代品都很糟糕;研究人员掌握着硬件采购的风向舵;训练时延的影响。随着 AI 技术的发展,Pete 预测,上述优势将逐渐发生变化:英伟达在整体 AI 市场中的份额占比将下降,虽然 AI 市场整体..

文章图片
#人工智能#GPU#开源 +1
LLM后训练绝招:1%预训练成本,实现最高20倍算力扩展效果

根据规模定律,扩大训练计算规模可以提高大型语言模型(LLM)性能的关键,但调研机构Epoch AI的研究,LLM再训练无需高额费用,也能让AI能力获得显著提升。在该研究中,他们引入了一个基本框架,用于量化后训练增强的收益和成本,特别是通过计算等效增益来衡量收益。他们将该框架应用于一系列具有代表性的后训练增强,并发现性能提升非常显著,但微调成本通常与预训练成本相比非常小,某些后训练增强技术可以在不到

文章图片
#人工智能#语言模型
企业生成式AI最新调查:AI支出激增6倍,多模型部署盛行

企业AI格局正在迅速重塑。随着实验项目逐步落地投入生产,海外风险投资机构‍Menlo Ventures最新发布的《2024年企业生成式AI现状》报告对600名企业IT决策者展开了调研,深入分析了这场变革中正在浮现的新赢家与失利者。(本文由OneFlow编译发布,转载请联系授权。原文:https://menlovc.com/2024-the-state-of-generative-ai-in-the

文章图片
#人工智能
LLM逻辑推演策略选择:推理时计算 vs 训练时计算

AGI实现的一大标志是,具备人类级别的逻辑推理(reasoning)能力。近期,随着推理(inference)模型GPT o1、DeepSeek R1-Lite的发布,模型的逻辑推理能力得到显著提升,也预示着对LLM潜力的深度挖掘正在转向推理阶段。围绕增强LLM逻辑推理能力这一目标,美国人工智能与密码学研究实验室Bagel团队结合最新研究,从算术、常识和符号这三种主要逻辑推理类型出发,对比了在推理

文章图片
#人工智能#语言模型
强化学习之父Richard Sutton:AGI研究的下一个范式

OpenAI下一代GPT近期被爆遇到瓶颈,这让“Scaling Law撞墙”的声音变得更响,尽管业内对此争论不休,但现实情况是,大模型确实不再像年前那样有突飞猛进的进展。作为启发大模型领域提出Scaling Law的研究者,强化学习之父、阿尔伯塔大学教授Richard Sutton在2019年发表了后来被AI领域奉为经典的The Bitter lesson。在这篇文章中,他指出,AI研究在过去70

文章图片
#人工智能#语言模型
70B大模型训练秘方③:1000次超参数优化实验的发现

今年6月,大模型公司Imbue依托它们自主构建的基础设施,从零起步,成功训练出一个70B参数的模型,其在相关推理任务上的卓越表现远零样本GPT-4o。在《70B大模型训练秘方① :数据集创建与评估》一文中,他们分享了用于模型评估的数据集,包含11个公共数据集的高质量子集,以及一套用于代码理解的原始问题。重点分享了为什么选择这些特定的数据集,以及数据创建过程和实际数据集的详细信息。在《从裸机到70B

文章图片
#人工智能#机器学习#深度学习 +1
用初中数学理解LLM工作原理

本文将从基础开始讨论大语言模型(LLM)的工作原理——假设你只知道如何对两个数字进行加法和乘法。首先,作者Rohit Patel会从构建一个简单的生成式人工智能出发,逐步阐释理解现代LLM和Transformer架构所需的所有知识。本文将剔除机器学习中所有花哨语言和术语,将一切简单地表示为数字。(本文作者Rohit Patel是Meta的数据科学家。本文由OneFlow编译发布,转载请联系授权。原

文章图片
#人工智能#语言模型#AIGC +1
推算LLM训练的GPU内存需求

本文将分析大语言模型训练的GPU内存需求,主要包括三个方面:训练数十亿参数基于Transformer的LLM时,每个GPU设备需要多少GPU内存;估算内存需求的公式是什么;如果模型无法匹配内存,在实践中应采取哪些措施来减少内存需求。(本文由OneFlow编译发布,转载请联系授权。原文:https://medium.com/@maxshapp/understanding-and-estimating

文章图片
#人工智能#AI#GPU
从通才到专家:AI系统向复合AI的演变

复合AI系统凭借其多模型、多工具的协同方式,展现出传统单一AI难以匹敌的应对复杂问题的能力,引发了广泛关注和讨论。本文从单体架构和微服务架构的演变切入,揭示了复合AI系统如何通过模块化的方式优化任务执行,提升灵活性与精准度。以Databricks Mosaic AI平台为例,作者Yared Gudeta分析了复合AI在维护系统中的应用实例,展示了该系统如何整合向量嵌入、图数据库和大语言模型以高效解

文章图片
#人工智能#AI
双Buff加持!无GPU畅玩ControlNet Union,一个模型搞定10+图像控制

双重Buff加持,ComfyUI用户的生产力大升级。以往,为了实现轮廓、深度、动作姿势、颜色等多种控制效果,你可能需要安装不同的控制模型来独立实现,并且大大占用了你本地的存储空间。现在,Controlnet Union的推出让所有这些控制模型实现All in one,大大简化了用户操作流程,备受社区用户的推崇。更重要的是,不用考虑硬件与环境限制,在硅基流动团队开源的专用于ComfyUI的云节点Bi

文章图片
    共 106 条
  • 1
  • 2
  • 3
  • 11
  • 请选择