OneFlow深度学习框架个人主页

@OneFlow_Official

OneFlow深度学习框架

2022-09-29 17:15:55 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

10倍工程师的高效编码工具：Cursor x SiliconCloud x DeepSeek v2.5

Cursor 是一个基于 VSCode 开发的 AI 代码编辑器，提供强大的 AI 代码编辑能力。本文介绍如何利用 Cursor 的自定义模型功能，在 Cursor 中使用硅基流动 SiliconCloud 的 API，接入DeepSeek v2.5、Qwen2.5等大模型，通过高效、价格亲民的 API 服务，数量级提升你的编码能力。本文还讨论了 Cursor 免费版的常见限制以及对应的...

#AI

50张图，直观理解混合专家（MoE）大模型

Mixtral 8x7B的高效训练与推理效果曾引发AI社区对混合专家（MoE）模型的广泛关注，后来居上的国产开源大模型De‍epSeek以及腾讯近期开源的Hunyuan-Large（基于Transformer的最大MoE模型）也选择了MoE框架路线。为何大语言模型总是离不开MoE的身影？借助50多个图例，数据科学家Maarten Grootendorst由浅入深多维度剖析了MoE模型，从基础概念出

#人工智能 #语言模型

AI半导体技术、市场与未来

过去两年，英伟达崛起是科技领域的一个经典案例。通过CUDA系统，他们创建了一个使用GPU进行机器学习的开发者生态系统；通过Mellanox，他们成为了数据中心网络的领导者。然后，他们将所有硬件集成到服务器中，提供垂直集成的算力一体机。凭借这一系列组合性技术优势，英伟达在“AI淘金热”中提供的铲子占据行业核心地位，这导致它成为有史以来最成功的公司之一。随之而来的是，不少挑战者入局以求从英伟达主导的市

#人工智能 #语言模型

超越SD3，比肩MJ v6，文生图模型FLUX.1开源

近日，图片生成模型FLUX.1引爆了AIGC社区，其在视觉质量、图像细节和输出多样性等方面性能优越，输出极佳的图片生成效果。FLUX.1系列模型由Black Forest Labs开源，创始人Robin Rombach是Stable Diffusion的两位主要作者之一。所有公开的FLUX.1模型都基于多模态和并行扩散Transformer块的混合架构，并扩展到12B参数。这些模型经过特别微调，保

为什么开源语言大模型很重要？

在LLM领域，开源究竟意味着什么？假设开源社区拥有了真正的开源LLM，其权重、数据集、代码和基础设施都可公开获取，我们又将从中获得哪些重要收益？本文作者为Vikram Sreekanti和Joseph E. Gonzalez，前者是Aqueduct的联合创始人及CEO，后者是加州大学伯克利分校的教授和Run LLM联合创始人，他们就开源的重要性与核心价值进行了探讨。

#开源 #语言模型

英伟达的AI霸主地位会持久吗？

目前英伟达因其 GPU 芯片在 AI 革命中扮演着核心角色，使其成为AI时代最赚钱的公司。本文作者Pete Warden总结了铸就英伟达 AI 霸主地位的四点优势：几乎无人运行大规模机器学习应用；英伟达的替代品都很糟糕；研究人员掌握着硬件采购的风向舵；训练时延的影响。随着 AI 技术的发展，Pete 预测，上述优势将逐渐发生变化：英伟达在整体 AI 市场中的份额占比将下降，虽然 AI 市场整体..

#人工智能 #GPU #开源 +1

LLM后训练绝招：1%预训练成本，实现最高20倍算力扩展效果

根据规模定律，扩大训练计算规模可以提高大型语言模型（LLM）性能的关键，但调研机构Epoch AI的研究，LLM再训练无需高额费用，也能让AI能力获得显著提升。在该研究中，他们引入了一个基本框架，用于量化后训练增强的收益和成本，特别是通过计算等效增益来衡量收益。他们将该框架应用于一系列具有代表性的后训练增强，并发现性能提升非常显著，但微调成本通常与预训练成本相比非常小，某些后训练增强技术可以在不到

#人工智能 #语言模型

企业生成式AI最新调查：AI支出激增6倍，多模型部署盛行

企业AI格局正在迅速重塑。随着实验项目逐步落地投入生产，海外风险投资机构‍Menlo Ventures最新发布的《2024年企业生成式AI现状》报告对600名企业IT决策者展开了调研，深入分析了这场变革中正在浮现的新赢家与失利者。（本文由OneFlow编译发布，转载请联系授权。原文：https://menlovc.com/2024-the-state-of-generative-ai-in-the

#人工智能

LLM逻辑推演策略选择：推理时计算 vs 训练时计算

AGI实现的一大标志是，具备人类级别的逻辑推理（reasoning）能力。近期，随着推理（inference）模型GPT o1、DeepSeek R1-Lite的发布，模型的逻辑推理能力得到显著提升，也预示着对LLM潜力的深度挖掘正在转向推理阶段。围绕增强LLM逻辑推理能力这一目标，美国人工智能与密码学研究实验室Bagel团队结合最新研究，从算术、常识和符号这三种主要逻辑推理类型出发，对比了在推理

#人工智能 #语言模型

强化学习之父Richard Sutton：AGI研究的下一个范式

OpenAI下一代GPT近期被爆遇到瓶颈，这让“Scaling Law撞墙”的声音变得更响，尽管业内对此争论不休，但现实情况是，大模型确实不再像年前那样有突飞猛进的进展。作为启发大模型领域提出Scaling Law的研究者，强化学习之父、阿尔伯塔大学教授Richard Sutton在2019年发表了后来被AI领域奉为经典的The Bitter lesson。在这篇文章中，他指出，AI研究在过去70

#人工智能 #语言模型

共 95 条

请选择