简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
Cursor 是一个基于 VSCode 开发的 AI 代码编辑器,提供强大的 AI 代码编辑能力。本文介绍如何利用 Cursor 的自定义模型功能,在 Cursor 中使用硅基流动 SiliconCloud 的 API,接入DeepSeek v2.5、Qwen2.5等大模型,通过高效、价格亲民的 API 服务,数量级提升你的编码能力。本文还讨论了 Cursor 免费版的常见限制以及对应的...
Mixtral 8x7B的高效训练与推理效果曾引发AI社区对混合专家(MoE)模型的广泛关注,后来居上的国产开源大模型DeepSeek以及腾讯近期开源的Hunyuan-Large(基于Transformer的最大MoE模型)也选择了MoE框架路线。为何大语言模型总是离不开MoE的身影?借助50多个图例,数据科学家Maarten Grootendorst由浅入深多维度剖析了MoE模型,从基础概念出
过去两年,英伟达崛起是科技领域的一个经典案例。通过CUDA系统,他们创建了一个使用GPU进行机器学习的开发者生态系统;通过Mellanox,他们成为了数据中心网络的领导者。然后,他们将所有硬件集成到服务器中,提供垂直集成的算力一体机。凭借这一系列组合性技术优势,英伟达在“AI淘金热”中提供的铲子占据行业核心地位,这导致它成为有史以来最成功的公司之一。随之而来的是,不少挑战者入局以求从英伟达主导的市
近日,图片生成模型FLUX.1引爆了AIGC社区,其在视觉质量、图像细节和输出多样性等方面性能优越,输出极佳的图片生成效果。FLUX.1系列模型由Black Forest Labs开源,创始人Robin Rombach是Stable Diffusion的两位主要作者之一。所有公开的FLUX.1模型都基于多模态和并行扩散Transformer块的混合架构,并扩展到12B参数。这些模型经过特别微调,保
在LLM领域,开源究竟意味着什么?假设开源社区拥有了真正的开源LLM,其权重、数据集、代码和基础设施都可公开获取,我们又将从中获得哪些重要收益?本文作者为Vikram Sreekanti和Joseph E. Gonzalez,前者是Aqueduct的联合创始人及CEO,后者是加州大学伯克利分校的教授和Run LLM联合创始人,他们就开源的重要性与核心价值进行了探讨。
目前英伟达因其 GPU 芯片在 AI 革命中扮演着核心角色,使其成为AI时代最赚钱的公司。本文作者Pete Warden总结了铸就英伟达 AI 霸主地位的四点优势:几乎无人运行大规模机器学习应用;英伟达的替代品都很糟糕;研究人员掌握着硬件采购的风向舵;训练时延的影响。随着 AI 技术的发展,Pete 预测,上述优势将逐渐发生变化:英伟达在整体 AI 市场中的份额占比将下降,虽然 AI 市场整体..
根据规模定律,扩大训练计算规模可以提高大型语言模型(LLM)性能的关键,但调研机构Epoch AI的研究,LLM再训练无需高额费用,也能让AI能力获得显著提升。在该研究中,他们引入了一个基本框架,用于量化后训练增强的收益和成本,特别是通过计算等效增益来衡量收益。他们将该框架应用于一系列具有代表性的后训练增强,并发现性能提升非常显著,但微调成本通常与预训练成本相比非常小,某些后训练增强技术可以在不到
企业AI格局正在迅速重塑。随着实验项目逐步落地投入生产,海外风险投资机构Menlo Ventures最新发布的《2024年企业生成式AI现状》报告对600名企业IT决策者展开了调研,深入分析了这场变革中正在浮现的新赢家与失利者。(本文由OneFlow编译发布,转载请联系授权。原文:https://menlovc.com/2024-the-state-of-generative-ai-in-the
AGI实现的一大标志是,具备人类级别的逻辑推理(reasoning)能力。近期,随着推理(inference)模型GPT o1、DeepSeek R1-Lite的发布,模型的逻辑推理能力得到显著提升,也预示着对LLM潜力的深度挖掘正在转向推理阶段。围绕增强LLM逻辑推理能力这一目标,美国人工智能与密码学研究实验室Bagel团队结合最新研究,从算术、常识和符号这三种主要逻辑推理类型出发,对比了在推理
OpenAI下一代GPT近期被爆遇到瓶颈,这让“Scaling Law撞墙”的声音变得更响,尽管业内对此争论不休,但现实情况是,大模型确实不再像年前那样有突飞猛进的进展。作为启发大模型领域提出Scaling Law的研究者,强化学习之父、阿尔伯塔大学教授Richard Sutton在2019年发表了后来被AI领域奉为经典的The Bitter lesson。在这篇文章中,他指出,AI研究在过去70