【西溪论道】0823 阿里云与中国大模型「半壁江山」的闭门交流

今天大模型技术带来的时代变化，才刚刚拉开帷幕。经过前半年的极度兴奋和「过度想象」，一个可能长达 10 年的技术革命，现在才真正开启「万里长征」。狂热期之后真正进入拓荒期，这里面经过足够时间磨练和付出坚实代价才能获得的「共识」，才是真共识。

KKK_Kiral

218人浏览 · 2023-09-16 10:15:13

KKK_Kiral · 2023-09-16 10:15:13 发布

8.23 中国大模型「顶流群聊」笔记

01 关注大模型，更需要关注 infra 硬件底层
02 ChatGPT 点燃热情，Llama2 让人脚踏实地
03 大模型 ToB 现状和实践
04 AGI 值得献身，但也不要「玩命」
05 如何通向 AI native？
06 大模型时代，服务大 B 还是小 B
07 大模型对云，意味着什么？

🔗 原文链接： https://mp.weixin.qq.com/s/-uCVv5SO…

在这里插入图片描述

阿里云与中国大模型「半壁江山」的闭门交流里，聊了什么?

文 | 张鹏

国内的科技创新历史上，从没有哪一次像大模型技术这样，短短几个月就建立了「科技圈共识」。

我 1998 年入行科技圈，见证了 PC 时代、互联网时代、移动互联网时代这几个时代变迁，从来没见过这么迅猛的「共识达成速度」。就拿极客公园的创业者社区 Founder Park 来说，因为比较早关注到大模型领域的技术变化，在短短 4 个月时间就新增了 15 万关注者，社区成员已经扩充到七八千人之多。

首批国产大模型通过备案，又点燃了人们的热情。备案制管理，意味着对大模型发展的政策上的宽松，这也意味着大模型在国内的商用和产业化将真正开启。

只不过「共识」达成的太快也会有让人担心的地方，因为这个技术还在早期发展阶段，也还做不到「水银泻地」般落地到广泛领域。

客观地说，如果相信大模型技术带来了 AGI 的曙光，那么就要坦诚看到其真正产品化，并成为生产力，现在才算开始探索。那些在一线的创业公司经历的 KnowHow 和问题，恰恰是最值得被汇聚起来的星星之火。

基于这个想法，阿里云联合 Founder Park 邀请了 20 多位中国大模型领域模型层、工具层、应用层的优秀创业者，到杭州西溪湿地做了一场面对面的闭门交流。

希望创业者之间，产业生态之间，能有更多的带着「开源精神」的坦诚交流和思考碰撞。

阿里云董事长张勇还给这场闭门会取了一个很好的名字——「西溪论道」。坐而论道，更要起而行之。

在这里插入图片描述

8 月 23 号，西溪论道参会者合影

01 关注大模型，更需要关注 infra 硬件底层

现在全球任何一个地方，做大模型，最稀缺的资源除了人才，就是 GPU。
百川智能创始人&CEO 王小川：英伟达一年的 GPU 出货量在 100 万颗，但 OpenAI 说要设计 1000 万颗 GPU 连在一块的超算。
创新工场董事长、零一万物创始人李开复：唯一推动过去七十年 AI 进步的力量，就是一个通用且可扩张的计算能力。 计算能力增强了，相应地带动算法、带动数据的进步，这是大力出奇迹的背景。
前有 OpenAI 不计成本地设立模型新标杆，后有 Meta 开源为所有人铺平道路。
Infra （硬件底层）团队必须比 Modelling （模型）团队还要强大 。
做过大模型 Infra 的人比做大模型的人还要贵、更稀缺
GPU 短缺这个问题，全球创业者都要面对。
怎么把有限的算力做好，会成为大模型公司角逐的关键。
大模型团队每一个位置都要有人才，Pre Train（预训练）、Post Train（训练后）、Multi-Modal（多模态），Scaling Up（可扩展性），Inference（推理）等等都有其重要性。其中，Infra 团队这部分人才更稀缺，更应该被重视。

02 ChatGPT 点燃热情，Llama2 让人脚踏实地

对于仍选择做基座大模型的创业者而言，开源的底座只是起点。
李开复：尽管在跟 GPT-3、GPT3.5 等 SOTA（state of the art，先进）模型的各种评比中，Llama2 的差距不大。但实际上用起来， 今天 Llama2 的能力跟 GPT - 4，以及 Bard （谷歌的大语言模型）的下一个版本，差别巨大 。
Meta 开源带给业界的触动很大。当技术换代或者更强的开源模型出来，过去的投入可能完全「打水漂」 ，比如开源模型在预训练上看了一万亿的英文 Token，你自己的模型非要再看一遍，可能毫无意义。
澜舟科技 CEO 周明：很多原先想做「最好大模型」的企业，其实需要重新思考创业的生态位，选择拥抱开源，在开源的底座上做「为我所用」的东西 。
澜舟科技：**把开源模型当 L0 底座，在这之上，做 L1 语言模型、L2 行业模型、L3 场景模型。**这样一层一层做好，跟客户通过 AI Agents（代理）来互动得到反馈，模型一点点迭代，会逐渐建立壁垒。即便未来有更好的开源模型出现，也有办法在它的基础上再重新训练或继续迭代。开源模型水涨船高，你随着比你厉害的人的成长而成长 。
基于开源模型做，后续的投入门槛并不低，能力要求也不低，用开源只是有效降低了冷启动的成本，对创业者这并不丢人。 李志飞：一个开源模型可能看过 1 万亿 Token 的数据，帮你省了几百万美金，模型厂商需要接着再往下训模型。最终要把模型做到 SOTA 水平，数据清洗、预训练、微调、强化学习，各个步骤都不能少，每年算力可能千万美元起，并不见得一下子门槛就没了，更不是使用开源模型就不用继续投入了。
从这个角度来看，开源模型是更务实的选择，优化、训练出实用的模型反而也是真本事。 基于开源，有机会做出很好的大模型，核心是能够拥有相对领先的认知，有持续迭代模型的能力 。

03 大模型 ToB 现状和实践

模型能力的提升是一方面，落到客户场景，大模型会有不一样的追求。
国内各行各业对于在业务中加入大模型的需求是非常强烈的。手里拿着客户和场景的创业者，搞不好会是那些大模型创业者的更早获得技术红利的受益者。
从客户的角度来看，大模型，「大」并不是唯一的追求，甚至完全不一定是客户想要的 。
特别现实的客户场景：真正去跟 B 端客户谈，客户只需要语言理解、多轮对话和一定的推理能力，其他的 AGI（通用人工智能）能力一概不要。
这种情况下，只要把自然语言理解清楚了，把参数传过来调用 AI 1.0 的模型以及外部数据库，结果是可靠的，成本也比较低，最后再用大模型把结果组装起来，形成一个报告。 模型在这里起到了任务分发的作用： 分成子任务、每个子任务调用什么。在子任务里，有些大模型支撑的，有些是原来的统计模型，有些甚至都不是自己的，而是某个第三方的模型， 客户最后要的，只要能完成任务就行 。
如果只做这种 To B，其模型能力包含语言理解、多轮对话和少量的推理，这个模型并不需要很大，需要在几百张卡，100 亿到 1000 亿的模型就相对够了。把语言理解、多轮对话做好，并且有一定的推理能力，再加上 AI Agents，基本上能完成客户在很多场景下的需求了。
一个通用的大模型，并不意味着可以解决所有问题。B 端客户的很多场景，通用大模型放上去并不奏效 。这意味着模型需要越来越多，有越来越可收敛的场景，也意味着需要更多力量参与进来帮助技术和场景的对齐，而不是一个万能的技术去适配所有场景。
澜舟科技 CEO 周明：必须要把用户数据、行业数据，甚至图谱或者规则，放到模型里继续训练，这是行业大模型存在的必要性。在通用大模型不能覆盖到的局部行业，加入这样的数据，能把行业问题解决得很好，而且还能克服很多幻象问题。
出门问问李志飞：通用大模型与垂直大模型，各尽其用，鱼与熊掌不可兼得 。模型特别大，就意味着推理成本非常高。而且，一个做芯片设计的大模型，去回答电影、明星等娱乐内容，也没有意义。To B 更多是要垂直和可靠，而通用在于智商，有很强的推理能力、逻辑能力，很丰富的知识 。这不一定是 To B 目前阶段需要的。
智谱 AI CSO 张阔：对未来大模型的价值来说，「20% 可能是中心化的，80% 会是非中心化的」，也就是说用更丰富的、更多种类的大模型具体到客户场景里去产生价值，而不只是一个大模型无限泛化能力去解决所有问题，这是一种必然的趋势。

04 AGI 值得献身，但也不要「玩命」

大模型是 AI 的一个分水岭。 过去，人工智能是在封闭的系统追求确定的目标 ，比如人脸识别系统追求百分之百准确，但现在， 大模型带来的「涌现」是一种开放的智能，产生各种各样的可能性 ，超出设计者预料之外。

智源人工智能研究院院长黄铁军：这次技术变革向下传递得很快，从大厂到创业公司迅速共识： 这是一个新时代的开始 。
今天的大模型还有很多东西是黑匣子，大模型的「上限」还有巨大提升空间，大模型的「下限」却还不能保持足够稳定，这个时候理解技术的边界，合理的设定目标和要解决的问题，是很有必要的。 有人要解决上限的探索，有人要解决下限的稳定 。
除了等待大模型技术更进一步，很多中间层的创业者在改进让大模型落地到应用的环境。
BentoML 亚太区负责人刘聪：和之前 ML 相比，海外客户基本都能拿到一些预算，来做大模型相关的产品原型或者 Demo。
Dify.ai 创始人&CEO 张路宇：在开发者视角，拿到模型是不够的。
Zilliz 创始人&CEO 星爵：一个极度简单的开发栈，是 AI 民主化的一个前提 ，基于这个判断，他提出了 CVP（大模型+向量数据库+提示词工程）这样的开发栈。

05 如何通向 AI native？

AI native（AI 原生）的应用可能有这样的特征： 如果大模型拿掉了，应用就崩溃了，它是一个完全依靠大模型能力的应用 。但拿掉 Copilot，Office 软件还是 Office，AI 只是锦上添花。
**可控性可能是 AI native 应用诞生的条件。**在应用层怎么才能让模型更可控。开源社区贡献者解决可控性后，大量应用冒出来了 。
社交+Agent 是被看好的一个机会，并且一定会是最早一批 AI native 的产品，但这很可能需要创业者具备从大模型到产品的「端到端」的构建能力。
聆心智能 CEO 张逸嘉：现在大模型可以落地的社交场景不是陪伴，人们接受虚拟形象的陪伴需要时间。 现在落地的社交场景是角色扮演，用户画像是网文小说爱好者，角色扮演是网文小说的新形式 。
AI Agent 方向，是不是大模型「全村的希望」，甚至最终带来交互革命、终端革命、商业模式革命，很可能要取决于多模态能力的发展。
心识宇宙创始人&CEO 陶芳波：一开始大家对 Agent 的期待很高，但在现有技术条件下发现，Agent 怎么样比 ChatGPT 解决了更多问题，很难被讲清楚。如果真的要把 Agent 发挥作用，并不是把那么多软件的 API 给接进来，因为接软件的 API 本质上是在做兼容，是新瓶装旧酒。
出门问问李志飞：**现在看来，多模态是 C 位，不是花瓶。**因为 Agent 输入输出都依赖于多模态的能力 ，没有多模态就没有 Agent，只不过今天的 Agent 更多是通过语言模型，通过文本来反馈，但是最终 Agent 会是一个多模态的观察、感知、行动。他预判，跨模态知识的迁移，再过两、三年看，反而是大语言模型最大的一个贡献。

06 大模型时代，服务大 B 还是小 B

阿里云董事长张勇：中间层公司的出现，一定是有可能的，也是云计算企业乐见其成的。
定义清楚要解决谁的什么问题，定义越清晰，能力越到位，做的东西就能真正收敛，真正有商业穿透力 。
比如大模型技术刚刚开始进入行业，但企业服务「不收敛」、项目化的问题就开始出现了。比如给 B 端用户做大模型训练，但由于数据是对方的，所以最终合作完，自己的团队很难「闭环」——数据没有飞轮，收入毛利也低，一不小心就做成了「高科技施工队」，是技术企业面对 B 端的一个通病。甚至有创业者都开始怀疑，大模型 To B 可能天生缺乏土壤。
To B 其实还有另一种可能，就是「小 B」，也就是那些中小微企业，数量众多，单单服务它们，就能够造就现在的互联网巨头。而且，相对于大型公司，这些小 B 公司并不关心技术和愿景，谁能帮它们解决增长问题，就会因此付钱。
当前大公司的数据一个目的就是要「降本增效」，说白了就是「节流」。但效率优化空间总有尽头，可是增长和发展的「开源」空间，却相对无限。企业服务里 「开源」远比「节流」重要，人们永远愿意为了发展而付费 。
小公司很难靠「降本增效」去启动需求，它们要的是成长和发展的能力。
小 B 客户还有一种双重性，即如果采用**「订阅」的方式**，那它其实就可以被看成是一个「C 端用户」。
建议创业公司需要一开始就确定自己要服务的客户，是 C 还是 B，是小 B 还是大 B，必须定义好。做 AI 的公司，如果既做 To 大 B 又做 To 小 B 甚至 To C 是行不通的。
要定义清楚自己服务谁，解决什么问题，而不是哪有单子往哪里走。

07 大模型对云，意味着什么？

张勇：在大模型时代，云本身应该是产品，并且不是一个，而是一系列的产品。
如何满足客户对算力的进一步需求，就成了阿里云的基本出发点。这里面一定有技术要解决的问题，但阿里云也一样要思考如何「收敛」到真正解决产业生态问题的产品，而不只是输出算力本身。
阿里云在这样一个巨变时代，要把握的还是更核心的角色，就是 Cloud Service Provider（云计算服务提供者）。而要做好这个角色，不懂大模型一定是不行的。
非常确定未来人类社会对于对算力的需求是无限的，对于其效率的要求也会越来越高。
阿里云肯定是希望「模型越多越好，场景越多越好」，二者越多，对算力的需求和技术要求就更高，这就意味着云有了新的要去面对和解决的问题。而唯有持续不断值得解决的「难问题」，才能驱动云的价值有更大的成长空间。
云计算平台前所未有需要一个生态，而不是什么都自己搞 。目前，还没有一家公司能把芯片、云计算、数据平台、机器学习框架和大模型，全部用自己家的，形成所谓的「闭环」，这几乎在物理上是不可能的。」
在一个全新的数字化生态里塑造新的格局的可能性。张勇的结论是：这样的机会和挑战，对阿里云，对所有创业者，都是相通的，都要面向未来找到自己的位置，共同形成生态伙伴关系，共同创造价值。

今天大模型技术带来的时代变化，才刚刚拉开帷幕。经过前半年的极度兴奋和「过度想象」，一个可能长达 10 年的技术革命，现在才真正开启「万里长征」。狂热期之后真正进入拓荒期，这里面 经过足够时间磨练和付出坚实代价才能获得的「共识」，才是真共识 。