🔗 原文链接: https://mp.weixin.qq.com/s/-uCVv5SO…

在这里插入图片描述

阿里云与中国大模型「半壁江山」的闭门交流里,聊了什么?

文 | 张鹏

国内的科技创新历史上,从没有哪一次像大模型技术这样,短短几个月就建立了「科技圈共识」。

我 1998 年入行科技圈,见证了 PC 时代、互联网时代、移动互联网时代这几个时代变迁,从来没见过这么迅猛的「共识达成速度」。就拿极客公园的创业者社区 Founder Park 来说,因为比较早关注到大模型领域的技术变化,在短短 4 个月时间就新增了 15 万关注者,社区成员已经扩充到七八千人之多。

首批国产大模型通过备案,又点燃了人们的热情。备案制管理,意味着对大模型发展的政策上的宽松,这也意味着大模型在国内的商用和产业化将真正开启。

只不过「共识」达成的太快也会有让人担心的地方,因为这个技术还在早期发展阶段,也还做不到「水银泻地」般落地到广泛领域。

客观地说,如果相信大模型技术带来了 AGI 的曙光,那么就要坦诚看到其真正产品化,并成为生产力,现在才算开始探索。那些在一线的创业公司经历的 KnowHow 和问题,恰恰是最值得被汇聚起来的星星之火。

基于这个想法,阿里云联合 Founder Park 邀请了 20 多位中国大模型领域模型层、工具层、应用层的优秀创业者,到杭州西溪湿地做了一场面对面的闭门交流。

希望创业者之间,产业生态之间,能有更多的带着「开源精神」的坦诚交流和思考碰撞。

阿里云董事长张勇还给这场闭门会取了一个很好的名字——「西溪论道」。坐而论道,更要起而行之。

在这里插入图片描述

8 月 23 号,西溪论道参会者合影

01 关注大模型,更需要关注 infra 硬件底层

  • 现在全球任何一个地方,做大模型,最稀缺的资源除了人才,就是 GPU。
  • 百川智能创始人&CEO 王小川:英伟达一年的 GPU 出货量在 100 万颗,但 OpenAI 说要设计 1000 万颗 GPU 连在一块的超算。
  • 创新工场董事长、零一万物创始人李开复:唯一推动过去七十年 AI 进步的力量 , 就是一个通用且可扩张的计算能力。 计算能力增强了,相应地带动算法、带动数据的进步,这是大力出奇迹的背景。
  • 前有 OpenAI 不计成本地设立模型新标杆,后有 Meta 开源为所有人铺平道路。
  • Infra (硬件底层) 团队必须比 Modelling (模型) 团队还要强大
  • 做过大模型 Infra 的人比做大模型的人还要贵、更稀缺
  • GPU 短缺这个问题,全球创业者都要面对。
  • 怎么把有限的算力做好,会成为大模型公司角逐的关键。
  • 大模型团队每一个位置都要有人才,Pre Train(预训练)、Post Train(训练后)、Multi-Modal(多模态),Scaling Up(可扩展性),Inference(推理)等等都有其重要性。其中,Infra 团队这部分人才更稀缺,更应该被重视。

02 ChatGPT 点燃热情,Llama2 让人脚踏实地

  • 对于仍选择做基座大模型的创业者而言,开源的底座只是起点。
  • 李开复:尽管在跟 GPT-3、GPT3.5 等 SOTA(state of the art,先进)模型的各种评比中,Llama2 的差距不大。但实际上用起来, 今天 Llama2 的能力跟 GPT - 4,以及 Bard (谷歌的大语言模型) 的下一个版本,差别巨大
  • Meta 开源带给业界的触动很大。当技术换代或者更强的开源模型出来,过去的投入可能完全「打水漂」 ,比如开源模型在预训练上看了一万亿的英文 Token,你自己的模型非要再看一遍,可能毫无意义。
  • 澜舟科技 CEO 周明:很多原先想做「最好大模型」的企业,其实需要重新思考创业的生态位,选择拥抱开源, 在开源的底座上做「为我所用」的东西
  • 澜舟科技:**把开源模型当 L0 底座,在这之上,做 L1 语言模型、L2 行业模型、L3 场景模型。**这样一层一层做好,跟客户通过 AI Agents(代理)来互动得到反馈,模型一点点迭代,会逐渐建立壁垒。即便未来有更好的开源模型出现,也有办法在它的基础上再重新训练或继续迭代。开源模型水涨船高,你随着比你厉害的人的成长而成长
  • 基于开源模型做,后续的投入门槛并不低,能力要求也不低,用开源只是有效降低了冷启动的成本,对创业者这并不丢人。 李志飞:一个开源模型可能看过 1 万亿 Token 的数据,帮你省了几百万美金,模型厂商需要接着再往下训模型。最终要把模型做到 SOTA 水平,数据清洗、预训练、微调、强化学习,各个步骤都不能少,每年算力可能千万美元起,并不见得一下子门槛就没了,更不是使用开源模型就不用继续投入了。
  • 从这个角度来看,开源模型是更务实的选择,优化、训练出实用的模型反而也是真本事。 基于开源,有机会做出很好的大模型,核心是能够拥有相对领先的认知,有持续迭代模型的能力

03 大模型 ToB 现状和实践

  • 模型能力的提升是一方面,落到客户场景,大模型会有不一样的追求。
  • 国内各行各业对于在业务中加入大模型的需求是非常强烈的。手里拿着客户和场景的创业者,搞不好会是那些大模型创业者的更早获得技术红利的受益者。
  • 从客户的角度来看,大模型,「大」并不是唯一的追求,甚至完全不一定是客户想要的
  • 特别现实的客户场景:真正去跟 B 端客户谈,客户只需要语言理解、多轮对话和一定的推理能力,其他的 AGI(通用人工智能)能力一概不要。
  • 这种情况下,只要把自然语言理解清楚了,把参数传过来调用 AI 1.0 的模型以及外部数据库,结果是可靠的,成本也比较低,最后再用大模型把结果组装起来,形成一个报告。 模型在这里起到了任务分发的作用: 分成子任务、每个子任务调用什么。在子任务里,有些大模型支撑的,有些是原来的统计模型,有些甚至都不是自己的,而是某个第三方的模型, 客户最后要的,只要能完成任务就行
  • 如果只做这种 To B,其模型能力包含语言理解、多轮对话和少量的推理,这个模型并不需要很大,需要在几百张卡,100 亿到 1000 亿的模型就相对够了。把语言理解 多轮对话做好,并且有一定的推理能力,再加上 AI Agents,基本上能完成客户在很多场景下的需求了。
  • 一个通用的大模型,并不意味着可以解决所有问题。B 端客户的很多场景,通用大模型放上去并不奏效 。这意味着模型需要越来越多,有越来越可收敛的场景,也意味着需要更多力量参与进来帮助技术和场景的对齐,而不是一个万能的技术去适配所有场景。
  • 澜舟科技 CEO 周明:必须要把用户数据、行业数据,甚至图谱或者规则,放到模型里继续训练,这是行业大模型存在的必要性。在通用大模型不能覆盖到的局部行业,加入这样的数据,能把行业问题解决得很好,而且还能克服很多幻象问题。
  • 出门问问李志飞:通用大模型与垂直大模型,各尽其用,鱼与熊掌不可兼得 。模型特别大,就意味着推理成本非常高。而且,一个做芯片设计的大模型,去回答电影、明星等娱乐内容,也没有意义。To B 更多是要垂直和可靠,而通用在于智商,有很强的推理能力、逻辑能力,很丰富的知识 。这不一定是 To B 目前阶段需要的。
  • 智谱 AI CSO 张阔:对未来大模型的价值来说,「20% 可能是中心化的,80% 会是非中心化的」,也就是说用更丰富的、更多种类的大模型具体到客户场景里去产生价值,而不只是一个大模型无限泛化能力去解决所有问题,这是一种必然的趋势。

04 AGI 值得献身,但也不要「玩命」

大模型是 AI 的一个分水岭。 过去,人工智能是在封闭的系统追求确定的目标 ,比如人脸识别系统追求百分之百准确,但现在, 大模型带来的「涌现」是一种开放的智能,产生各种各样的可能性 ,超出设计者预料之外。

  • 智源人工智能研究院院长黄铁军:这次技术变革向下传递得很快,从大厂到创业公司迅速共识: 这是一个新时代的开始
  • 今天的大模型还有很多东西是黑匣子,大模型的「上限」还有巨大提升空间大模型的「下限」却还不能保持足够稳定,这个时候理解技术的边界,合理的设定目标和要解决的问题,是很有必要的。 有人要解决上限的探索,有人要解决下限的稳定
  • 除了等待大模型技术更进一步,很多中间层的创业者在改进让大模型落地到应用的环境
  • BentoML 亚太区负责人刘聪:和之前 ML 相比,海外客户基本都能拿到一些预算,来做大模型相关的产品原型或者 Demo
  • Dify.ai 创始人&CEO 张路宇:在开发者视角,拿到模型是不够的。
  • Zilliz 创始人&CEO 星爵:一个极度简单的开发栈,是 AI 民主化的一个前提 ,基于这个判断,他提出了 CVP(大模型+向量数据库+提示词工程)这样的开发栈。

05 如何通向 AI native?

  • AI native(AI 原生)的应用可能有这样的特征: 如果大模型拿掉了,应用就崩溃了,它是一个完全依靠大模型能力的应用 。但拿掉 Copilot,Office 软件还是 Office,AI 只是锦上添花。
  • **可控性可能是 AI native 应用诞生的条件。**在应用层怎么才能让模型更可控。开源社区贡献者解决可控性后,大量应用冒出来了
  • 社交+Agent 是被看好的一个机会,并且一定会是最早一批 AI native 的产品,但这很可能需要创业者具备从大模型到产品的「端到端」的构建能力
  • 聆心智能 CEO 张逸嘉:现在大模型可以落地的社交场景不是陪伴,人们接受虚拟形象的陪伴需要时间。 现在落地的社交场景是角色扮演,用户画像是网文小说爱好者,角色扮演是网文小说的新形式
  • AI Agent 方向,是不是大模型「全村的希望」,甚至最终带来交互革命、终端革命、商业模式革命,很可能要取决于多模态能力的发展。
  • 心识宇宙创始人&CEO 陶芳波:一开始大家对 Agent 的期待很高,但在现有技术条件下发现,Agent 怎么样比 ChatGPT 解决了更多问题,很难被讲清楚。如果真的要把 Agent 发挥作用,并不是把那么多软件的 API 给接进来,因为接软件的 API 本质上是在做兼容,是新瓶装旧酒。
  • 出门问问李志飞:**现在看来,多模态是 C 位,不是花瓶。**因为 Agent 输入输出都依赖于多模态的能力 ,没有多模态就没有 Agent,只不过今天的 Agent 更多是通过语言模型,通过文本来反馈,但是最终 Agent 会是一个多模态的观察、感知、行动。他预判,跨模态知识的迁移,再过两、三年看,反而是大语言模型最大的一个贡献。

06 大模型时代,服务大 B 还是小 B

  • 阿里云董事长张勇:中间层公司的出现,一定是有可能的,也是云计算企业乐见其成的。
  • 定义清楚要解决谁的什么问题,定义越清晰,能力越到位,做的东西就能真正收敛,真正有商业穿透力
  • 比如大模型技术刚刚开始进入行业,但企业服务「不收敛」、项目化的问题就开始出现了。比如给 B 端用户做大模型训练, 但由于数据是对方的,所以最终合作完,自己的团队很难「闭环」——数据没有飞轮,收入毛利也低,一不小心就做成了「高科技施工队 」,是技术企业面对 B 端的一个通病。甚至有创业者都开始怀疑,大模型 To B 可能天生缺乏土壤。
  • To B 其实还有另一种可能,就是「小 B」,也就是那些中小微企业,数量众多,单单服务它们,就能够造就现在的互联网巨头。而且,相对于大型公司,这些小 B 公司并不关心技术和愿景,谁能帮它们解决增长问题,就会因此付钱。
  • 当前大公司的数据一个目的就是要「降本增效」,说白了就是「节流」。但效率优化空间总有尽头,可是增长和发展的「开源」空间,却相对无限。企业服务里 「开源」远比「节流」重要,人们永远愿意为了发展而付费
  • 小公司很难靠「降本增效」去启动需求,它们要的是成长和发展的能力。
  • 小 B 客户还有一种双重性,即如果采用**「订阅」的方式**,那它其实就可以被看成是一个「C 端用户」
  • 建议创业公司需要一开始就确定自己要服务的客户,是 C 还是 B,是小 B 还是大 B,必须定义好。做 AI 的公司,如果既做 To 大 B 又做 To 小 B 甚至 To C 是行不通的。
  • 要定义清楚自己服务谁,解决什么问题,而不是哪有单子往哪里走

07 大模型对云,意味着什么?

  • 张勇:在大模型时代,云本身应该是产品,并且不是一个,而是一系列的产品。
  • 如何满足客户对算力的进一步需求,就成了阿里云的基本出发点。这里面一定有技术要解决的问题,但阿里云也一样要思考如何「收敛」到真正解决产业生态问题的产品,而不只是输出算力本身。
  • 阿里云在这样一个巨变时代,要把握的还是更核心的角色,就是 Cloud Service Provider(云计算服务提供者)。 而要做好这个角色,不懂大模型一定是不行的。
  • 非常确定未来人类社会对于对算力的需求是无限的,对于其效率的要求也会越来越高。
  • 阿里云肯定是希望「模型越多越好,场景越多越好」,二者越多,对算力的需求和技术要求就更高,这就意味着云有了新的要去面对和解决的问题。而唯有持续不断值得解决的「难问题」,才能驱动云的价值有更大的成长空间。
  • 云计算平台前所未有需要一个生态,而不是什么都自己搞 。目前,还没有一家公司能把芯片、云计算、数据平台、机器学习框架和大模型,全部用自己家的,形成所谓的「闭环」,这几乎在物理上是不可能的。」
  • 在一个全新的数字化生态里塑造新的格局的可能性。张勇的结论是:这样的机会和挑战,对阿里云,对所有创业者,都是相通的,都要面向未来找到自己的位置,共同形成生态伙伴关系,共同创造价值。

今天大模型技术带来的时代变化,才刚刚拉开帷幕。经过前半年的极度兴奋和「过度想象」,一个可能长达 10 年的技术革命,现在才真正开启「万里长征」。狂热期之后真正进入拓荒期,这里面 经过足够时间磨练和付出坚实代价才能获得的「共识」,才是真共识

Logo

纵情码海钱塘涌,杭州开发者创新动! 属于杭州的开发者社区!致力于为杭州地区的开发者提供学习、合作和成长的机会;同时也为企业交流招聘提供舞台!

更多推荐