本文经授权转载自公众号「极客公园」(ID:geekpark)
国内的科技创新历史上,从没有哪一次像大模型技术这样,短短几个月就建立了「科技圈共识」。
我 1998 年入行科技圈,见证了 PC 时代、互联网时代、移动互联网时代这几个时代变迁,从来没见过这么迅猛的「共识达成速度」。就拿极客公园的创业者社区 Founder Park 来说,因为比较早关注到大模型领域的技术变化,在短短 4 个月时间就新增了 15 万关注者,社区成员已经扩充到七八千人之多。
就在昨天,首批国产大模型通过备案,又点燃了人们的热情。备案制管理,意味着对大模型发展的政策上的宽松,这也意味着大模型在国内的商用和产业化将真正开启。
只不过「共识」达成的太快也会有让人担心的地方,因为这个技术还在早期发展阶段,也还做不到「水银泻地」般落地到广泛领域。
客观地说,如果相信大模型技术带来了 AGI 的曙光,那么就要坦诚看到其真正产品化,并成为生产力,现在才算开始探索。那些在一线的创业公司经历的 KnowHow 和问题,恰恰是最值得被汇聚起来的星星之火。
基于这个想法,阿里云联合 Founder Park 邀请了 20 多位中国大模型领域模型层、工具层、应用层的优秀创业者,到杭州西溪湿地做了一场面对面的闭门交流。
阿里云董事长张勇还给这场闭门会取了一个很好的名字——「西溪论道」。这场长达五个小时的闭门会,张勇就坐在我旁边,全程参与到创业者的群聊,我看他笔记就写满了好几页纸。
8 月 23 号,西溪论道参会者合影
看得出来,阿里云作为算力基础设施层应该如何与这几个层面连接与共创,如何支持各个层面的创业者做好大模型用好大模型,这是张勇最关心的话题。这显示了阿里云跟国内其他公司完全不同的姿态,如何促进大模型生态繁荣才是阿里云最关心的事情。
这些堪称国内大模型领域最积极最活跃的力量,从下午两点一直聊到了晚上九点,从产业的多个层面,立体地做了交流碰撞,也从各自的最新实践中聊出了很多有洞见的观点。按照他们的说法,在这里一起讨论,听到了很多真话,很多「真情实感」。
我整理了一部分印象深刻的要点,用这篇文章也分享给大家。
现在全球任何一个地方,做大模型,最稀缺的资源除了人才,就是 GPU。
百川智能创始人&CEO 王小川分享他去硅谷和朋友聊到,英伟达一年的 GPU 出货量在 100 万颗,但 OpenAI 说要设计 1000 万颗 GPU 连在一块的超算。
创新工场董事长、零一万物创始人李开复表示,尽管千万张 GPU 是天方夜谭,但是「大力出奇迹」的暴力美学是有背景的。强化学习之父 Richard Sutton 在《The Bitter Lesson》(《痛苦的教训》)中指出:过去七十年,想在 AI 里放一点知识进去,想要增加一点能力,想调一调模型架构,最后发现基本没有价值。唯一推动过去七十年 AI 进步的力量,就是一个通用且可扩张的计算能力。计算能力增强了,相应地带动算法、带动数据的进步,这是大力出奇迹的背景。
因此,在这波大模型浪潮中跑出来的公司首先要有算力,几个人、几十张卡的「禀赋」,还是去选择调用中心化的大模型可能更务实。
「当有了相对足够的算力,在这个前提下好好利用算力,可以做出很多今天只用开源、只调 Llama2(Meta 的大语言模型)做不出来的东西」。前有 OpenAI 不计成本地设立模型新标杆,后有 Meta 开源为所有人铺平道路,在风云诡谲、高度不确定的大模型创业环境中,这是李开复对大模型公司新目标和新实践的思考。
这个打法是什么?怎么让一块 GPU 发挥两块、甚至三块的能力?这个问题可能要在团队构成上更加讲究。李开复认为,Infra(硬件底层)团队必须比 Modelling(模型)团队还要强大。他说很快大家就会发现,做过大模型 Infra 的人比做大模型的人还要贵、更稀缺;而会做 Scaling Law(扩展定律,模型能力随着训练计算量增加而提升)的人比会做大模型 Infra 的人更稀缺。
因为优秀的 Scaling 团队可以规避徒劳无功的训练,当做训练的时候,大概率会成功,一旦不成功,也有能力马上叫停,有足够的数学能力来做这件事情。除此之外还有很多微妙的细节和经验,比如,读通论文也会少走很多弯路,因为有些论文是故意把不奏效的东西写出来,不会读很容易被带偏。
其实客观来看,GPU 短缺这个问题,不只是中国创业者的问题,全球创业者都要面对。所以怎么把有限的算力做好,会成为大模型公司角逐的关键。
李开复就提到一个明确的观点:大模型团队每一个位置都要有人才,Pre Train(预训练)、Post Train(训练后)、Multi-Modal(多模态),Scaling Up(可扩展性),Inference(推理)等等都有其重要性。其中,Infra 团队这部分人才更稀缺,更应该被重视。
其实除了创业者自己对大模型要精进更深入的理解,也需要更多维度的技术创新,比如现场一位 infra 层的创业者,墨芯创始人&CEO 王维就分享了一个计算上的解决方案——稀疏计算。让我看到了云端和终端 AI 芯片加速方案通过优化计算模式,能将神经网络开发全面稀疏化,提供超高算力、超低功耗的通用 AI 计算平台的可能性。
ChatGPT 点燃热情,
Llama2 让人脚踏实地
如果说 ChatGPT 点燃了很多创业者的热情,那么Meta 开源的 LLaMA和 LIama2,就让绝大部分创业者在基础模型的起跑线上「众生平等」了。但未来朝着什么方向发展,创业者根据自己的资源禀赋、能力结构,显然会有不同的使命和愿景。
对于仍选择做基座大模型的创业者而言,开源的底座只是起点。李开复就指出,尽管在跟 GPT-3、GPT3.5 等 SOTA(state of the art,先进)模型的各种评比中,Llama2 的差距不大。但实际上用起来,今天 Llama2 的能力跟 GPT–4,以及 Bard(谷歌的大语言模型)的下一个版本,差别巨大。
图片来源:Meta
这看起来也给了做大模型的企业一些腾挪空间,在未来,「真有钱」、「真有本事」的大模型创业者,有机会切换到一个 New Bard 或者 New GPT-4 的打法。
另一方面,不少创业者表示,Meta 开源带给业界的触动很大,「今天 xxx 可能还是中国最好的模型,但明天它可能就被超越了。甚至突然有一天会发现你原来练的那些模型基本都没啥用,当技术换代或者更强的开源模型出来,过去的投入可能完全「打水漂」,比如开源模型在预训练上看了一万亿的英文 Token,你自己的模型非要再看一遍,可能毫无意义。」出门问问创始人&CEO 李志飞认为,要充分看到开源带来的深远影响。
「大家虽然都有伟大的理想和抱负,但取决于是否有足够多的经费来支撑到那一天。所以要脚踏实地得看到那,活着可能比什么都重要。」澜舟科技 CEO 周明也认为,很多原先想做「最好大模型」的企业,其实需要重新思考创业的生态位,选择拥抱开源,在开源的底座上做「为我所用」的东西。比如英文开源的模型在中文能力上较弱,也没有在行业场景、数据中打磨过,这恰好是创业团队的机会。
在这一点上,澜舟科技把开源模型当 L0 底座,在这之上,做 L1 语言模型、L2 行业模型、L3 场景模型。周明认为,这样一层一层做好,跟客户通过 AI Agents(代理)来互动得到反馈,模型一点点迭代,会逐渐建立壁垒。即便未来有更好的开源模型出现,也有办法在它的基础上再重新训练或继续迭代。「开源模型『水涨船高』,你随着比你厉害的人的成长而成长。」
用好开源模型,也是一种壁垒和门槛。这可能和很多人想象的不太一样。甚至有人会问,基于开源模型做,还算做大模型吗?另一边,很多企业自身也避谈使用了开源模型这一话题。
其实,基于开源模型做,后续的投入门槛并不低,能力要求也不低,用开源只是有效降低了冷启动的成本,对创业者这并不丢人。比如李志飞分析认为,一个开源模型可能看过 1 万亿 Token 的数据,帮你省了几百万美金,模型厂商需要接着再往下训模型。最终要把模型做到 State of the art(SOTA,特指领先水平的大模型)的水平,数据清洗、预训练、微调、强化学习,各个步骤都不能少,每年算力可能千万美元起,并不见得一下子门槛就没了,更不是使用开源模型就不用继续投入了。
从这个角度来看,开源模型是更务实的选择,优化、训练出实用的模型反而也是真本事。基于开源,有机会做出很好的大模型,核心是能够拥有相对领先的认知,有持续迭代模型的能力。
模型能力的提升是一方面,落到客户场景,又是另一回事。
从客户的角度来看,大模型,「大」并不是唯一的追求,甚至完全不一定是客户想要的。
有创业者就分享了特别现实的客户场景:真正去跟 B 端客户谈,客户只需要语言理解、多轮对话和一定的推理能力,其他的 AGI(通用人工智能)能力一概不要。
客户向他反映说,其他功能反倒带来了麻烦,「幻象」(Hallucination)问题解决不了,而且客户原本有很多 AI 1.0 的模型,本来用得好好的,为什么要扔掉不用,AI2.0 并不需要覆盖 1.0 的能力,能合理调用就挺好。这也解释为何在国内外 RPA 领域是引入大模型最积极的。来也科技联合创始人&CEO 汪冠春今年在国内市场也验证了客户有这方面的明确需求。
这种情况下,只要把自然语言理解清楚了,把参数传过来调用 AI 1.0 的模型以及外部数据库,结果是可靠的,成本也比较低,最后再用大模型把结果组装起来,形成一个报告。模型在这里起到了任务分发的作用:分成子任务、每个子任务调用什么。在子任务里,有些大模型支撑的,有些是原来的统计模型,有些甚至都不是自己的,而是某个第三方的模型,客户最后要的,只要能完成任务就行。
尝试找到这样的 PMF(Product Market Fit,产品市场匹配)后,如果只做这种 To B,其模型能力包含语言理解、多轮对话和少量的推理,这个模型并不需要很大,100 亿到 1000 亿的模型,就相对够了。相应地,需要在几百张卡的基础上,把语言理解、多轮对话做好,并且有一定的推理能力,再加上 AI Agents,基本上能完成客户在很多场景下的需求了。
一个通用的大模型,并不意味着可以解决所有问题。B 端客户的很多场景,通用大模型放上去并不奏效。这意味着模型需要越来越多,有越来越可收敛的场景,也意味着需要更多力量参与进来帮助技术和场景的对齐,而不是一个万能的技术去适配所有场景。
澜舟科技 CEO 周明认为,必须要把用户数据、行业数据,甚至图谱或者规则,放到模型里继续训练,这是行业大模型存在的必要性。在通用大模型不能覆盖到的局部行业,加入这样的数据,能把行业问题解决得很好,而且还能克服很多幻象问题。
我记得李志飞也补充了这一视角,他认为,通用大模型与垂直大模型,各尽其用,鱼与熊掌不可兼得。模型特别大,就意味着推理成本非常高。而且,一个做芯片设计的大模型,去回答电影、明星等娱乐内容,也没有意义。他认为,To B 更多是要垂直和可靠,而通用在于智商,有很强的推理能力、逻辑能力,很丰富的知识。这不一定是 To B 目前阶段需要的。
与此同时,国内各行各业对于在业务中加入大模型的需求,是非常强烈的。蓝湖创始人&CEO 任洋辉,和 Moka 联合创始人&CEO 李国兴,这两家 SaaS 公司产品接入大模型后,已经得到了客户的认可,真正收到了钱。
通过对这两位创业者从 2、3 月份到 7、8 月份的状态变化的观察,我发现SaaS 领域中越早看到大模型带来的技术变化是「重新定义软件」级别的,敢于拿出「向死而生」的思维来实践这个「重新定义」的进程,基本上几个月就会破除焦虑,并且让人看到希望。
所以,手里拿着客户和场景的创业者,搞不好会是那些大模型创业者的更早获得技术红利的受益者。