同样如此的是,通往GPT大模型的路径是通的,而到达对岸的方法并不只有一条。
文|赵艳秋 徐鑫
云知声董事长梁家恩最近开始推动新一轮技术升级,并频繁接待客户和投资人。ChatGPT走红之后,外界惊叹ChatGPT的表现,但对于人工智能业界而言,这意味着技术范式的转变,更意味着通向AGI的大门可能正在开启。
入行25年的AI老兵和资深团队创立公司11年后发现,自己正置身当下最火热的跑道上,而这群AI老兵要投身新一轮变革浪潮的热情依然澎湃。
梁家恩给这场大模型的角力划定了时间表,“今年之内肯定要有一个行业内认可的千亿级大模型成果出来”。
从2012年开始做深度学习,到后来搭建AI全栈能力,再到大模型角力,这已是云知声的第三次重大技术体系升级。而过去十一年对人工智能的理解和布局,在此刻都变成了现成的武器和财富。如果把这波热潮里的参与者视作一个集合,梁家恩认为,他们有底气成为走到下一轮的“分子”之一。而业界认为,这样的团队目前两只手能数得过来。
01
“这是令人兴奋的技术”
“这是让我入行25年来感到最exciting的技术突破。”梁家恩告诉数智前线,ChatGPT推出之后,人工智能的范式正在转变。实际上,此前10年,深度学习带来了一波人工智能的增长,但并未改变AI的范式。
云知声创立的2012年,赶上了深度学习的崭露头角,在那一年9月的ImageNet视觉识别挑战赛上,AlexNet异军突起,碾压了所有对手。它的创造者之一Hinton教授, 2006年在Science发起“深度学习”革命后,在重大技术评测上首次获得突破性进展,展示了深度学习的威力。云知声团队虽然在那一年6月刚成立,也迅速入局深度学习,成为国内最早将该技术应用到产业服务的团队之一。
深度学习虽然比传统的统计学习展现出了更大威力,但并未跳出旧的AI范式——预先定义任务目标,采集该任务的大量数据并进行人工标注,通过模型训练达到最优效果,切换不同任务目标时,往往需要重新采集数据和训练,无法实现不同任务间的高效迁移——被称为“窄AI”或“弱AI”,本质上是某种“高级自动化”。一个例子是,针对银行开发的模型,不能用于保险公司的类似任务,甚至同一家银行的业务流程变了,模型也要重新训练。这导致很多踌躇满志的人工智能企业变成了项目型公司,制约了人工智能的潜力。
业界称之为AI1.0时代。智源研究院总工林咏华称,由于这样的局限性,过去几年人工智能又开始走向一个低谷。
2017年,谷歌提出了Transformer模型。“我们当时判断这个模型具备一统江山的能力,因为对序列建模问题而言,从数据驱动的数学优化意义上它太完美了。”梁家恩回忆。谷歌、OpenAI等开始尝试它的各种实现(包括GPT、BERT、T5等),通过大规模无监督预训练基础模型,实现多种任务的快速迁移,都取得了相当优异的成果,将语言理解问题真正纳入深度学习框架之中。
真正推动AI进入2.0时代的,还是2022年11月,ChatGPT的推出。它作为一个人工智能语言大模型,拥有自然语言理解、上下文学习、常识推理和高质量应答等特点,效果惊艳四座。
“ChatGPT将人工智能研究的核心带回到语言本身,而语言其实是人类智能的一个核心载体。”梁家恩分析说,“语言理解也被誉为人工智能皇冠上的明珠,语言跟知识和智能本身是紧密结合的。”ChatGPT开放公测后,清华大学刘嘉教授感叹,ChatGPT不仅有功能性,同时还是人格化,它终于让人们看到了“通用人工智能的一线曙光”。
“这是一个非常大的突破,我们认为这是一个从专用AI转向通用AI(AGI)的突破口。”梁家恩称。这也直接带动了云知声的第三次技术升级。这将是一次大的跳变。“一些人认为ChatGPT只是一个聊天的人工智能,但对于我们团队而言,把它放在了向通用AI演进这样的级别来看待的,虽然通用AI还有很长的路要走。”
梁家恩称,云知声要在人工智能决赛圈有所作为,就必须跑通从专用AI向通用AI的通路。而此前,他们对技术的紧密跟踪、储备和守住的盘面,让其有信心抓住这一波浪潮。
在2012年入局深度学习之后,云知声曾在2016年开展了第二次技术升级。那一年阿尔法狗击败人类围棋冠军李世石时,云知声早将深度学习在物联市场应用起来了。“我们的关注点是深度学习要有一个强大的算力支撑。实际上,我们关注到阿尔法狗的研发团队Deepmind,正是借助谷歌超强的并发计算能力,同时调度上千个GPU来完成的,这代表了未来深度增强学习的大规模计算趋势。”
于是,在阿尔法狗击败李世石的当月,梁家恩就赶到了硅谷,与硅谷专家探讨如何面向深度学习构建大规模超算平台。最终,他们花了将近一年时间,将Atlas大规模机器学习超算平台构建了起来,并逐步布局知识图谱和多模态等全栈AI技术,从一家语音识别公司向更深层延伸,开始从“声(感知)”到“知(认知)”的技术体系升级。
现在,云知声将面临第三次跳变。
02
先质后量,打通大模型新范式
在ChatGPT推出后,云知声已开始训练模型,但数智前线获悉,在云知声看来,本轮技术升级并非只是简单的 “大力出奇迹”,而是开启了新的“数据动力学范式”,需要从数据规模、质量和模型调教下手,才能真正解决问题,“大力”只是“必要不充分条件”。按照公司的规划,技术升级将分两步推进:先在六七百亿参数提升优质数据规模,再扩大到千亿级参数提升大模型效果。
为什么要分两步走?这与技术实现和商业落地相关。
按照业内的实践,在优质数据规模足够大情况下,模型越大效果越好,但训练成本也越高。从六七百亿参数起步,是因为从业内成果分析看,只有参数规模达到五六百亿以上,模型才可能出现“智能涌现”。这是一种神奇的现象,如同一个小孩子,到了某个年龄突然“开窍”了,发生了从量变到质变的“跳跃”。“我们判断六七百亿参数的模型,是比较有把握出现涌现效果的,先以这个参数规模,提升优质数据规模和大模型效果,再做千亿以上参数来提高大模型性能。Deepmind和Meta等最近都放出这种规模的模型,效果都还不错。”梁家恩称。
但今年不只是要做好大模型,还要考虑产业实际应用的成本和部署等因素。云知声认为,大模型训练成功后,以目前的算力成本,可能需要把大模型参数量通过蒸馏技术压缩10倍才能满足实时性和规模化应用要求,这要视具体应用场景而定。云知声在做BERT模型时,就积累了丰富的经验,通过模型蒸馏提速近百倍,而实际性能损失很小。“就像打击索马里海盗,不能每次都开着航母过去。”梁家恩称,“我认为OpenAI最终可能也会走这个路径,只不过它现在不那么着急,它现阶段要先砸资源摸到大模型的潜力和边界,不需要太关注成本。”
GPT是一个端到端打通的框架,同时结合了很多学习能力,比如小样本学习,让它有更强的适应能力。同时,OpenAI的CEO Sam Altman透露,他们使用的数据远比外界想象的要多得多,大量工作也围绕在数据方面,为此还引入了新的数学模型。
“我们首先把它的端到端打通,再针对性地去解决问题,有些可能是从算法角度去优化,有些可能要通过数据层面去优化,包括并入医疗数据后,哪些跟现有的知识不能很好的融合,都要针对性做研究。”
云知声以前基于BERT模型,现在需要切换到以GPT为模式的框架。两者本质上都基于Transformer模型,有不同的优缺点和特性。云知声这次并不需要从底层开始干,而是进行模型架构的切换,“会比从头做的变量要少很多,而且有行业应用场景、客户和数据的积累”。
按照计划,云知声将在今年第二季度开启针对性优化,并与第一批客户衔接,在实战场景中解决问题。
在落地行业上,物联和医疗是两个优先的行业,此前他们在这两个领域投入和积累最多。但两个行业的侧重点并不一样。物联行业本质上是提升交互能力,当大模型技术升级以后,人机对话就不会“聊死了”,不过,这些是通用场景,拓展应用场景“广度”。
在医疗行业,问题的侧重点则是精准度和可控性。这需要结合知识图谱和行业问题进行强化学习。“很多大模型的可解释性、可控性,要通过后端这个手段来解决掉,否则无法有效应用到严肃场景中”。
大模型也将给之前的应用带来改变。云知声2016年进入医疗行业,主要利用人工智能技术,解决病历的语音录入、缺陷检查、医保控费等问题。“如果有了比较好的生成式AI能力,我们可以根据已收集的数据,协助医生生成高质量的病历和诊疗方案。”
在美国休斯顿的MD安德森癌症中心,已有医生向ChatGPT询问病人现在的情况以及治疗方案,得到的结果和中心诊断的结果几乎一模一样。梁家恩称,大模型在医疗行业的终极目标,肯定是成为一个辅助诊疗工具,但还有相当长的路要走,精准度和可靠性是必须解决的问题。
03
从全栈能力到MaaS模式升级
新的浪潮来临时,创业距今已有十一年的云知声站到了一个新的风口。就像一场球赛进行到中场,一个站在球门附近的人,“突然”接到了球。
这是一支深度思考行业趋势,密切关注行业前沿技术发展的团队,同时也在行业里有了多年积累,已形成全栈能力,给新一轮技术升级奠定了扎实的基础,也为打造以大模型为基础的MaaS(Model as a Service,模型即服务)平台做好准备。
在最底层的算力层面,受AlphaGO的启发,2016年开始云知声团队开始建立大规模超算平台Atlas。Atlas在希腊神话里是泰坦族擎天神,用双肩支撑苍天。当时,他们看到能同时调度上千块GPU去完成一个任务的能力,会是一家人工智能公司的重要壁垒。当他们部署超算平台时,硅谷的专家甚至惊讶,一家成立四年的创业公司考虑这个问题还太早。
但今天来看,底层算力平台对于上层支撑的价值已经凸显。
在算力平台之上是数据中心模型优化(DCML)层。云知声在2016年开始进入医疗行业后,发现根据不同应用场景数据,需要对模型进行高效的针对性优化,本质上是如何根据应用数据对模型进行快速调优,GPT模型的强化学习也是在这层完成的。这一层的构建目标就在于此,其作用是能够提高产品的标准化程度,通过模型而非代码来解决应用场景差异,大幅提升人效比。
再之上是模型层。这也是目前正在改变的地方。在此前的AI范式下,无论是人机交互,还是各种行业应用,实际上要先做好各单元模型,再把各种单元模型整合起来实现业务目标,现在则要转变为以GPT为核心的大模型来做。而过去各种部件级模型,像语音降噪、语音识别、语音合成等标准模块仍会持续优化,但也会借鉴大模型的思路,比如加大无监督预训练数据规模,实现多语种联合建模、轻量级定制和个性化等,可以显著降低成本,同时提升效果和效率。
除了这些能力,这些年在智慧物联和智能医疗等行业场景积累的行业know-how和数据,也是云知声在全栈能力中的一个关键。以医疗行业为例,像教材、临床指南、病历知识等一系列行业数据,都需要时间的沉淀才能获得,这也是未来训练行业大模型不可或缺的原料。
而有了数据之后,能否解决行业的真实问题,还需要对行业本质问题的理解和认知。“行业大模型并不是一个万能黑盒子,有了它就能马上打败所有的医生。”梁家恩称。这就像从高校毕业的医学博士,要解决临床问题,需要很多实战经验一样,医疗大模型出来也要跨越这一步。ChatGPT也是在GPT3.5之上,完成SFT和RLHF优化才能真正接近实用,而医疗行业应用,对准确度和可靠性的要求要高很多。
本轮 GPT技术升级,不是简单的算法升级或模型做大,而是AGI新范式的重构:从标准AI零部件根据业务需求组装优化,到以大模型为基础的MaaS模式的转变,即业务逻辑由多语言多模态智能交互(MM-CAI)大模型来对接,实现真正自然语言为主的人机交互模式,通过大模型的情景学习(ICL:In Context Learning)能力来快速对接任务,极大提升业务迁移效率,涉及专业领域问题,则通过调用行业大模型或API来精准可靠解决,做好交互自然度和行业专业度的有效结合。
04
行业问题导向,从专用到通用
在过去十年里,AI浪潮起起伏伏,不少人工智能企业头顶光环,生存却举步维艰,甚至还有玩家悄无声息倒在了这波AI热潮的前夜。技术落地和产品化是他们遭遇的共性问题。
一位资深人士称,不同于机器能轻松超过人类的单点可计算类问题,人工智能企业的产品落地面对的是真实和综合的场景。过去十年里,云知声在工程化和产品落地层面也做了不少尝试,经验可以沉淀为“广度”和“深度”两个层面。
在物联网场景里,关键在于连接的“广度”。任何一个玩家都需要让自己的产品在尽可能多的场景,尽可能多的用户以及尽可能多设备上,以足够低的成本跑起来。
深度学习技术开始介入行业时,行业里普遍认为,要靠GPU才能跑起来,但云知声将它优化到能在CPU甚至手机芯片上跑起来。
2016年时,他们甚至把模型做进了主频只有200MHz、计算内存只有200k的WiFi芯片中。“要把模型压缩100倍,装进芯片端,还要能运转起来。”梁家恩向数智前线说。这个产品在格力等家电企业落地应用,也令大企业中搞深度学习的资深人士感到不可思议。
在产品落地中,他们又发现没有特别好的物联网芯片,于是在2016年组建团队做了面向物联网的智能交互芯片。“等行业里的人意识到要做AI芯片时,我们的芯片在已经点亮了。”梁家恩说。到今天为止,芯片和模组已出货超过2000万片。
而在医疗的场景里,人工智能技术要落地打通,则不能停留在外围应用中,要真正解决行业应用的“深度”问题。“语音输入能够提升效率,但不能提升业务质量”,团队意识到了感知的局限。从感知向认知升级,他们的做法是走向行业深处,建设行业知识图谱,才能进入核心场景,真正有效解决行业关键问题。这也是近年来人工智能业界强调的落地重要路径,去年百度李彦宏就在公司内部提出深入核心场景的要求。
球已经到了脚下,接下来要做的事情变得确定。数智前线获悉,云知声一季度就扩充了30%算力,去做大模型的转轨,年底算力预计将翻几倍,“升级下一代以GPT为核心的架构”。在以大模型实现智慧物联(广度)和智慧医疗(深度)两个行业技术升级后,MaaS模式也将完成验证,再结合各行业应用需求,逐步扩充行业大模型,最终将MaaS平台做到万亿级以上参数,实现从专用走向通用。
之所以选择从专用到通用的发展路径,云知声主要出于三个方面考量:1)无论AI还是AGI,有效、可靠解决实际问题是第一位的,靠创造价值而非概念立足;2)依托物联和医疗行业有多年的深耕积累,而非在通用领域直接对抗巨头,更能发挥自身优势;3)“MM-CAI+行业大模型”的MaaS模式,具有更好的可控性、扩展性和灵活性,随着行业大模型的积累,能构建更可靠的通用智能。
这是一场巨变的开始,但梁家恩喜欢借用盖茨的观点,“我们经常高估了今后一两年内将发生的变革,但又常常低估了今后10年内将要发生的变化”。虽然ChatGPT引发了热潮,但仍面临不小的挑战。保持谨慎的乐观,十年后回望,这或许是人工智能走入更大规模、更多场景,走向AGI的起点。
以下为数智前线与梁家恩的对话节选:
Q:中国企业能否实现类ChatGPT?
A:首先像ChatGPT,其实里面没有任何一个算法是新的,甚至很多都不是OpenAI发明的。过去10年积累的机器学习方法,已经足够它做出这个事,但主要是这些方法要如何有效的组合,以及如何去选择数据来调整模型,OpenAI下了很大的决心,也投入了很多资源,才走通了这个技术范式,这是它对AI行业最重要的贡献。
我经常把这个比喻为“曼哈顿计划”。爱因斯坦在1905年就从理论上证明了E=MC2,“曼哈顿计划”是第一个去探索和实践出来的。但每个国家造原子弹的路径并不相同,像中国的“596工程”就不需要完全去把“曼哈顿计划”follow一遍。这个路径是通的,我们在根本的原理上去研究这个问题,再看怎么做。
Q:现在互联网巨头也在推出大模型,并进入行业,你们与他们如何竞争?
A:在巨头积累深厚的通用行业,我们是很难单靠技术颠覆的,OpenAI也要跟微软的Bing和Office结合,才能在商业上叫板搜索巨头。在我们所聚焦的行业里,我们不惧怕任何巨头的团队。因为这是我们的全部,但对巨头来说,先守住自己主业是当务之急,主业之外的应用创新,本身积累也有限,而且东方不亮西方亮,哪个行业做不起来其实没所谓。
而且医疗绝对是一个坑挺大的行业,巨头的创新团队能不能在被裁掉之前搞定,有很多变数。实际上,我们在医疗行业的很多头部客户,也是跟巨头竞争中获得的。所以,从绝对的资源角度,我们比不上大厂,但在我们真正深耕多年的这些行业,比资源投入、决心和实战经验,我们绝对不怕任何大厂的团队。
Q:互联网巨头有一个提法,大模型领域不要重复造轮子。您怎么看这个观点?行业里为什么大家还会坚持自己来做一遍基础大模型?
A:这是巨头的期待,但造轮子的比喻在这里并不恰当。轮子是一个标准化产品,而在大模型要复杂得多,同样方法在不同行业解决的问题和用到的数据是很不一样的,我们相信“行业大模型”,相比包罗万象的“万能超大模型”是要更精准、高效和经济的。
我们提到的“通用”的概念更多是方法论意义上的。它不再像过去的AI方法论,要预先定义很多确定性目标,然后再分别针对目标优化对应模型。现在的通用模型指的是,方法论上可以支持非特定任务的大规模无监督学习,然后基于大模型可以通过快速学习来完成各类任务的能力。这种能力怎么来的呢?因为我们有一个大规模的预训练基础模型,已经有非常丰富的关于语言、知识的基础信息在里面,是一个很好的基础模型。
有了这个基础,针对行业性问题,找到行业性数据和真正的任务去跟它做一个应用调优和反馈强化,它的可靠性解决会更好。
通用,是说“无监督预训练+行业应用调优+反馈强化学习”技术框架是通用的。专用,是通用大模型框架优先在特定行业应用,训练行业专用的大模型,解决各种专业问题,让它的可用性和可靠性达到实际应用的要求。这两个概念不应该被对立起来。
Q:前几天ChatGPT已经接受插件,对行业的知识可以直接调用了。这对你们现在做的事情是不是一种威胁?
A:这是目前解决ChatGPT可靠性最直接的方法,现在这个行业调用,其实还是传统API能力通过自然语言的整合。我们认为比较理想的手段,可能是前面有一个什么都能聊的多模态对话式模型,它能进行丰富的自然语言交互,涉及专业度很高的问题,转到后面的行业大模型来精准高效解决。
为什么后面的行业问题也需要用大模型来重新刷一遍?就在于现在用的API都是写死的,我定义几个功能,你就只能用这几种能力。未来可能要用大模型把更多专业能力解锁出来,这样更灵活,也更完善。现在ChatGPT出来后,直接调用是一个比较取巧也有效的方案,但这可能不是最终状态。
我们过去很多需求实际上是受限于技术能力被锁死的,像人机交互,最早是专业的工程师用打孔机才能搞定的,后面变成键盘、鼠标,再变成触屏,未来可能就彻底变成自然语言交互了。演进趋势是很明确的,它至少已经很准确的理解你的意图,可能回应还有一些胡说八道的东西,但我觉得用自然语言跟机器做交互,未来会成为一个标配。现在你还要有“提示词”的技巧,未来这个要求也会降低下来。