撰文 | 李信马
题图 | 云知声
几天前,云知声发布了一段视频,视频里女声与男声的人机对话听起来十分自然,以至于听到一半,才会分辨出哪个是人类哪个是机器。而机器模仿女声的时候,几乎听不出来差别——这是刚刚发布的山海多模态大模型的实机展示。
对话中,山海可以做到实时流畅回复,几乎没有延迟,甚至可以打断和插话,还有对话中富有感情的语气、节奏、音调变化等,就像在和真人对话。能够流畅对话的大模型,意味着进入了人工智能最前沿的多模态领域,此前,在OpenAI 发布 GPT-4o 时,类似的展示中GPT-4o表现出了堪比人类的水平,一度让人感觉中美大模型之间的差距被拉大,但仅仅3个月后,这一领先优势就被国产大模型追上。
人工智能是当下全球科技领域竞争的焦点,多模态技术上更复杂,应用场景更广泛,是类似赛点一般的存在。正是少数如云知声这样的科技公司存在,才填补了我们在前沿领域的空白,并冲击世界一流水平,也让行业在未来商业化落地的时候,有强大且可靠的大模型支持。
但对科技公司而言,为什么要投入到多模态大模型的竞赛?多模态大模型又是如何炼成的?未来会创造什么样的价值?怀揣着这些疑问,我们采访了云知声的创始人兼CEO黄伟博士。
一、人工智能的必经之路
2012年,云知声在北京正式成立,当时国内人工智能的热潮才刚刚兴起,以“AI四小龙”为代表的创业公司们即将迎来十年的“黄金时代”。
不过,在今天的黄伟看来,那是属于“AI 1.0”的时代;2022年底,随着ChatGPT的横空出世,“AI 2.0”的时代大幕就此拉起。
“以前我们更多把 AI 看作是一种判别式 AI,也就是说,它只能做一些判断题,是对我们已有事物的分类,而生成式 AI 可以无中生有,创造一个完全不同的新世界。”
对于如何实现 AI 2.0 ,云知声也有自己的探索规划。2022年底,云知声开始大模型立项;2023年5月24日,云知声发布了自研的千亿规模的大模型“山海”;在今年的8月23日,云知声进一步推出了山海多模态大模型。
实际上,GPT-4o发布时,山海多模态大模型已经在紧锣密鼓的研发之中,云知声可以说是国内最早一批清楚认识到多模态的价值,并统一思想进行规划和投入的科技公司。
采访中,黄伟认为,从大语言模型到多模态大模型,是人工智能发展必然的路径,大语言模型做到了从 0 到 1 的突破,而突破后一方面通过 Agent、RAG 等技术持续提高大语言模型“智商”,另一方面则以多模态引领从1到2,“二生三,三生万物”。
“我觉得多模态才是人工智能的本源,我们谈人工智能的时候,通常会把机器智能和人的智能进行类比。人的智能不光有大脑,还有眼睛、耳朵、鼻子、嘴巴、触觉等,今天人工智能的数据来源更多是文字,未来只有将声音、图片、视频,还有嗅觉、触觉等更多的感知数据纳入,才会真正变成一种类人的智能。”
他举了个例子,人类想要和机器通过自然语言来交流,如果通过纯粹的大语言模型,那么要分成三个阶段:首先,是将人类的声音识别转化成文字;其次,大语言模型根据输入生成文字内容;第三,将文字内容再转化成音频播放。
这样,一个任务就被分成了三个任务,每个任务都会引入短暂的延迟,最终人机交互的延迟就会很明显,用户体验差。而要有较快的响应速度,那就要通过多模态大模型来实现。目前山海多模态大模型的时延大概在 0.3 秒到 0.4 秒左右,基本上已经和正常人的交流速度相差无几了,而且声音还会带上对应的感情,而非冰冷的播音腔。
黄伟预测,未来的大模型会是“世界模型”,大模型可以通过感知设备和技术来感知物理世界,理解物理世界的运行规律,从而解决现实中的复杂问题。
自2018年,云知声连续六年上榜了 CB Insights 全球人工智能独角兽榜单,在人工智能领域是少有能达成这一成就的创业公司。尤其在大模型兴起后,不少曾经的明星创业公司也开始“星光黯淡”,而云知声却与时俱进,在大模型领域的势头凶猛。
黄伟介绍,山海大模型的目标是通用能力达到世界一流,在医疗等关键领域达到世界第一。目前,山海大模型在多个国际权威评测中都位列前茅,在刚刚最新发布的SuperCLUE 国内外通用大模型基准榜单中,山海大模型位列第一梯队;在医疗领域,也曾登顶MedBench、MedQA、C-Eval等多个评测榜单。
但知易行难,云知声的技术转型,又是如何顺利实现的呢?
二、旧的传承,新的征程
黄伟认为,从技术本源上来讲,大语言模型以及多模态大模型都不是从零开始的,而是对原有技术的升级。“之前是BERT,再之前是Transformer,技术上是一脉相承的,只是今天我们的规模更大,数据量也更大,量变引发了质变,模型产生了涌现能力,我们过去积累的优势,依旧会在产品得到体现。”
在技术研发的路径上,云知声选择“分步走”,简单来说,就是分阶段做多模态大模型,先做文本和语音的融合,再做图像视频的融合。这样的好处是相对比较稳健,毕竟多模态大模型全球都还处于探索之中,没有确定成功的经验,另一方面,是能够发挥出云知声在智能语音领域的优势。
作为国内对话式 AI 独角兽,云知声在智能语音领域有着丰富的积累,曾在interspeech、VoxSRC 2023、BC国际语音合成大赛等多项国内外顶尖的语音交互评测/比赛中获得过冠军或收录论文,也有着丰富的工程化和产品化经验。
山海多模态大模型,是在山海大模型的基础上演进的。据黄伟介绍,在算法和数据方面,首先,云知声团队用不同的编码器,将海量的不同模态的数据(文本、音频、图片等)进行了编码,然后通过适配器和原有的山海大模型进行融合预训练。
“这里面的难点,第一个是数据配比,文字的数据密度很高,但音频和图片的数据密度并不高,比如5TB的数据,里面不同类型数据的比例不同,那数据要怎样合理分配效果才最好?第二个是我们要通过多任务的指令微调和对齐,让模型来理解各种指令,但你怎么快速地构造这个指令训练器?靠人工的话,无法满足数量和速度的需求。此外,数据平台要怎么搭建?所以说真正想把多模态大模型做好,这里面有很多的挑战。”
还有一些难点,来自于算力和存储。多模态大模型预训练对算力的要求极高,而音频、图片数据由于更加稀疏,对存储的要求也更高,因此,团队要有非常成熟的搭建计算平台和分布式训练的经验。
比如云知声,目前仅语音训练数据就有几十万小时,“我们构建了非常完善的分布式数据的核心流程,几十万小时数据,你不能光靠录音来获得,我们通过算法合成的方式,差不多可以做到每天合成几万小时的数据。”
解决这些难点,对研发团队的工程化能力也提出了极高的要求,需要丰富的经验和技巧。回顾过去的两年,云知声的研发团队经历了无数困难,黄伟感慨道:“我觉得克服困难的过程,是比困难更大的困难,团队不止需要足够的能力,还需要强大的韧性。今天来看,可以云淡风轻的总结经验,但当时却是不断的出现问题和煎熬,好在我们都解决了。”
三、商业化:新酒、新瓶
做大模型最重要的是什么?
作为跨越 AI 1.0 时代的行业老兵,黄伟认为,是将大模型变成真正在场景中为客户创造价值的产品和服务。
“拿着锤子找钉子”,是长期以来对人工智能行业商业化的描述,早些年,不少创业公司讲一个好故事,就能拿来融资,提高估值,但技术迟迟不能转化为收入,故事就像泡沫一样被吹爆了,公司也迅速从“黄金时代”进入“黑暗时代”。
初创阶段、膨胀阶段和黑暗阶段,云知声都经历过,因此面对市场更加清醒,在黄伟看来,大模型带来了机遇,但大模型本身并不是商品,而是巨大的成本支出。
“在 AI 1.0 时代,我们无论是做语音识别还是图像识别,可能几台服务器就够用了。但今天做生成式AI,我们需要几百台服务器,未来还需要更多,光这些服务器本身就是不小的成本,还有人力、电力和数据等。你做一个模型,能不能带来商业转化是一个重大的挑战,对中国的创业者来说尤其如此,因为在中国的商业环境里,哪怕你花了一个亿去做研发,客户可能都不愿意付给你一百万。”
成本的陡增,也让商业化更加迫在眉睫,不少大模型厂商选择按tokens计费“卖模型”的模式,不过黄伟认为,这并不是唯一的方向。云知声规划的大模型商业化路径,可以描述为“先用旧瓶装新酒,再用新酒注新瓶”。
“旧瓶”是指云知声已经成熟落地的商业化场景,比如在医疗领域,云知声推出过语音病历录入系统,提高了医生的工作效率。而“新酒”则是指大模型技术,可以让产品的能力进一步升级。黄伟举了个例子,在问诊环节,医生和患者对病情不断进行问答:
医生:您好,没来看过是吧,您有什么不舒服啊?
患者:之前体检,说我甲状腺功能不正常。
医生:什么时候查的?
患者:有半年啦
医生: 您有心慌、怕热、出汗多的症状吗?
患者:没有
医生:拉肚子呢?
患者:也没有
医生:除了体检化验,其他异常的感觉都没有?那你报告带了吗?
患者:是这样,当时我去我们社区医院看过,大夫说我是甲亢,给我开了赛治
医生:赛治吃的多大量?
患者:一顿两片,一天就吃一次
医生:现在一直吃着呢是吗?
患者:没有,我吃了一段时间,也没感觉有什么不一样,朋友跟我说不一定是甲亢,药盒上还写了一大堆可能出现的副作用,我就停啦。
双方对话的同时,大模型也在不断输入对话的内容,当对话结束时,就会给出了一份诊断建议和治疗方案。中国医疗资源相对缺乏,分布也不均衡,这样的人工智能,在中西部地区和社区康养的场景下,就相当于给医生提供了助手,也给患者安排了私人医生。
还有在手术室,医生手术负担重也是医院的常态,以往手术结束后,医生还要写手术记录,既增加了疲惫感,也可能会忘记中间的具体细节。而云知声的产品,可以现场记录医生和护士之间的对话,然后基于对话识别手术的关键信息,当手术结束后,自动生成一份记录。
“我们并不是手里拿着锤子找钉子,我们是把锤子升级,快速满足现有客户的需求。”多年前,云知声尝试让医生使用麦克风来沟通,很多医生用不惯,但当他们发现产品的确好用后,慢慢用的人就越来越多了,技术和产品就是这样不断迭代和推广。
而当产品打磨成熟后,云知声又可以开拓新的行业,新酒注入“新瓶”中。黄伟介绍,除了医疗行业,山海大模型在互联网、汽车、交通等行业也在逐渐落地。
正确的道路不止一条,市场的需求也各式各样,商业模式存在即有其合理性,重要的是,企业要选择适合自己的商业模式。人工智能赛道是一场漫长而残酷的淘汰赛,无论是“四小龙”还是“五小虎”,都是时代的符号,但能活到最后的,才算是跑完了全程。
对于行业未来的发展,黄伟给出了“任重道远”四个字,“无论是大语言模型,还是多模态大模型,我们都看到了非常清晰的远景,但是挑战也非常大,对所有从业者来说,想要做更好的技术、更好的产品,打造更健康的商业模式,就要放弃浮躁的心态,去追求产品落地。只有这样,中国人工智能行业才能健康发展,而不是充满泡沫——如果泡沫破裂的话,对中国人工智能行业将是巨大的伤害。”