专访云知声黄伟：多模态是人工智能的必经之路- DoNews

撰文 | 李信马

题图 | 云知声

几天前，云知声发布了一段视频，视频里女声与男声的人机对话听起来十分自然，以至于听到一半，才会分辨出哪个是人类哪个是机器。而机器模仿女声的时候，几乎听不出来差别——这是刚刚发布的山海多模态大模型的实机展示。

对话中，山海可以做到实时流畅回复，几乎没有延迟，甚至可以打断和插话，还有对话中富有感情的语气、节奏、音调变化等，就像在和真人对话。能够流畅对话的大模型，意味着进入了人工智能最前沿的多模态领域，此前，在OpenAI 发布 GPT-4o 时，类似的展示中GPT-4o表现出了堪比人类的水平，一度让人感觉中美大模型之间的差距被拉大，但仅仅3个月后，这一领先优势就被国产大模型追上。

人工智能是当下全球科技领域竞争的焦点，多模态技术上更复杂，应用场景更广泛，是类似赛点一般的存在。正是少数如云知声这样的科技公司存在，才填补了我们在前沿领域的空白，并冲击世界一流水平，也让行业在未来商业化落地的时候，有强大且可靠的大模型支持。

但对科技公司而言，为什么要投入到多模态大模型的竞赛？多模态大模型又是如何炼成的？未来会创造什么样的价值？怀揣着这些疑问，我们采访了云知声的创始人兼CEO黄伟博士。

一、人工智能的必经之路

2012年，云知声在北京正式成立，当时国内人工智能的热潮才刚刚兴起，以“AI四小龙”为代表的创业公司们即将迎来十年的“黄金时代”。

不过，在今天的黄伟看来，那是属于“AI 1.0”的时代；2022年底，随着ChatGPT的横空出世，“AI 2.0”的时代大幕就此拉起。

“以前我们更多把 AI 看作是一种判别式 AI，也就是说，它只能做一些判断题，是对我们已有事物的分类，而生成式 AI 可以无中生有，创造一个完全不同的新世界。”

对于如何实现 AI 2.0 ，云知声也有自己的探索规划。2022年底，云知声开始大模型立项；2023年5月24日，云知声发布了自研的千亿规模的大模型“山海”；在今年的8月23日，云知声进一步推出了山海多模态大模型。

实际上，GPT-4o发布时，山海多模态大模型已经在紧锣密鼓的研发之中，云知声可以说是国内最早一批清楚认识到多模态的价值，并统一思想进行规划和投入的科技公司。

采访中，黄伟认为，从大语言模型到多模态大模型，是人工智能发展必然的路径，大语言模型做到了从 0 到 1 的突破，而突破后一方面通过 Agent、RAG 等技术持续提高大语言模型“智商”，另一方面则以多模态引领从1到2，“二生三，三生万物”。

“我觉得多模态才是人工智能的本源，我们谈人工智能的时候，通常会把机器智能和人的智能进行类比。人的智能不光有大脑，还有眼睛、耳朵、鼻子、嘴巴、触觉等，今天人工智能的数据来源更多是文字，未来只有将声音、图片、视频，还有嗅觉、触觉等更多的感知数据纳入，才会真正变成一种类人的智能。”

他举了个例子，人类想要和机器通过自然语言来交流，如果通过纯粹的大语言模型，那么要分成三个阶段：首先，是将人类的声音识别转化成文字；其次，大语言模型根据输入生成文字内容；第三，将文字内容再转化成音频播放。

这样，一个任务就被分成了三个任务，每个任务都会引入短暂的延迟，最终人机交互的延迟就会很明显，用户体验差。而要有较快的响应速度，那就要通过多模态大模型来实现。目前山海多模态大模型的时延大概在 0.3 秒到 0.4 秒左右，基本上已经和正常人的交流速度相差无几了，而且声音还会带上对应的感情，而非冰冷的播音腔。

黄伟预测，未来的大模型会是“世界模型”，大模型可以通过感知设备和技术来感知物理世界，理解物理世界的运行规律，从而解决现实中的复杂问题。

自2018年，云知声连续六年上榜了 CB Insights 全球人工智能独角兽榜单，在人工智能领域是少有能达成这一成就的创业公司。尤其在大模型兴起后，不少曾经的明星创业公司也开始“星光黯淡”，而云知声却与时俱进，在大模型领域的势头凶猛。

黄伟介绍，山海大模型的目标是通用能力达到世界一流，在医疗等关键领域达到世界第一。目前，山海大模型在多个国际权威评测中都位列前茅，在刚刚最新发布的SuperCLUE 国内外通用大模型基准榜单中，山海大模型位列第一梯队；在医疗领域，也曾登顶MedBench、MedQA、C-Eval等多个评测榜单。

但知易行难，云知声的技术转型，又是如何顺利实现的呢？

二、旧的传承，新的征程

黄伟认为，从技术本源上来讲，大语言模型以及多模态大模型都不是从零开始的，而是对原有技术的升级。“之前是BERT，再之前是Transformer，技术上是一脉相承的，只是今天我们的规模更大，数据量也更大，量变引发了质变，模型产生了涌现能力，我们过去积累的优势，依旧会在产品得到体现。”

在技术研发的路径上，云知声选择“分步走”，简单来说，就是分阶段做多模态大模型，先做文本和语音的融合，再做图像视频的融合。这样的好处是相对比较稳健，毕竟多模态大模型全球都还处于探索之中，没有确定成功的经验，另一方面，是能够发挥出云知声在智能语音领域的优势。

作为国内对话式 AI 独角兽，云知声在智能语音领域有着丰富的积累，曾在interspeech、VoxSRC 2023、BC国际语音合成大赛等多项国内外顶尖的语音交互评测/比赛中获得过冠军或收录论文，也有着丰富的工程化和产品化经验。

山海多模态大模型，是在山海大模型的基础上演进的。据黄伟介绍，在算法和数据方面，首先，云知声团队用不同的编码器，将海量的不同模态的数据（文本、音频、图片等）进行了编码，然后通过适配器和原有的山海大模型进行融合预训练。

“这里面的难点，第一个是数据配比，文字的数据密度很高，但音频和图片的数据密度并不高，比如5TB的数据，里面不同类型数据的比例不同，那数据要怎样合理分配效果才最好？第二个是我们要通过多任务的指令微调和对齐，让模型来理解各种指令，但你怎么快速地构造这个指令训练器？靠人工的话，无法满足数量和速度的需求。此外，数据平台要怎么搭建？所以说真正想把多模态大模型做好，这里面有很多的挑战。”

还有一些难点，来自于算力和存储。多模态大模型预训练对算力的要求极高，而音频、图片数据由于更加稀疏，对存储的要求也更高，因此，团队要有非常成熟的搭建计算平台和分布式训练的经验。

比如云知声，目前仅语音训练数据就有几十万小时，“我们构建了非常完善的分布式数据的核心流程，几十万小时数据，你不能光靠录音来获得，我们通过算法合成的方式，差不多可以做到每天合成几万小时的数据。”

解决这些难点，对研发团队的工程化能力也提出了极高的要求，需要丰富的经验和技巧。回顾过去的两年，云知声的研发团队经历了无数困难，黄伟感慨道：“我觉得克服困难的过程，是比困难更大的困难，团队不止需要足够的能力，还需要强大的韧性。今天来看，可以云淡风轻的总结经验，但当时却是不断的出现问题和煎熬，好在我们都解决了。”

三、商业化：新酒、新瓶

做大模型最重要的是什么？

作为跨越 AI 1.0 时代的行业老兵，黄伟认为，是将大模型变成真正在场景中为客户创造价值的产品和服务。

“拿着锤子找钉子”，是长期以来对人工智能行业商业化的描述，早些年，不少创业公司讲一个好故事，就能拿来融资，提高估值，但技术迟迟不能转化为收入，故事就像泡沫一样被吹爆了，公司也迅速从“黄金时代”进入“黑暗时代”。

初创阶段、膨胀阶段和黑暗阶段，云知声都经历过，因此面对市场更加清醒，在黄伟看来，大模型带来了机遇，但大模型本身并不是商品，而是巨大的成本支出。

“在 AI 1.0 时代，我们无论是做语音识别还是图像识别，可能几台服务器就够用了。但今天做生成式AI，我们需要几百台服务器，未来还需要更多，光这些服务器本身就是不小的成本，还有人力、电力和数据等。你做一个模型，能不能带来商业转化是一个重大的挑战，对中国的创业者来说尤其如此，因为在中国的商业环境里，哪怕你花了一个亿去做研发，客户可能都不愿意付给你一百万。”

成本的陡增，也让商业化更加迫在眉睫，不少大模型厂商选择按tokens计费“卖模型”的模式，不过黄伟认为，这并不是唯一的方向。云知声规划的大模型商业化路径，可以描述为“先用旧瓶装新酒，再用新酒注新瓶”。

“旧瓶”是指云知声已经成熟落地的商业化场景，比如在医疗领域，云知声推出过语音病历录入系统，提高了医生的工作效率。而“新酒”则是指大模型技术，可以让产品的能力进一步升级。黄伟举了个例子，在问诊环节，医生和患者对病情不断进行问答：

医生：您好，没来看过是吧，您有什么不舒服啊?

患者：之前体检，说我甲状腺功能不正常。

医生：什么时候查的？

患者：有半年啦

医生: 您有心慌、怕热、出汗多的症状吗?

患者：没有

医生：拉肚子呢?

患者：也没有

医生：除了体检化验，其他异常的感觉都没有？那你报告带了吗？

患者：是这样，当时我去我们社区医院看过，大夫说我是甲亢，给我开了赛治

医生：赛治吃的多大量?

患者：一顿两片，一天就吃一次

医生：现在一直吃着呢是吗?

患者：没有，我吃了一段时间，也没感觉有什么不一样，朋友跟我说不一定是甲亢，药盒上还写了一大堆可能出现的副作用，我就停啦。

双方对话的同时，大模型也在不断输入对话的内容，当对话结束时，就会给出了一份诊断建议和治疗方案。中国医疗资源相对缺乏，分布也不均衡，这样的人工智能，在中西部地区和社区康养的场景下，就相当于给医生提供了助手，也给患者安排了私人医生。

还有在手术室，医生手术负担重也是医院的常态，以往手术结束后，医生还要写手术记录，既增加了疲惫感，也可能会忘记中间的具体细节。而云知声的产品，可以现场记录医生和护士之间的对话，然后基于对话识别手术的关键信息，当手术结束后，自动生成一份记录。

“我们并不是手里拿着锤子找钉子，我们是把锤子升级，快速满足现有客户的需求。”多年前，云知声尝试让医生使用麦克风来沟通，很多医生用不惯，但当他们发现产品的确好用后，慢慢用的人就越来越多了，技术和产品就是这样不断迭代和推广。

而当产品打磨成熟后，云知声又可以开拓新的行业，新酒注入“新瓶”中。黄伟介绍，除了医疗行业，山海大模型在互联网、汽车、交通等行业也在逐渐落地。

正确的道路不止一条，市场的需求也各式各样，商业模式存在即有其合理性，重要的是，企业要选择适合自己的商业模式。人工智能赛道是一场漫长而残酷的淘汰赛，无论是“四小龙”还是“五小虎”，都是时代的符号，但能活到最后的，才算是跑完了全程。

对于行业未来的发展，黄伟给出了“任重道远”四个字，“无论是大语言模型，还是多模态大模型，我们都看到了非常清晰的远景，但是挑战也非常大，对所有从业者来说，想要做更好的技术、更好的产品，打造更健康的商业模式，就要放弃浮躁的心态，去追求产品落地。只有这样，中国人工智能行业才能健康发展，而不是充满泡沫——如果泡沫破裂的话，对中国人工智能行业将是巨大的伤害。”