百度文心一言，缘何成就中国语言大模型浪潮之巅？- DoNews专栏

2月22日晚，百度发布了其2022年年度业绩报告，

财报显示，2022年，百度实现营收1236.75亿元，归属百度的净利润206.8亿元，同比增长10%。第四季度，百度实现营收330.77亿元，归属百度的净利润53.71亿元，同比增长32%。

2022年的业绩固然重要，但在财报之外，更能影响百度未来发展的，其实是百度文心一言的推进状况。

“文心一言”是百度在3月份即将推出的新一代语言大模型，它也是继文心一格之后百度的又一个生成式AI产品。

作为国内第一个即将面向大众群体的大语言模型，文心一言被人们寄予了厚望，并出现了其将成为中国AI新旧时代划分里程碑的言论。

那么，百度为何可以在ChatGPT大火之后不到半年时间内成功推出文心一言？又因何被资本市场看作国内最有强劲竞争力的AI选手？

其实，这一切都离不开百度多年在自然语言处理、基础能力培养上的深耕与积累，也离不开百度这几十年来在AI行业付出的艰辛努力。

NLP领域

百度当为中国第一

自然语言处理学科，实际上是人工智能和语言学的交叉，而为了便于理解，我们可以将这个术语分为两部分：

1.自然语言是一种有机且自然发展而来的书面和口头交流形式。

2.处理则意味着使用计算机分析和理解输入数据。

在理解了两部分的各自含义后，再将两者联系起来，便能理解自然语言处理的定义：自然语言处理是人类语言的机器处理，旨在教授机器如何处理和理解人类的语言，从而在人与机器之间建立一个简单的沟通渠道。

而在特定语言环境下进行沟通的能力，是生物智慧性的表现。换言之，如果“会说话”是将人类智能与动物智能区分开来的最重要的指标之一的话，那么，完整意义上的AI显然也应当具备这种特征。

所以对于AI研究来说，让计算机能够“说人话”，NLP就具有如下的重要意义: 帮助我们从“人造认知架构”的角度理解语言能力在一个智能体系中所占据的地位，并由此夯实AI研究与广义上的认知科学之间的联系。

同时，在NLP领域技术的储备，也在一定意义上决定了一家企业在人工智能领域能走出的距离。

而在国内，没有任何一家公司在自然语言处理领域的技术水平接近百度。

早在百度诞生之时、从百度处理用户的第一次搜索开始，NLP技术就成为搜索技术的重要组成部分，并伴随着百度的快速发展，同步甚至更快地发展壮大。

2010年初，百度对NLP的工作进行了重新梳理与规划，百度自然语言处理部正式成立，并不断在语音、图片等技术上布局，敲定了在知识图谱技术上长期投入的战略。

2019年3月，百度提出知识增强的语义理解框架ERNIE，在深度学习的基础上融入知识，同时具备持续学习能力，曾一举登顶全球权威数据集GLUE榜单，首次突破90分大关，刷新榜单历史。

业界开始进入开放域对话大模型的研究，这是一根硬骨头。2021年9月，百度发布了PLATO-XL，这是全球首个百亿参数的对话大模型，一举超过 Facebook Blender、谷歌 Meena和微软 DialoGPT，成为全球首个百亿参数中英文对话预训练生成模型，再次刷新了开放域对话效果，打开了对话模型的想象空间。

在如此强大的NLP领域技术实力的支持下，百度能率先推出面向大众群体的大语言模型，也是理所当然的事情。

四层技术架构

体现百度完备技术能力

开发中国的语言大模型，百度并不是从零开始。

实际上，当人类进入人工智能时代后，IT技术的技术栈就发生了根本性的变化。过去基本分为三层：芯片层，操作系统层和应用层。现在可以分为四层：芯片层、框架层、模型层和应用层。

而具体来说，百度在芯片、框架、模型、应用四层技术栈均有布局，又得益于这四层技术栈，生成式AI的相关技术，百度在中国乃至全球范围均具有综合优势。

在芯片层，百度自研AI芯片“昆仑”已在多场景实际部署几万片，在公司搜索业务中也已形成较强工程化实践。丰富的推理芯片类型，让芯片层可以与框架层软硬一体，达到联合优化的目的，为深度学习训练与AI技术的拓展提供了强大的算力支持。

在框架层，飞桨深度学习平台下接芯片上承应用，提供了从便捷开发、高效训练到满足多端多平台推理部署的全栈能力，大幅提升了AI深度学习模型的研发效率。

在模型层，百度的文心大模型和Open AI的GPT模型类似，并在2019年就已经推出，迄今已经迭代了多次，从单一的自然语言理解延申到多模态，包括视觉、文档、文图、语音等多模态多功能，因此“文心一言”所基于的ERNIE系列模型也已经具备较强泛化能力和性能，足够为用户提供相应的服务。

在应用层面，百度深度学习技术与场景融合创新，应用场景日渐丰富，人工智能技术与实体经济也加速融合。此外，还催生了一批新业态新模式，有望深刻改变人类生产生活方式和思维模式，实现社会生产力的整体跃升。

也正是百度敏锐的嗅觉与超前的布局，让百度在AI行业发展的各个领域都有在进行着有条不紊的推进，让其AI技术实力在中国乃至全球范围内都有综合优势。

文心一言

不止是ChatGPT

实际上，ChatGPT并不是革命性的技术。

ChatGPT是OpenAI对其2020年发布的GPT-3.5模型微调后开发出的对话机器人，严格来说，ChatGPT并未实现底层模型的显著突破，它巧妙地采用了理解、生成和交互相结合的方式，基于人类反馈进行强化训练，在体验上带给人智能的感觉。

我们应当更加关注的是，如何利用这项技术，做出人人需要的产品，并让整个社会因此受益。

百度创始人李彦宏如是说：“ChatGPT是AI技术发展到一定阶段后的新机会。怎么把这么酷的技术，变成人人需要的产品，让每天有几亿人从中受益？怎么赋能千行百业，让他们的生产效率大幅度地提升？这一步才是最难的，也是最伟大、最能够产生影响力的。”

而文心大模型则在与用户对话之外，走出了比ChatGPT更远的路。

在搜索领域，“知一”、“千流”两个检索模型共同为用户服务，大大提升寻找信息时的准确性与时效性。

“知一”作为百度推出的跨模态大模型，具有业界领先的超大语义理解能力与全网视频文本理解能力，可以在文本、图片、视频和结构化信息中持续进行海量知识资源的学习收集，打破资源形态界限，将最满足用户的搜索结果呈现出来。

新检索系统“千流”，则依托于大模型对的内容深度理解，将不同维度的信息进行智能有序的组织，将传统索引升级为多领域多维度表达的立体栅格化索引，实现千亿分领域内容深度触达，快速地找到所需内容。

而在文心一言推出后，也会在第一时间接入百度搜索，彼时，以文心一言为代表的生成式AI将会与目前以“知一”、“千流”为代表的搜索引擎相互协作，共同为用户提供服务。

可预见的是，与传统的搜索引擎相比，接入文心一言后的百度搜索，可以提供更加智能化的答案，免去用户从上到下依次点击链接进行确认的步骤。而这一变化也有望为百度，甚至为整个互联网行业带来收入形式的革新，并拥有极大的想象空间。

而在搜索引擎之外，文心一言与百度智能云的搭配也值得我们期待。

2月17日，在2023 AI+工业互联网高峰论坛上，百度智能云宣布“文心一言”将通过百度智能云对外提供服务，为产业带来AI普惠。

百度集团执行副总裁、百度智能云事业群总裁沈抖表示，“文心一言”是基于百度智能云技术打造出来的大模型，它将根本性地改变云市场的游戏规则，云服务将从数字时代跃迁到智能时代。

以前企业选择云厂商更多是看算力、存储等基础云服务，而在未来，企业对云的需求会更加聚焦智能服务，会更多看框架好不好、模型好不好，以及模型-框架-芯片-应用这四层架构之间的协同是否高效。

所以，若文心一言成功落地百度智能云，将会对内容与信息相关行业造成深刻的影响，引起新一轮变革。

此外，文心大模型作为本土化的AI模型，具备对中文甚至中国文化的更深理解，这意味着文心一言会更适合中文和中国市场，有望成为我国在数字工业时代中又一增长引擎。

而百度也将作为中国人工智能市场长期增长的最佳代表，站在浪潮之巅。

写在最后

现象级的生成式AI，将语言大模型这类曾经看起来高大上的技术带到了我们的身边，让每个人都体验到了人工智能生成内容的强大。

但语言大模型的应用远不止如此，在未来，伴随着数据、算法、算力等核心技术能力的突破，AIGC技术将为千行百业赋能，助力实体经济成长。

而以百度为首国内厂商，也一定能在这次AIGC的发展大潮中，推出有着中国特色的语言大模型，并跟随AIGC的进步方向，为各行各业的发展赋予新的能量，推动我国AI产业发展进入下一个时代。

特别声明：本文为合作媒体授权DoNews专栏转载，文章版权归原作者及原出处所有。文章系作者个人观点，不代表DoNews专栏的立场，转载请联系原作者及原出处获取授权。(有任何疑问都请联系idonews@donews.com)