GPU加速的AI平台NVIDIA Maxine,具备超分辨率、凝视校正、实时字幕等AI功能,可为视频会议提供商大幅改善流媒体质量。
加利福尼亚州圣克拉拉市 – GTC 2020 秋季站 - 2020年10月5日– NVIDIA今天宣布推出了NVIDIA Maxine平台,该平台为开发者提供了一套基于云的、GPU加速AI视频会议软件,以提升流视频质量。当前,流视频是互联网上首屈一指的流量来源。
NVIDIA Maxine是云原生的流视频AI平台,能让服务提供商每天对大约3000多万次的网络会议提供全新AI功能。视频会议服务提供商在云端运行基于NVIDIA GPU的平台,可以为用户提供包括凝视校正、超分辨率、噪声消除、人脸补光等全新AI效果。
由于数据处理过程发生在在云端,而非本地设备,因此,终端用户无需任何专用硬件就可以尽享这些新功能。
NVIDIA副总裁兼加速计算业务总经理Ian Buck表示:“视频会议现已经成为人们日常生活的一部分,能够帮助数百万人工作、学习、娱乐,甚至就医。NVIDIA Maxine集成了我们最先进的视频、音频和对话式AI功能,给那些帮助我们保持联络的视频会议平台带来效率突破。”
AI效率突破,降低带宽需求,改进通话质量
Maxine平台大幅降低了视频通话所需带宽。该AI软件无需流处理全部屏幕像素,而是分析通话中每个人的关键面部特征,然后在通话另一边的视频中智能地重新激活人脸。这使得流视频可通过更少的数据在互联网上进行传输。
使用这种在NVIDIA GPU上运行的基于AI的新视频压缩技术,开发者可将视频带宽消耗减少到H.264流视频压缩标准要求的十分之一。在降低供应商成本的同时,为终端用户提供了更流畅的视频会议体验,使用户能够享受更多AI服务,并减少电脑、平板和手机上的数据流。
AI功能提升了视频会议体验
NVIDIA研究人员在Maxine中实现新的突破,包括了让视频会议的感觉更像面对面的交谈。视频会议服务提供商将能够利用NVIDIA在GAN(对抗式生成网络)上的研究成果,提供各种各样的新功能。
例如,人脸校正功能可以自动调整人脸,使人们在通话中看起来是面对面的。而凝视校正功能可模拟屏幕上的眼神交流,即使摄像头未与用户的屏幕对齐也能轻松实现。自今年年初以来,视频会议的数量增长了十倍,这些功能可以帮助人们将视线落在屏幕中的视频上,而不必盯着摄像头。
开发者还可以添加一些功能,让通话参与者选择自己的动画角色,通过声音和情绪实时地自动控制动画样式。自动帧选项可以让参与者在即使离开屏幕时,依旧保持视频流紧随扬声器。
通过使用由NVIDIA Jarvis SDK支持的对话式AI功能,开发者可集成虚拟助手,这些虚拟助手采用最先进的AI语言模型进行语音识别、语言理解和语音生成。虚拟助手还可以做笔记、设置动作项目并通过类似人类的声音回答问题。其他的对话式AI服务,如翻译、隐藏字幕和转录,能帮助确保参与者理解电话中讨论的内容。
云原生架构可节约成本并实现大规模AI应用
视频会议的需求很难预测,数以百计甚至千计的用户有可能会试图拨入同一场会议。NVIDIA DeepStream可在云端的NVIDIA GPU上利用Kubernetes容器集群中运行的AI微服务,帮助开发者根据实时需求扩展他们的服务。AI推理能力让用户可同时运行多种AI功能,且同时满足应用程序的时延要求。
视频会议服务提供商通过NVIDIA GPU在云端进行AI推理应用,可利用Maxine为数十万用户提供领先的AI能力。Maxine平台采用模块化设计,开发人员可以轻松选择所需AI功能,并将其集成到视频会议解决方案中。
全明星NVIDIA AI开发者工具套件
Maxine平台集成了多种NVIDIA AI SDK和API。除NVIDIA Jarvis外, Maxine平台还采用NVIDIA DeepStream高通量音频和视频流SDK和NVIDIA TensorRTTM SDK,用于高性能深度学习推理。
在Maxine平台上使用的NVIDIA SDK,提供AI音频、视频和自然语言功能。这些功能是通过在全球领先的训练、推理和数据科学工作负载平台NVIDIA DGXTM系统上进行了数十万小时的演练后才开发出来的。
供货
开发音频和视频应用程序和服务的计算机视觉AI开发人员、软件合伙人、初创企业和计算机制造商,可申请NVIDIA Maxine平台的早期试用。
声明:本站转载此文目的在于传递更多信息,并不代表赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本网联系,我们将在第一时间删除内容,本网站对此声明具有最终解释权。