美国加利福尼亚州圣克拉拉 ——GTC 大会 ——2021 年 11 月 9 日 ——NVIDIA 于今日发布用于生成交互式 AI 虚拟形象的技术平台 ——NVIDIA Omniverse Avatar。
Omniverse Avatar 能够连接 NVIDIA 在语音 AI、计算机视觉、自然语言理解、推荐引擎和模拟方面的技术。在该平台上创建的虚拟形象是具有光线追踪 3D 图像效果的交互式角色, 可以看到、说话、谈论各种主题, 以及合理地理解表达意图。
Omniverse Avatar 为 AI 助手的创建开辟了道路, 而且可以根据各个行业的需求轻松定制。AI 助手可以帮助处理数十亿次日常客户服务互动, 比如餐厅订单, 银行交易, 个人预约和预订等, 带来更多商机并提升客户满意度。
NVIDIA 创始人兼首席执行官黄仁勋表示:“智能虚拟助手的前景一片光明。Omniverse Avatar 将我们的基础图像、模拟和 AI 技术结合在一起, 打造出一些有史以来最复杂的实时应用。协作机器人和虚拟助手的案例令人难以置信, 影响深远。”
Omniverse Avatar 是用于 3D 工作流程的虚拟世界模拟和协作平台 ——NVIDIA Omniverse™的一部分,Omniverse 公测版用户现已超过 7 万人。
在 NVIDIA GTC 主题演讲中, 黄仁勋分享了使用 Omniverse Avatar 的多个例子, 包括用于客户支持的 Project Tokkio、用于永久在线车载智能服务的 NVIDIA DRIVE Concierge 以及用于视频会议的 Project Maxine。
在第一个 Project Tokkio 演示中, 黄仁勋展示了 NVIDIA 的同事们与一个黄仁勋的卡通虚拟形象进行互动 —— 就生物学和气候科学等话题开展对话。
在第二个 Project Tokkio 演示中, 黄仁勋着重介绍了餐厅自助服务亭中的一个客户服务虚拟形象。演示中, 有两名顾客正在订购素食汉堡、薯条和饮料, 该虚拟形象看到了他们、与他们交谈并理解了他们。这些演示由 NVIDIA AI 软件和目前全球最大的可定制语言模型 ——Megatron 530B 驱动。
在 DRIVE Concierge AI 平台演示中, 中央仪表盘屏幕上的数字助理帮助驾驶者选择了最佳驾驶模式以准时到达目的地, 然后按照驾驶者的要求, 设置在汽车续航里程下降到 100 英里以下时进行提醒。
另外, 黄仁勋还展示了 Project Maxine 如何为虚拟协作和内容创作应用增加最先进的视频和音频功能。演示中, 一个讲英语的人在嘈杂的咖啡馆里进行视频通话, 但是其他人可以清楚地听到她所说的话, 没有背景噪音。当她讲话时, 她的话被实时转录并翻译成德语、法语和西班牙语, 并且声音和语调与原话完全相同。
Omniverse Avatar 主要组成部分
Omniverse Avatar 所使用的语音 AI、计算机视觉、自然语言理解、推荐引擎、面部动画和图像元素, 通过以下技术实现:
・其语音识别基于 NVIDIA Riva。这个软件开发工具包可以识别多种语言的语音。Riva 还可通过文本语音转换功能生成接近真人的语音反馈。
・其自然语言理解基于 Megatron 530B 大型语言模型。该模型可以识别、理解和生成人类语言。Megatron 530B 是一个预训练模型, 它可以在很少或没有训练的情况下完成句子、回答主题广泛的问题、总结长而复杂的故事、翻译成其他语言, 并应对许多它未接受过专门训练的情景。
・其推荐引擎由 NVIDIA Merlin™提供。该框架使企业可以建立能够处理大量数据的深度学习推荐系统, 以提出更明智的建议。
・其感知功能来自用于视频分析的计算机视觉框架 ——NVIDIA Metropolis。
・其虚拟形象动画由 AI 赋能的 2D 和 3D 面部动画和渲染技术 ——NVIDIA Video2Face 和 Audio2Face™驱动。
这些技术被集成在一个应用, 并使用 NVIDIA 统一计算框架进行实时处理。这些技术被打包成可扩展、自定义微服务后, 能够通过 NVIDIA Fleet Command™在多个地点安全地部署、管理和协调。
进一步了解 Omniverse Avatar。
免费注册后可在 11 月 8 日至 11 日举行的 NVIDIA GTC 大会上进一步了解 NVIDIA Omniverse, 并在 11 月 9 日观看 NVIDIA 创始人兼首席执行官黄仁勋的 GTC 主题演讲 (也可在之后观看重播)。
(原标题:NVIDIA 发布用于创建 AI 虚拟形象的平台)