微软推出了一项具有视觉功能的新文本转语音功能,使用户能够使用文本输入创建会说话的头像视频,并构建使用人类图像训练的实时交互式机器人。
它被称为 Azure AI 语音文本,提供公共预览版,允许客户创建 2D 逼真头像的合成视频。
“神经文本到语音化身模型由基于人类视频录制样本的深度神经网络训练,化身的声音由文本到语音语音模型提供,”该公司在周三晚些时候的“Microsoft Ignite”活动中表示。
通过文本转语音头像,用户可以创建更具吸引力的数字交互。他们可以使用化身来构建对话代理、虚拟助手、聊天机器人等。
文字转语音头像的设计旨在保护个人和社会的权利,促进透明的人机交互,并抵制有害的深度伪造和误导性内容的扩散。
“出于这个原因,自定义头像是一项受限访问功能,只能通过注册获得,并且仅适用于某些用例。要在您的业务应用程序中访问和使用该功能,请在此处注册您的用例并申请访问权限,“该公司表示。
该公司目前提供两种独立的文本转语音头像功能:预构建的文本转语音头像和自定义文本转语音头像。
“微软为其订阅者提供预构建的文本到语音化身,作为 Azure 上的开箱即用产品。这些化身可以根据文本输入说出不同的语言和声音。客户可以从各种选项中选择一个头像,并用它来创建视频内容或具有实时头像响应的交互式应用程序,“该公司表示。