利用生成式AI技术为角色配音

Google的合作创新团队开发了一系列生成式AI模板，展示了如何将大型语言模型与现有的Google API和技术结合起来，解决特定的行业用例。

Talking Character 是一个可定制的3D角色构建器，允许开发人员使用生成式AI将一个动画角色赋予生命。开发人员和用户都可以配置角色的个性、背景故事和知识库，从而创建出具有对任何给定话题独特视角的专业专家。然后，用户可以通过文本或口语与其进行互动。

举一个例子，我们定义了一个基本的角色模型，Buddy。他是一只我们赋予了背景故事、个性和知识库的友好狗，用户可以与他进行关于典型狗生活经历的对话。我们还提供了一个例子，展示了如何改变个性和背景故事，以假设一个可靠的保险代理人——或者任何其他东西的人格。

我们的代码模板旨在实现两个主要目标：

首先，为开发人员和用户提供一个测试界面，以实验利用字符开发和利用特定数据集在PaLM API上创建独特体验的强大概念。

其次，展示如何将生成式AI互动提升到超越简单文本或聊天驱动的体验。通过利用云服务如语音转文本和文本转语音，以及机器学习模型来为角色动画，开发人员可以为用户创建更自然的体验。

这种类型的技术的潜在用途多种多样，包括应用如交互式创意工具在开发游戏角色和叙事；即使是对复杂系统或过程的技术支持；为特定产品或服务量身定制的客户服务；用于辩论实践、语言学习或特定主题教育；或仅仅是通过声音和互动能力将品牌资产赋予生命。

技术实现

交互

在技术实现方面，我们使用了几个独立的技术组件，使3D角色能够与用户进行自然对话。首先，我们使用Google的语音转文字服务将语音输入转换为文本，然后将文本输入到PaLM API。然后我们使用文本转语音生成语言模型回应的人声。

动画

为了实现交互视觉体验，我们创建了一个基于生成声音的模式和语调进行动画的“说话”3D角色。使用MediaPipe框架，我们利用了一种新的音频到混合形状的机器学习模型，生成同步于语音模式的面部表情和唇动。

混合形状是用于通过一组小的权重来动画化3D角色的控制参数。我们的音频到混合形状模型预测这些权重，从而实时地从语音输入中驱动动画角色。该模型通过使用Tensorflow的“说话头”视频进行训练，我们使用3D面部跟踪来学习从语音到面部混合形状的映射，如本文所述。

一旦从模型获取了生成的混合形状权重，我们就使用它们来塑造3D角色的面部表情和唇动，使用开源的JavaScript 3D库 three.js。

角色设计

在设计Buddy时，我们的目标是探索如何在用户和其丰富的背景故事及独特个性之间形成情感纽带。我们的目标不仅是提升参与度，而且是展示一个角色，例如一个富有幽默感的角色，如何塑造你与它的互动。

一位内容编写者开发了一个引人入胜的背景故事来塑造这个角色。这个背景故事，加上它的知识库，是赋予它深度个性并赋予它生命的所在。

我们进一步寻求将可识别的非语言提示，如面部表情，作为互动进展的指标。例如，当角色陷入深思时，这是一个模型正在构建其回应的标志。

提示词结构

最后，为了让角色能够通过简单的文本输入进行轻松定制，我们设计了提示结构，包括三个部分：个性、背景故事和知识库。我们将所有三个部分合并为一个大的提示，并将其作为上下文发送到PaLM API。

合作伙伴关系和用户示例

我们正在与ZEPETO合作，ZEPETO深受Gen Z的喜爱，是一个以角色为中心的社交宇宙，用户可以完全定制他们的数字角色，探索时尚趋势，进行生动的自我表达和虚拟互动。我们的Talking Character模板允许用户创建自己的角色，将他们装扮成不同的衣服和配饰，并与其他用户在虚拟世界中互动。我们正在与ZEPETO合作，并已经对他们的元宇宙角色进行了超过50个混合形状的测试，取得了很好的结果。

这个演示不仅限于元宇宙使用案例。演示展示了如何在任何领域通过角色使文本语料库或知识库活跃起来。

例如在游戏中，由LLM驱动的NPC可以通过自然语言对话讨论游戏的世界、历史和角色，丰富游戏的宇宙，加深用户体验。

在教育领域，可以创造角色来代表学生要学习的不同科目，或者让不同的角色代表交互式教育测验场景中的不同难度级别，或者代表历史上的特定角色和事件，帮助人们了解不同的文化、地方、人和时代。

在商业领域，”会说话的角色”套件可以用来赋予品牌和商店生命，或者赋予电子商务市场的商家动力，并为他们的商店提供更加吸引人和个性化的工具，以提供更好的用户体验。它可以用来为客户在探索零售环境时创造化身，并使真实世界的购物体验更富有游戏性。

更广泛地说，任何品牌、产品或服务都可以利用这个演示，根据任何知识体系或声音的语气，使一个会说话的代理活起来，与用户进行交互，充当品牌大使、客户服务代表或销售助理。

开源和开发者支持

Google的合作创新团队开发了一系列展示将LLM与现有的Google API和技术结合以解决特定行业使用案例的可能性的生成AI模板。每个模板都在今年5月的I/O发布，并开源供开发者和合作伙伴构建。

我们将与多个合作伙伴密切合作，基于这些模板开发和发布特定的功能和体验，随着API在每个市场的发布（APAC的时间待定）。”Talking Agent”也将开源，以便开发者和初创公司可以基于我们已经创建的体验进行构建。Google的合作创新团队将继续与本地市场合作开发功能和工具，以扩大已经进行的研发。在这里查看GitHub上的项目。

致谢

我们想要感谢以下人员对本项目的无价贡献：Mattias Breitholtz, Yinuo Wang, Vivek Kwatra, Tyler Mullen, Chuo-Ling Chang, Boon Panichprecha, Lek Pongsakorntorn, Zeno Chullamonthon, Yiyao Zhang, Qiming Zheng, Joyce Li, Xiao Di, Heejun Kim, Jonghyun Lee, Hyeonjun Jo, Jihwan Im, Ajin Ko, Amy Kim, Dream Choi, Yoomi Choi, KC Chung, Edwina Priest, Joe Fry, Bryan Tanaka, Sisi Jin, Agata Dondzik, Miguel de Andres-Clavera.

谷饭原创编/译文章，作者：peter，转载请注明出处来自谷饭，并加入本文链接: https://www.goofan.com/2023/06/using-generative-ai/。