我的新同事是数字化身。公司如何以及为何创建人的逼真的3D模型

当扮演角斗士训练师Anthony Proximo的演员奥利弗·里德(Oliver Reed)在影片《角斗士》(Gladiator)的拍摄结束前三周去世时,电影制片人不得不紧急改写剧本,以使Proximo死于这一过程,而缺少的场景则是在研究不足和计算机效果的帮助下创建的。然后,在21年前,一部160秒钟的电影以“数字簧片”的形式花费了320万美元,而现在,由于技术的发展,根据我们的估算,有可能将预算削减30倍,为此,要制作数字双胞胎并不容易演员(数字双打)拍摄多个场景,并创建完整的超逼真的3D模型,然后在不受时间和空间限制的情况下拍摄电影。我们的团队正在努力创建这样的化身。在这篇文章中,我将告诉您,为什么除了电影院还需要它们,以及我们在自己的实验中学到了什么有趣的东西。





电影双打



您可能已经多次在屏幕上看到双重演员,而且很可能甚至没有注意到替代演员。如果以前是化妆师负责相似性,那么现在导演越来越吸引游戏开发行业的开发团队。



我以《角斗士》为例,它是首批采用数字双胞胎的电影之一。他没有时间用奥利弗·里德(Oliver Reed)拍摄的那些场景是从部分拍摄的材料中收集的,并添加了使用3D图形制作的帧。在1999年,我们设法取得了绝对出色的成绩,甚至CG专家也常常没有注意到这一替代。 





演员去世后电影英雄复活的另一个著名例子是布莱恩·辛格(Brian Singer)的电影《超人归来》(2006)。自1978年以来,白兰度就曾在超人中扮演相同的角色,因此,将马龙·白兰度(Marlon Brando)任命为超人之父是导演的原则问题。 



根据照片创建演员的脸部3D模型,并根据最终编辑版本中未包含的演员的镜头创建动画(面部表情和眼球运动)。通常,这是一个非常耗时的过程。





十年前,创建照片级模型的许多复杂操作是手动完成的。出于相同的目的,现代电影业已经拥有了巨大的技术堆栈,因此无需“重新发明轮子”。



技术进步最有说服力的例子也许就是3D皮革制作过程。人体皮肤会透射光,并且穿过它的光线会在内部反射和分布。在计算机图形学中,这称为次表面散射-表面下的光分布。实现地下散射材料功能的现代渲染引擎能够正确地物理计算此效果。而10年前,您必须对其进行编程或在后处理中创建“伪造”。



现在,该过程是自动化的,您只需要手动更改皮肤的颜色和纹理即可。此外,可以通过生物学上正确的机制进行颜色管理-通过改变皮肤材料中的黑色素含量。现代的数字双胞胎是如此现实,以至于您几乎无法理解在特定的画面中看到的是Digital Human,而不是您最喜欢的演员。 



想锻炼吗?与“狗心”弗拉基米尔·托洛科尼科夫(Vladimir Tolokonnikov)的明星一起观看SuperBobrovs系列。不幸的是,这位因《 Polygraph Poligrafovich Sharikov》而闻名的演员因心脏骤停而无法完成拍摄。因此,所有丢失的场景都是由他的头像扮演的。



数字双胞胎的创建方面的重大进展还与计算能力的发展有关。如果更早,要计算具有数字字符的序列,则需要整个处理器和RAM场,现在,一切都可以在家用游戏计算机上考虑到-缓慢而可靠地进行。因此,我认为Antony Proximo可以由我们三个人在一个月内完成渲染。如果我们还考虑创建三维模型(工作中最耗时,最昂贵的部分),则该项目的总工期将为2-2.5个月,预算可能会限制为10万美元。



商业内容工厂



用于创建人的真实感模型的技术的进步伴随着神经网络的飞跃发展,您可以使用它来控制3D模型。这些共同构成了数字人的广泛应用的基础。因此,通过将3D模型与神经网络或聊天机器人结合起来,您可以组织整个工厂来生产视频内容:“输入”文本,而化身则用面部表情和情感读出来。这种场景的开发已经在市场上,但是他们不使用3D模型,而是使用真实人物的照片。





观察联邦渠道的新闻主播,许多人认为这就是他们的工作方式。实际上,不,演示者不仅可以阅读带有面部表情和情感的文本,还可以自己编写文本。当然,在未来,神经网络将能够为电视和视频博客“写”文本,而化身将能够为它们发声。而且,在组织报告时,还可以节省金钱-仅将操作员发送到站点,并在已经拍摄的视频资料上用编辑者写的文字覆盖头像表达。LANIT-Integration的



我们认为使用数字人技术的两个领域是最有前途的。 首先是用视频代替人的脸。



...可能每个人都已经看到了与Zoom会议相关的Elon Musk的克隆。顾名思义,这种情况称为Deep Fake,用于各种假货。从技术上讲,相同的方向也称为“面部互换”,但是这种情况不再适用于黑人PR,而是出于不会引起道德争议的商业目的。例如,您可以调试教育内容的生产。 



具有联邦分行网络的银行拥有许多质量各异的培训视频。其中一些只是Zoom会议的录音。视频质量低下以及框架中的情况与公司标准不符,因此不允许将它们收集到单个培训课程中。借助数字化身和神经网络,您可以修复所有内容-更改背景和扬声器的外观。



对于电视和博客作者来说,创建视频产品的类似场景很有趣。最近,我们与一个主题频道的制作人联系,要求我们估计在数字化身作为演示者的情况下制作定期刊物的成本。当然,Digital Human并不能解决所有问题-仍然没有一种技术可以让化身在通过神经网络处理文本时重现情感-为此,您仍然需要一个活着的人,其面部表情和化身将使用其动作。另外,您需要一位专家来接管剧本,文本的配音工作。没错,参与媒体内容制作的人们的外表,性别,声音音色和位置变得完全不重要。要进行拍摄,您需要一套用于动作捕捉的西装,一个带摄像头的头盔,对准面部(“捕捉”面部表情),头像本身,它将实时在屏幕上广播屏幕外工作人员的所有动作。根据我们的计算,这项技术将使视频制作成本降低10倍。



数字人类应用程序的第二个方向是将数字化身与聊天机器人和语音合成系统结合起来,与客户进行通信的需求非常大。



聊天机器人现在已在许多呼叫中心使用。但是,并非所有客户都愿意与机器人交流。如果客户看到他们的数字对话者,也许交流会更加愉快。



通过将聊天机器人,麦克风和语音识别和合成系统固定到数字化身,您可以在政府机构中创建虚拟礼仪小姐,销售顾问,顾问(Soul Machines也有类似的案例-虚拟助手Ella与NZ警察总部的来访者进行沟通),通常是侍酒师-所有主要任务只是回答客户问题的员工。从理论上讲,这将节省工资和员工,从而完成神经网络尚无法完成的工作。



外观实验



因此,上述所有方案的基础都是数字化身。我已经说过,创建它是一个非常费力的过程。实际上,我们正在谈论的是由3D雕塑家制作的虚拟雕塑。他研究了外观的所有细节,然后使用仿真工具“修剪”了头发。 



如果您创建名人或模特的副本,则不会出现外观问题。如果您需要从头开始创建虚拟人怎么办?你会给他什么特征? 





作为实验,我们决定创建自己的数字化身-LANIT大使。当然,您可以问所有同事他应该怎样看。但是,首先,对数千人的调查已经太多了,其次,根据这些数据,我们将不得不为芭比创建第二个Ken,这是一个令人愉快的广义图像,完全没有个性。不,我们根本不需要这样的大使。我们走了一条不同的道路。



多年来,我们每个人都形成了一系列定型观念。例如,浓密的灰色胡须与良好的性格(例如圣诞老人),宽而笔直的眉毛相关联-具有直率和霸气的性格等。



我们已经形成了面部心理几何学方面的专业知识,并训练了神经网络,以根据感知模式识别一个人的容貌与他的印象之间的关系。现在,她分析了外表的特征,并给出了一组描述一个人对他人的感觉的单词,例如,善良,脆弱,不安全,冷静等。我们接受了这些发展,并以相反的顺序开始了这一过程-我们给神经网络描述了我们未来的英雄(目标听众应该如何看待他),并获得了一定的面部特征。 



让我马上提出一个重要的保留意见:我们决不声称对我们的实验具有科学上的依据。此外,有大量研究证实,寻找面部特征与例如性格或(上帝禁止)智力之间的关系是危险的。因此,我们不是在探索科学领域,而是在探索技术的可能性。



因此,我们以与企业精神特征相对应的人类素质“喂养”了神经网络:领导力,创新,可靠性,奉献精神等。





甚至对必要品质的这种选择性选择都导致这样一个事实,即我们拥有一个完全中立的角色,不会引起任何情绪。因此,必须手动校正神经网络给我们的结果。 



人脸以及通常所有的计算机图形都由三个部分组成: 



  1. 3D-, ;
  2. , , ;
  3. ( , ). 




1.



头部



为了创建Maxim(我们称为化身),我们以简化的人类头部形状为基础,并在Zbrush中形成了细节(造型)。首先,创建了一个高聚模型,其中找出了最小的细节,包括皮肤上的毛孔(为此开发了纹理)。 



我们正在使用4K纹理。 8K纹理可以在特写镜头上提供更好的效果,但是对它们的需求很少,因此出于性能考虑,我们拒绝使用8K纹理。准备好高多边形模型后,我们将为其创建低多边形副本,并使用法线贴图(曲面“凹凸”贴图)将小细节传输至该模型。



头发



有很多创建头发的工具。我们为Houdini选择了GroomBear来保持软件堆栈的平坦-大多数技术工作都是在Houdini中完成的。



这就是Maxim的第一个版本:



衣服。



奇妙的设计师被用来建模衣服,并且在Blender中完成了折叠,细小和特色细节。



这是Maxim 4.0



2.纹理



我们在Substance painter中执行纹理化-我们认为,其工具提供了最简单,最快的纹理化过程。一个重要的提示是:为了校正化身的形象,仅改变皮肤的纹理就足够了,而根本不涉及几何基础。但是,这并不是化妆爱好者的秘密。在化妆品的帮助下,中国妇女每天可以达到与整形手术相当的效果。对于化身,这样简单的外观改变就意味着视频内容制作中的大量节省(三下单击),并且角色的形象发生了巨大变化,以至于它已经是一个完全不同的人了。





3.动画



我们的角色已调整为可与运动捕捉系统配合使用:Xsense人体模型套装和Dynamixyz面部模型系统。我们没有使用光学运动捕捉系统,因为它们非常笨重而不是移动的,这意味着内容制作过程将受到更多限制。



Xsense控制躯干,头部和四肢的运动。动画系统是混合的:大量的几何图形由骨骼控制,而骨骼又由样机系统的数据控制,关节区域和其他特征位置的衣服折叠由辅助混合形状控制(模型状态在关节区域具有特征折叠的状态),以确保正确操作骨骼动画不允许正确结果的几何体。 



创建混合形状的需要是创建角色衣橱的主要问题-这很麻烦。对于每件新服装,艺术家需要创建数十种混合形状。我们正在积极寻找使该例程自动化的方法,如果您有想法或现成的解决方案,我将很乐意在评论中与您讨论它们。



Dynamixyz管理面部动画,而设置面部动画是管道中最困难,最耗时的部分。事实是,在面部皮肤下隐藏着57条肌肉(占人体总数的25%),并且每条运动都会影响面部表情。 



识别面部表情和情绪是社会存在的极其重要的能力,因此人们可以立即捕捉到难以置信的面部表情。因此,对于化身,您需要制作100%逼真的面部动画。 



每个面孔可以具有无限多种表情,但是正如实践所示,150个混合形状足以创建逼真的动画。我们走得更远,创建了300个混合形状(如果发现300个不够的情况,可以继续创建新的形状)。 



Dynamixyz的工作原理如下:将头盔戴在演员的头上,固定有具有超高数据传输率的专用摄像机。这些摄像机的视频被广播到工作站,在工作站中,神经网络确定演员脸部的固定点,并在每个帧中将它们与虚拟面罩上的固定点进行匹配,使其移动。混合形状的系统与面罩的运动相关,该运动根据面罩的运动的性质而“切换”。每个混合形状都是为整个脸部整体创建的,但是可以在动画过程中进行局部切换,例如在嘴巴或右眼区域与脸部其余部分分开进行切换。这些开关是平滑的,肉眼完全看不见。



还有其他一些劳动力较少的面部动画系统,例如Sberbank最近获得专利的一种。但是降低人工成本是以牺牲质量和灵活性为代价的,这就是我们放弃使用此类技术的原因。 



4.渲染



我们的Maxim居住在虚幻引擎和Houdini中。 



在虚幻引擎(UE)中,我们渲染不需要复杂后处理的动画,因为UE不允许我们在输出中获得进行后处理所需的完整通道和蒙版,并且还存在许多限制(例如,无法制作正确的头发蒙版,因此UE不知道如何使半透明的蒙版)。我们对实时光线跟踪(RTX)进行了一段时间的实验,但是由于图像质量没有得到显着提高,因此我们放弃了它的使用。 



我们使用Arnold在Houdini中进行渲染。这是一个CPU渲染,与GPU和RealTime引擎相比,它的工作速度相当慢,但是选择却落在了它上,因为对比测试表明,Sub Surface Scattering材料(和皮肤材质就是这样)和Arnold中的头发材质在该顺序比Redshift和Octane中的顺序更好,并且不幸的是,V射线偶然在次表面散射材料上产生伪影。



5.互动



从我们的角度来看,最有希望(但也最困难)的是,数字化身的发展方向是它们与软件产品的组合-语音助手,聊天机器人,语音文本系统等。这些集成为构建可扩展产品打开了大门。我们目前正在朝这个方向积极工作,建立假设和原型。如果您对以这种方式使用数字化身有任何想法,我很乐意与他们讨论。



可爱还是恶心?运动会增强这种效果。



也许Maxim会让您想起一个认识的人。或者,也许您昨天与类似的人谈判过。他的交流方式可爱还是讨厌?在任何情况下,Maxim的形象都会唤起您的情绪。



在创建它的过程中,我们根据自己的经验测试了日本Masahiro Mori描述的“邪恶谷”的效果,他调查了人类对类人机器人的看法。这在Wiki中有详细介绍,但总而言之:机器人越像人,我们对它的同情就越多。这种效果可以发展到一定程度。当机器人与人几乎无法区分时,我们看着它会感到不适,甚至感到恐惧-所有这些都是因为机器人给出了我们通常无法识别和命名的最小细节。我们反应中的这种突然变化(与图中的失败相对应)称为“邪恶谷”。同时,动画可以增强正面和负面效果,但是,从图中可以看出,只有在动画的帮助下,才能实现与人的完全相似。



来源 



因此,我们的马克西姆穿越了“邪恶的山谷”,但一个细微的差别对他的知觉产生了负面影响-没有动画,他根本没有面部表情,所有的面部肌肉都放松了,而活着的人则不是。因此,他看起来很超然,不看对话者,而是仿佛通过他,这是非常不愉快的。 



Maxim在我们看来是化身家族的值得代表。随着Digital Human越来越受欢迎,我们期待着这样的事实,即我们的客户和合作伙伴将很快决定为营销目的而购买虚拟形象。然后,马克西姆将有理智的兄弟姐妹-当然是人为的。 



同时,仅Maxim一家就在探索B2B市场为数字化虚拟化开放的机会:2020年10月,他将参加会议“智能解决方案-智慧国家:创新技术,面向新现实”和Disartive数字艺术展览,将在社交媒体上推广LANIT的产品和服务,并可能进行多次采访。



数字人的新兴市场



俄罗斯有些公司的工作方向与我们类似。但是,并非所有人都公开-许多人与Gamedev工作室互动并为游戏制作角色(这个世界是按照自己的规则生活的,而且很多工作室都使用好莱坞模式而不公开其承包商)。 



最著名的公司也许是马里瓦尔(Malivar),Sberbank向该银行投资了1000万卢布。她拥有虚拟角色Aliona Pole-艺术家,模特和“数字服装”系列的作者。 





瞬间,数字模特将一件红色上衣变成一件蓝色上衣,尝试新外观而不停止运动。在Instagram故事和TikTok上长大的观众喜欢观看短片,其中包含许多鲜活模特无法使用的转换。



Aliona逐渐摆脱了模特的形象,在Instagram上获得了所有新的人类特质-她倡导对世界环保的态度,对人格界限这一主题进行了哲学思考,将普通和虚拟现实混合在一起,并“淹没”了个性和身体阳性。



全球市场上有一个有趣的数字化身项目:三星-霓虹灯...当然,开发人员离创建新的生活形式还有很长一段路要走,但是他们教会了他们的3D模型如何移动。由于可以将语音转换为文本的界面,该模型可以分析传入的信息,将其转换为解决方案,并提供内部命令来移动手和身体的其他部位。在CES 2019上,该公司的特色是护士,电视节目主持人,国家公园侦察员,健身教练等的化身。 我在上面写了



有关创建灵魂机器助手的新西兰项目。可能还有其他项目值得关注,但是它们没有什么重要的新闻供稿,尽管现在有大量资金投资在数字化身的开发上。



您如何看待化身?我很想让我的数字克隆人参加Zoom会议并与老板沟通,当然还有一套数字衣服-总是一件熨烫的衬衫,夹克,领带-一切。



All Articles