AI Systems如何旨在简化声音工程

这个周末,我们决定谈论两所美国大学的发展,这有助于为无声视频产生足够可信的音阶。





照片免费使用声音/未飞溅



发出噪音的人的艰巨任务



电影和电视节目的声音(例如,雨沙的沙沙声)在拍摄特定片段时很难以正确的方式正确记录在场景上。会有很多外来的噪音,可能与演员和其他设备的声音发生冲突。因此,几乎所有声音都在编辑过程中分别录制和混合。噪音制造者正在这样做



如果电影需要重现窗户打碎的声音,则声音设计人员会去演播室,并在受控的声学条件下开始打碎玻璃。进行录音,直到声音与屏幕上发生的声音一致为止。在特别困难的情况下,这可能需要数十次迭代,这会使电影制作复杂化并增加其成本。



德克萨斯大学工程师建议替代选项。他们开发了一个AI系统,该系统可以检测框架中正在发生的事情,并自动建议缩放比例。



怎么运行的



工程师描述了该系统在IEEE(PDF工作中的工作方式他们设计了两个机器学习模型。第一个从素材中提取图像的特征-例如颜色。第二个模型分析对象在不同帧中的运动并确定其性质,以便选择合适的声音。



为了形成声学系列,工程师开发了AutoFoley程序。它基于数千个简短的音频样本生成新的声音-带有雨声,时钟的滴答声和奔腾的马声。工作的结果令人信服:





不幸的是,到目前为止,该系统有许多严重的局限性。它适用于处理声音不必与视频完美匹配的记录。否则,不同步变得很明显-如本视频所示同样,对象必须始终存在于框架中,以便MO模型可以识别它。现在,开发人员正在从事专利注册,但是他们计划修复缺陷。



还有谁参与这些项目



2016年,麻省理工学院和斯坦福大学的专家引入了一种能够为无声视频发声的机器学习模型。它根据帧中对象的属性(例如其材质)预测声音。作为实验,工程师将视频上传到系统中,使人敲打鼓槌的各种表面:金属,土地,草和其他物体。





开发人员使用在线调查评估了算法的有效性。最真实的是树叶和泥土的声音(62%的受访者称它们为真实),而木材和金属的声音最少。金属仅18%的时间听起来很自然。



该系统也需要改进。它产生的声音会在物体碰撞时发生,但无法为风噪声重新创建声学阵列。此外,如果对象移动得太快,该算法也会失败。尽管如此,这样的解决方案还是有潜力的-它们可以简化噪声产生器的工作,并改变电影业。






« Hi-Fi»:



:

?

«, , »: ,

, :

«»:







All Articles