我们终于针对以下语言发布了一套高质量的预训练语音识别模型(即质量可与Google的高级模型相比):
- 英语;
- 德语;
- 西班牙文
您可以在我们的存储库中找到我们的模型,以及有关质量和速度的示例和指标。我们还尝试使模型的入门尽可能简单-我们在Collab上发布了示例,并为PyTorch,ONNX和TensorFlow提供了检查点。模型也可以通过TorchHub上传。
它为什么如此重要
语音识别传统上具有较高的进入障碍,原因有很多:
- 数据难以收集;
- 可比数据单元的标记比计算机视觉中的标记要昂贵得多。
- 对计算能力和过时技术的高要求;
以下是我们发布之前现有语音识别解决方案面临的常见问题的列表:
- 通常,这方面的研究具有巨大的计算能力。
- - , " ", ;
- , - ;
- - ;
- ;
- ;
- - ;
- , , ;
—
, . :
- ;
- . , , ;
- ("1 ");
, — 50 .
— 10-20 .
.