我们已经发布了质量与Google相当的现代STT模型



我们终于针对以下语言发布了一套高质量的预训练语音识别模型(即质量可与Google的高级模型相比):



  • 英语;
  • 德语;
  • 西班牙文


您可以在我们的存储库中找到我们的模型,以及有关质量和速度的示例和指标。我们还尝试使模型的入门尽可能简单-我们在Collab上发布了示例,并为PyTorch,ONNX和TensorFlow提供了检查点。模型也可以通过TorchHub上传。



火炬 ONNX TensorFlow 质量 合作实验室
英文(en_v1) 链接 在Colab中打开
德语(de_v1) 链接 在Colab中打开
西班牙语(es_v1) 链接 在Colab中打开


它为什么如此重要



语音识别传统上具有较高的进入障碍,原因有很多:



  • 数据难以收集;
  • 可比数据单元的标记比计算机视觉中的标记要昂贵得多。
  • 对计算能力和过时技术的高要求;


以下是我们发布之前现有语音识别解决方案面临的常见问题的列表:



  • 通常,这方面的研究具有巨大的计算能力。
  • - , " ", ;
  • , - ;


- , ( ). :



  • - ;
  • ;
  • ;
  • - ;
  • , , ;




, . :



  • ;
  • . , , ;
  • ("1 ");




, — 50 .

— 10-20 .

.








All Articles