使用ELECTRA对NLP模型进行更有效的预训练

预学习语言模型的最新发展导致自然语言处理(NLP)取得了重大进展催生了诸如BERTRoBERTaXLNetALBERTT5等高效模型然而,这些具有不同架构的方法通过使用大量未标记文本数据来创建自然语言理解的通用模型的思想相结合,然后对其进行进一步训练和微调以解决特定的应用问题,例如情感分析或构建问题解答系统。



现有的预训练方法主要分为两类:



  • 语言模型(LM),例如GPT,它从左到右处理输入中的文本,并在先前定义的上下文中预测下一个单词;
  • 掩码语言模型(MLM),例如BERT,RoBERTa和ALBERT,它们试图预测源文本的掩码词。


MLM的优点是它可以双向工作,即 与仅面向一个方向的LM相比,“查看”预测令牌两侧的文本。但是,传销(以及XLNet之类的模型)的预训练任务也有缺点:与其预测输入序列中的每个单词,不如预测一个很小的被掩盖部分-仅占15%左右,这减少了从一个句子中接收到的信息量。



image3



. () . : (, GPT), . : (, BERT), , .



«ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators» , BERT’, . ELECTRA – , (Efficiently Learning an Encoder that Classifies Token Replacements Accurately) — , , . , ELECTRA , RoBERTa XLNet GLUE, , , ¼ , - SQuAD. ELECTRA , : 1 GPU , (accuracy), GPT, 30 . ELECTRA TensorFlow .





ELECTRA – (replaced token detection, RTD), ( MLM) ( LM). - (generative adversarial network, GAN), ELECTRA «» «» . , , «[MASK]» ( BERT’), RTD , . , , «cooked» «ate». , , . (.. ) , , . , , (15% BERT). RTD , MLM – ELECTRA «» , , .. . , RTD , .. , .



图4



.



, . , , ELECTRA ( BERT- ), . , , , GAN, , , - GAN . . , ( ELECTRA) NLP . .



图片1



. MLM , ELECTRA.





ELECTRA c NLP , , , RoBERTa XLNet 25% , .



image2



x , ( FLOPs), y – GLUE. ELECTRA , NLP . , GLUE, T5, , .. ( 10 , RoBERTa).



, ELECTRA-Small, , GPU 4 . , , TPU , ELECTRA-Small GPT, 1/30 .



, , ELECTRA , ELECTRA-Large ( RoBERTa 10% T5). - SQuAD 2.0 (. ) RoBERTa, XLNet ALBERT GLUE. T5-11b GLUE, ELECTRA 30 10% , T5.



图片5



ELECTRA-Large SQuAD 2.0 ( ).



ELECTRA



ELECTRA的预训练和对应用的NLP任务进行微调代码(例如文本分类,问答问题和序列标记)已公开发布。该代码支持在单个GPU上快速训练小型ELECTRA模型。还发布了诸如ELECTRA-Large,ELECTRA-Base和ELECTRA-Small之类的预训练模型的权重。尽管ELECTRA仅适用于英语,但将来,开发人员计划以其他语言对模型进行预训练。



作者






All Articles