PustobrёkhGPT-2:俄语版

图片


进入DL NLP主题后,我在Internet上遇到了一个有趣的存储库。这还远远不够-俄罗斯GPT-2!好吧,那是讲俄语。并非只有117M,而是1250M,这已经非常严重了。作者在适应原始模型和准备用于训练的语料库方面做了很多工作。我想培训本身花费了很多时间和精力。总的来说,尊重l4rz同志!我计划跟随他的脚步,并针对我的案子(目前正在准备中)对系统进行培训-幸运的是,作者就如何处理如此大规模的任务留下了相当详细的说明……我将报告结果! ;)



同时,纯粹出于娱乐目的,我基于有关GPT-3冷却器帖子向公众建议使用该系统进行一些实验(尽管作者显然认为GPT-3在那里并不出色)。一方面,这里介绍的系统比GPT-3简单得多,另一方面,它仍然是经过训练的俄语模型!我觉得这很有趣。



免责声明结果很大程度上取决于网络所学习的语料库。这就是作者对此的评价:我刮了几个俄罗斯新闻网站,用beautifulsoup4解析了HTML,并保存了解析后的文本以及元数据(标头,TL,DR,时间戳),以便在PKL中进行进一步的排序和后处理...以便推送内容进一步,4Gb数据集(415M令牌)增加了3Gb过滤的狂热爱好者,成为7Gb数据集(862M令牌)。



实验技术很简单:我以相同的输入运行了3次网络。网络输出以粗体标记... 除了纯修饰性的内容外,我没有进行任何编辑,例如缺少空格(由于我对代码*的干预而将其省略了)。一般而言,这些实验重复了有关GPT-3的文章中所述的那些实验,我决定不以任何方式对此进行评论...;



实验#1

>>>

您为自己倒了一杯酸果蔓汁,但随后却在其中添加了一茶匙的葡萄汁。他看起来不错。您尝试闻一下,但感冒得很重,所以没有闻到气味。你好渴 因此,您喝加蜂蜜和糖的咖啡。
>>>新

您为自己倒了一杯酸果蔓汁,但是却心不在add地往其中加入一茶匙葡萄汁。他看起来不错。您尝试闻一下,但感冒得很重,所以没有闻到气味。你好渴 因此,您可以再次倒咖啡。你真恶心 没什么不对的,你也不知道怎么喝。您感觉很不好,但是没人关注您。
>>>新

您为自己倒了一杯酸果蔓汁,但是却心不在add地往其中加入一茶匙葡萄汁。他看起来不错。您尝试闻一下,但感冒得很重,所以没有闻到气味。你好渴 因此,您可以根据需要继续进食,但您不知道它的外观。


实验2

>>>

您举办了一个小型聚会。您想在客厅里享用晚餐。饭桌比门口还宽,您必须喝一杯热牛奶才能将其移入客厅
>>>新

您已组织了一个小型聚会。您想在客厅里享用晚餐。饭厅的桌子比门口宽,并采取了几步才能进入客厅
>>>新

您举办了一个小型聚会。您想在客厅里享用晚餐。饭厅的桌子比门口还要宽,将它搬到客厅需要花费很多工作。


实验3

>>>

您是辩护律师,今天需要上法庭。早上穿衣服时,发现西装上的裤子很脏。但是,您的泳裤很干净而且非常时尚。这些是Isabelle送给您生日的法国高档游泳裤。您决定试穿什么衣服吗?

哦耶*
>>>新

您是辩护律师,今天需要上法庭。早上穿衣服时,发现西装上的裤子很脏。但是,您的泳裤很干净而且非常时尚。这些是Isabelle送给您生日礼物的法国高端泳裤。您决定试穿什么衣服如果您不喜欢某些东西,请随身带上衣柜里的衣服。
>>>新

您是辩护律师,今天需要上法庭。早上穿衣服时,发现西装上的裤子很脏。但是,您的行李箱很干净,非常时尚。这些是Isabelle送给您生日的法国高档游泳裤。您决定试穿什么衣服吗?

-我有很多要问律师的问题。


实验#4

>>>

昨天我把衣服留在干洗店里了,今天我仍然需要捡起它们。我的衣服在哪里?

-白痴,我需要让他回来,而不是按计划在那儿做任何事情。
>>>新

昨天我把衣服留给干洗店了,今天我仍然需要捡起它们。我的衣服在哪里?

-不,我不知道这些东西是什么,但是我可以随时拿走,但这并不总是那么愉快。
>>>新

昨天我把衣服留给干洗店了,今天我仍然需要捡起它们。我的衣服在哪

- 好的。我不会打扰他,”我回答。



实验5

>>>

珍妮特(Janet)和潘妮(Penny)去商店为杰克(Jack)买了礼物。珍妮特说:“我给杰克买顶上衣。” “不要买杰克的上衣,”潘妮说。“他有顶。当我们选择时,他会从我那儿得到的,如果您不购买杰克,您将出售杰克。
>>>新

珍妮特(Janet)和潘妮(Penny)去商店为杰克(Jack)买了礼物。珍妮特说:“我给杰克买顶上衣。” “不要买杰克的上衣,”潘妮说。“他有顶。将从杰克那里得到他的作品。
>>>新

珍妮特(Janet)和潘妮(Penny)去商店为杰克(Jack)买了礼物。珍妮特说:“我给杰克买顶上衣。” “别买杰克的上衣,”潘妮说。“他有顶。他会收到的我要买它。他一直在那里。而且我不会卖。只与杰克不同。他对什么让他不满意没有兴趣。除了自己买东西,他别无选择。


实验6

>>>

在聚会上,我给自己倒了一杯柠檬水,但是太酸了,所以我加了一些糖。手上没有汤匙,所以我用香烟搅动了饮料。但是事实证明这是一个非常糟糕的主意,因为我已经喝了很长时间了。哇,真是太好了!
>>>新

在聚会上,我给自己倒了一杯柠檬水,但是太酸了,所以我加了一些糖。手上没有汤匙,所以我用香烟搅动了饮料。但这真是个坏主意,因为柠檬水使我无法喝酒。
>>>新

在聚会上,我给自己倒了一杯柠檬水,但是太酸了,所以我加了一点糖。手上没有汤匙,所以我用香烟搅动了饮料。但是事实证明这是一个非常糟糕的主意,因为它太热了,所以我从喉咙开始喝酒。


实验#7

>>>

, . – .



1. , . . , , . . .



) .

) .



: 2. )



*较小的抒情题外话。我不喜欢GPT-2具有无限的文本生成功能(一次半页),因为它在源代码中。而且我将输出削减到最低限度,但使递归继续成为可能(当先前的输出馈入输入时)。因此,我有点作弊,因为 我自己决定何时/应该停止。在这种情况下,网络确实带来了可以稍微解释为答案的结果(尽管很矛盾),但是如果我们继续结论,那么……自己判断:
正确答案:

2. A)不需要了解其他所有内容。

3. B)依赖性。

4.您想在什么基础上喝呢?


>>>新

……



正确答案:这些是有毒物质。
>>>新

...的



正确答案是:“一切都准备好了。”


对于这个模拟游戏,仅此而已...



PS如果社区告诉您可以在哪里放置5Gb模型(以便可以在wget之类的工具中使用)-我将在文章中添加指向Colab笔记本的链接,任何希望能够实时运行系统的人...; )然后,恐怕我的家“托管”将无法承受habr效应。同时,如果有人感兴趣,我可以尝试将您的文本作为输入发生的事情!



更新:社区由格里戈罗夫回应,所以这是承诺的记事本现在您可以进行实验,将其与原始内容进行比较(帖子中的链接沙漠流 来自OpenAI的GPT-2神经网络。快速入门),并可能得出一些结论。 ;)例如:语言教学时语言是否重要?



作者评论:嗨,



是的,我当然不介意-否则我不会在这里发布模型。



>>>教学语言模型时语言是否重要?



当然可以-我注意到带有少量参数的模型在俄语中的工作效果更差。我想这是由于俄语比英语更复杂(形式化程度较低)的语义所致。我在文章中写到了它。此外,俄语中采用的传递对话的方式(每个副本以新行开头并以破折号开头,但未指定这些副本属于谁)完全没有帮助模型正确识别对话的结构(并且使模型难以训练,因为该模型学会了构造任何文本,例如方式-当任何标记泄漏到训练数据中时,也会观察到相同的效果)。



我想念的另一点(对我来说似乎很明显)-如果您想对该模型进行微调,则需要使用该模型随附的句子词典(sp。*)。



同样,在训练1250M时,主要使用新闻,新闻和后来的虚构作品,这反映在结果的本质上。



All Articles