🕵️ 🌞 🏒 PustobrёkhGPT-2：俄语版 🙅🏾 🧡 🔗

进入DL NLP主题后，我在Internet上遇到了一个有趣的存储库。这还远远不够-俄罗斯GPT-2！好吧，那是讲俄语。并非只有117M，而是1250M，这已经非常严重了。作者在适应原始模型和准备用于训练的语料库方面做了很多工作。我想培训本身花费了很多时间和精力。总的来说，尊重l4rz同志！我计划跟随他的脚步，并针对我的案子（目前正在准备中）对系统进行培训-幸运的是，作者就如何处理如此大规模的任务留下了相当详细的说明……我将报告结果！ ;）

同时，纯粹出于娱乐目的，我基于有关GPT-3冷却器的帖子向公众建议使用该系统进行一些实验（尽管作者显然认为GPT-3在那里并不出色）。一方面，这里介绍的系统比GPT-3简单得多，另一方面，它仍然是经过训练的俄语模型！我觉得这很有趣。

免责声明结果很大程度上取决于网络所学习的语料库。这就是作者对此的评价：我刮了几个俄罗斯新闻网站，用beautifulsoup4解析了HTML，并保存了解析后的文本以及元数据（标头，TL，DR，时间戳），以便在PKL中进行进一步的排序和后处理...以便推送内容进一步，4Gb数据集（415M令牌）增加了3Gb过滤的狂热爱好者，成为7Gb数据集（862M令牌）。

实验技术很简单：我以相同的输入运行了3次网络。网络输出以粗体标记... 除了纯修饰性的内容外，我没有进行任何编辑，例如缺少空格（由于我对代码*的干预而将其省略了）。一般而言，这些实验重复了有关GPT-3的文章中所述的那些实验，我决定不以任何方式对此进行评论...;

实验＃1

>>>

您为自己倒了一杯酸果蔓汁，但随后却在其中添加了一茶匙的葡萄汁。他看起来不错。您尝试闻一下，但感冒得很重，所以没有闻到气味。你好渴因此，您喝加蜂蜜和糖的咖啡。

>>>新

您为自己倒了一杯酸果蔓汁，但是却心不在add地往其中加入一茶匙葡萄汁。他看起来不错。您尝试闻一下，但感冒得很重，所以没有闻到气味。你好渴因此，您可以再次倒咖啡。你真恶心没什么不对的，你也不知道怎么喝。您感觉很不好，但是没人关注您。

>>>新

您为自己倒了一杯酸果蔓汁，但是却心不在add地往其中加入一茶匙葡萄汁。他看起来不错。您尝试闻一下，但感冒得很重，所以没有闻到气味。你好渴因此，您可以根据需要继续进食，但您不知道它的外观。

实验2

>>>

您举办了一个小型聚会。您想在客厅里享用晚餐。饭桌比门口还宽，您必须喝一杯热牛奶才能将其移入客厅。

>>>新

您已组织了一个小型聚会。您想在客厅里享用晚餐。饭厅的桌子比门口宽，并采取了几步才能进入客厅。

>>>新

您举办了一个小型聚会。您想在客厅里享用晚餐。饭厅的桌子比门口还要宽，将它搬到客厅需要花费很多工作。

实验3

>>>

您是辩护律师，今天需要上法庭。早上穿衣服时，发现西装上的裤子很脏。但是，您的泳裤很干净而且非常时尚。这些是Isabelle送给您生日的法国高档游泳裤。您决定试穿什么衣服吗？

哦耶*

>>>新

您是辩护律师，今天需要上法庭。早上穿衣服时，发现西装上的裤子很脏。但是，您的泳裤很干净而且非常时尚。这些是Isabelle送给您生日礼物的法国高端泳裤。您决定试穿什么衣服。如果您不喜欢某些东西，请随身带上衣柜里的衣服。

>>>新

您是辩护律师，今天需要上法庭。早上穿衣服时，发现西装上的裤子很脏。但是，您的行李箱很干净，非常时尚。这些是Isabelle送给您生日的法国高档游泳裤。您决定试穿什么衣服吗？

-我有很多要问律师的问题。

实验＃4

>>>

昨天我把衣服留在干洗店里了，今天我仍然需要捡起它们。我的衣服在哪里？

-白痴，我需要让他回来，而不是按计划在那儿做任何事情。

>>>新

昨天我把衣服留给干洗店了，今天我仍然需要捡起它们。我的衣服在哪里？

-不，我不知道这些东西是什么，但是我可以随时拿走，但这并不总是那么愉快。

>>>新

昨天我把衣服留给干洗店了，今天我仍然需要捡起它们。我的衣服在哪

- 好的。我不会打扰他，”我回答。

实验5

>>>

珍妮特（Janet）和潘妮（Penny）去商店为杰克（Jack）买了礼物。珍妮特说：“我给杰克买顶上衣。” “不要买杰克的上衣，”潘妮说。“他有顶。当我们选择时，他会从我那儿得到的，如果您不购买杰克，您将出售杰克。

>>>新

珍妮特（Janet）和潘妮（Penny）去商店为杰克（Jack）买了礼物。珍妮特说：“我给杰克买顶上衣。” “不要买杰克的上衣，”潘妮说。“他有顶。他将从杰克那里得到他的作品。

>>>新

珍妮特（Janet）和潘妮（Penny）去商店为杰克（Jack）买了礼物。珍妮特说：“我给杰克买顶上衣。” “别买杰克的上衣，”潘妮说。“他有顶。他会收到的。我要买它。他一直在那里。而且我不会卖。只与杰克不同。他对什么让他不满意没有兴趣。除了自己买东西，他别无选择。

实验6

>>>

在聚会上，我给自己倒了一杯柠檬水，但是太酸了，所以我加了一些糖。手上没有汤匙，所以我用香烟搅动了饮料。但是事实证明这是一个非常糟糕的主意，因为我已经喝了很长时间了。哇，真是太好了！

>>>新

在聚会上，我给自己倒了一杯柠檬水，但是太酸了，所以我加了一些糖。手上没有汤匙，所以我用香烟搅动了饮料。但这真是个坏主意，因为柠檬水使我无法喝酒。

>>>新

在聚会上，我给自己倒了一杯柠檬水，但是太酸了，所以我加了一点糖。手上没有汤匙，所以我用香烟搅动了饮料。但是事实证明这是一个非常糟糕的主意，因为它太热了，所以我从喉咙开始喝酒。

实验＃7

>>>

, . – .

1. , . . , , . . .

) .

) .

: 2. )

*较小的抒情题外话。我不喜欢GPT-2具有无限的文本生成功能（一次半页），因为它在源代码中。而且我将输出削减到最低限度，但使递归继续成为可能（当先前的输出馈入输入时）。因此，我有点作弊，因为我自己决定何时/应该停止。在这种情况下，网络确实带来了可以稍微解释为答案的结果（尽管很矛盾），但是如果我们继续结论，那么……自己判断：

正确答案：

2. A）不需要了解其他所有内容。

3. B）依赖性。

4.您想在什么基础上喝呢？

>>>新

……

正确答案：这些是有毒物质。

>>>新

...的

正确答案是：“一切都准备好了。”

对于这个模拟游戏，仅此而已...

PS如果社区告诉您可以在哪里放置5Gb模型（以便可以在wget之类的工具中使用）-我将在文章中添加指向Colab笔记本的链接，任何希望能够实时运行系统的人...; ）然后，恐怕我的家“托管”将无法承受habr效应。同时，如果有人感兴趣，我可以尝试将您的文本作为输入发生的事情！

更新：社区由格里戈罗夫回应，所以这是承诺的记事本！现在您可以进行实验，将其与原始内容进行比较（帖子中的链接沙漠流来自OpenAI的GPT-2神经网络。快速入门），并可能得出一些结论。 ;）例如：语言教学时语言是否重要？

作者评论：嗨，

是的，我当然不介意-否则我不会在这里发布模型。

>>>教学语言模型时语言是否重要？

当然可以-我注意到带有少量参数的模型在俄语中的工作效果更差。我想这是由于俄语比英语更复杂（形式化程度较低）的语义所致。我在文章中写到了它。此外，俄语中采用的传递对话的方式（每个副本以新行开头并以破折号开头，但未指定这些副本属于谁）完全没有帮助模型正确识别对话的结构（并且使模型难以训练，因为该模型学会了构造任何文本，例如方式-当任何标记泄漏到训练数据中时，也会观察到相同的效果）。

我想念的另一点（对我来说似乎很明显）-如果您想对该模型进行微调，则需要使用该模型随附的句子词典（sp。*）。

同样，在训练1250M时，主要使用新闻，新闻和后来的虚构作品，这反映在结果的本质上。

PustobrёkhGPT-2：俄语版

实验＃1

实验2

实验3

实验＃4

实验5

实验6

实验＃7

More articles: