🕐 🙍🏼 🧖 世界上最伟大的人对黄道十二宫的评价 🤽🏼 💾 🌫️

一旦我们考虑过十二生肖在伟大人物中的排名。我们已完成任务，并将结果呈现给您判断。

悲痛的是，我注意到天秤座（这就是我！）排在最后。不知何故小天秤座！

第1部分。解析和获取初始数据

Wikipedia

在输出列表列表中，您需要一个带有全名+出生日期+（如果还有其他符号-例如，m / f，国家/地区等）的基础，则有一个API。

事实证明，该站点使用Python Scrapy库进行了抓取（收获/接收/提取（提取）/收集从Web资源获取的数据）站点。首先获得

详细的说明

链接（来自Wikipedia的人的工作表，然后是数据）。

在其他情况下，他们像这样成功解析。

结果：BD文件wiki.zip

第2部分。关于预处理（作者：斯坦尼斯拉夫·科斯滕科夫-以下联系方式）

许多人面临着处理输入数据的复杂性。因此，在此任务中，有必要从42,000多篇文章中提取出生数据，并在可能的情况下确定出生国家。一方面，这是一个简单的算法任务，另一方面，Excel＆BI系统的工具不允许“直接”完成它。

这时，编程语言（Python，R）得以解救，大多数BI系统都提供了这种语言的启动。值得注意的是，例如，在Power BI中，在Python中执行脚本（程序）的时间限制为30分钟。因此，在启动BI系统之前，例如在数据湖中，已经进行了许多“繁重的”处理。

问题如何解决

加载并检查无效值后，我要做的第一件事是将每篇文章变成单词列表。

在这项任务中，我很幸运能使用英语。这种语言的特点是句子结构刻板，极大地方便了搜索出生日期。此处的关键字是“ born”，然后查找并分析其后的内容。

另一方面，所有文章均取自一个来源，这也使任务更加容易。所有文章的结构和速度都大致相同。

此外，所有年份均为4个字符，所有日期均为1-2个字符，而月份则为文字。出生日期的拼写只有3-4种可能的变化，这可以通过简单的逻辑解决。也可以通过正则表达式进行解析。

实际代码未优化（未设置此类任务，可能变量名称中存在缺陷）。

正如该国所预测的，我很幸运地找到了国家和国籍的往来表。通常，文章不是描述国家，而是描述国家。例如，俄罗斯-俄语。因此，我们搜索了国籍的出现，但是由于一篇文章中可能有5个以上的不同国籍，因此我做出了一个假设，即所需单词将最接近关键字“ burn”。因此，标准是-文章中必要单词之间的最小索引距离。然后在一行中将其从国籍重命名为国家。

什么都没做

在文章中，很多单词都有垃圾，也就是说，某些代码片段与单词相连，或者两个单词合并在一起。因此，未检查以此类词找到期望值的可能性。您可以使用相似性算法清除这些单词。

没有分析“ burn”关键字所属的实体。在几个例子中，关键字与亲戚的出生有关。这些例子可以忽略不计。这些示例可以追溯到关键字距本文开头很远的事实。您可以计算找到关键字的百分位数并确定剪切标准。

清理数据时预处理的有用性

在常见的情况下，我们可以确切地猜出应该用什么来代替差距。但是，在某些情况下，例如，存在基于商店买方性别的遗漏，并且存在有关其购买行为的数据。在BI系统中，没有解决此问题的标准技术，但是与此同时，在预处理级别，您可以创建“轻型”模型并查看用于填补空白的各种选项。有基于简单机器学习算法的填充选项。值得使用。不难

源代码（Python）可在链接

结果中找到：文件out_data_fin.xls

Stanislav Kostenkov / CBS Consulting（俄罗斯伊热夫斯克）staskostenkov@gmail.com

第3部分。Qlik Sense应用程序

然后制作了一个经典应用程序，其中揭示了数据集的一些异常情况：

从1920年至1980年只选择几十年才有意义；
根据星座的迹象，在不同的国家有不同的领导人。
前兆：巨蟹座，白羊座，双子座，金牛座，摩Cap座。

所有数据（Qlik Sense应用程序接收到的用于数据分析的数据集，原始数据）均通过引用定位。

世界上最伟大的人对黄道十二宫的评价