校准机器学习模型之前的清单

从理论上讲,模型的操作通常看起来简单而整洁,但是当您获得一组真实数据以及计算它们的任务时,它可能会引起混乱。我们提供了来自Lamoda的前团队主管分析和在线课程“数据科学数学”负责人Peter Lukyanchenko的7条有用的技巧高级水平“










你好!这是Pyotr Lukyanchenko(彼得·帕夫洛维奇)。我的清单是经过多年颠簸和错误发展而来的思想汇编。



1.问题陈述



始终仔细检查您要计算的问题。你会怎样做?要分类什么?计算?对任务的清楚了解将决定您的下一步行动。



2.数据(垃圾输入=垃圾输出)



始终确保数据中没有重复项。短语“垃圾填埋=垃圾填埋”表示如果以某种方式收集数据,那么结果将以某种方式出现。顺便说一句,这就是为什么有一个单独的数据工程师专业的原因-专家们经常辛苦工作,只是清除令人讨厌的数据。他们知道如何识别其中的异常值偏差,将其消除并进行校正,以便以后的分析人员可以使用高质量的数据集。



3.主题领域



始终了解要在其中构建回归的主题领域。这将有助于检验关于现实性的假设。基于这种理解,您将避免浪费时间来计算“冰川融化的速度如何影响澳大利亚兔子种群的增长”系列中的愚蠢回归。



4.模型逻辑



没有逻辑就无法工作。了解模型的逻辑,在这种关系中是否存在逻辑非常重要。在这种情况下,获得的结果甚至可能是高质量的,但同时无法解释。因此,如果似乎没有逻辑,则最好不要计算回归,因为在这种情况下,结果将证明是愚蠢的,这将导致新的错误决策。



5.测试指标比培训指标更重要



当我们训练回归时,我们使用度量来训练。这是MSE指标或替代指标。当我们计算了许多回归后,便可以将它们相互比较。R平方度量已在此处使用。



回归训练指标和回归评估(测试)指标是两个不同的指标。如果一个模型学得很好,那并不意味着它将得到很好的测试。必须仔细,正确地选择每个指标。



6回归越简单,效果越好



而且回归越困难,出现问题的可能性就越大。



7.现在比一个小时的完美回归要好。



如果您提出了一个好的回归解决方案,那么最好就此停下来。不要尝试做完美,超精确的事情。有时尝试改善实际上会恶化。是的,我想实现100个预测,但是在现实生活中,没有100%的质量。甚至Kaggle上的最佳质量指标也是96-98%。



现在,在模型校准中,有大量的体力劳动需要专家的某些技能。是的,我们都在努力实现自动机器学习,即Python自动选择最佳模型。但是到目前为止,这是无法实现的状态,并且如果不了解数学仪器,就不可能选择正确的模型。想象一下,您得到一个类似于下图的时间序列,并且询问您“请预测...”。







在这样的日期集上,您可以构建大量不同的回归,每个回归将给出自己的预测。这是如何选择最佳预测,如何识别数据中的异常值以及我们在数据科学数学高级课程中经历的许多其他实际事情的方法



因此,如果您已经在工作或将要进入数据科学领域,但是您知道数学在“通过了研究所的学习”这一级别,那么您将获得所有缺少的技能。



您可以在作者Peter的电报频道中找到更多有用的信息






阅读更多:






All Articles