去年年底,当我们重新设计深度学习课程以使其在实际业务实践中更具可视性和案例导向性时,我们在Yandex.Toloka人群平台上添加了一个新的数据标记模块。
但是由于众包并不是标记的唯一方法,因此我们为课程的新学员准备了Lionbridge博客的本文翻译,并概述了数据标记的主要方法。我们希望您也觉得它有用。
机器学习项目的质量直接取决于您如何解决3个主要任务的解决方案:数据收集,预处理和标记。
标记通常是一个复杂且耗时的过程。例如,图像识别系统通常涉及在对象周围绘制边界框,而产品推荐系统和情感分析系统可能需要了解文化背景。也不要忘记数据数组可以包含数以万计的需要标记的样本。
因此,创建机器学习项目的方法将取决于任务的复杂性,项目的范围和实施时间表。考虑到这些因素,我们确定了5种主要的数据标记方法,并为每种方法提供了论据。
标记数据以进行机器学习的各种方法分为以下几类:
内部:顾名思义,这是关于我们自己的分析师团队的数据标记。这种方法具有许多明显的优点:该过程易于控制,您可以对工作的准确性和质量充满信心。但是,此方法最有可能仅适用于拥有自己的数据分析人员的大型公司。
: , . ., . , , . , ; , . , , .
: – . - , . , , . , , .
: , , . - (GAN). GAN ( ), . - . GAN . . , , , .
« »: . , , . , , , . , , .
:
| ||
In-house |
|
|
|
|
, |
|
| |
, |
|
|
|
|
|
|
|
|
. : , , , . .
-------------
Deep Learning 6.0 Newprolab 9 .
- Deep Learning 7.0 - c 30 22 2021 .