👷🏼 ↪️ 🧛🏼 当您的数据不干净时 👸🏿 🎶 ♣️

下面的故事很好地说明了AI如何对我们要解决的问题有错误的认识：

图宾根大学的研究人员训练了神经网络来识别图像，然后要求指出图像的哪些部分对于做出决定最重要。当他们要求神经网络隔离鱼类（鱼类）类别中最重要的像素时，它突出显示了这一点：

绿色背景上的粉红色人类手指。

在绿色背景上的人的手指！

为什么她不得不寻找鱼时为什么要在照片中寻找手指？事实证明，数据集中的大多数丁字图像是拿着鱼作为奖杯的人的图像。她没有任何关于context到底是什么的上下文，因此她假设手指是鱼的一部分。在同一个ImageNet数据集上训练了

在ArtBreeder（BigGAN）中生成图像的神经网络，当您要求它生成一条线时，它的功能也相同：

四个图像是白人，拿着绿色的东西，有斑点。在某些图像中，绿色的物体具有更腥的纹理，但是没有明显的头部和尾部。这只是一条大鱼。下鳍与许多粉红色的人类手指错综复杂地融合在一起

人比鱼要清晰得多，我对高度夸张的人的手指着迷。

ImageNet上还有其他类别的类似问题。这是麦克风。

有非常黑暗的背景的四个图象。左上方的形状类似于带有蓬松声音挡板或灰色人发制成的头的麦克风。其他人看起来像人。

神经网络已经认识到场景和人的形态形成了鲜明的对比，但是许多图像中没有任何类似于麦克风的东西。在许多培训工具包照片中，麦克风只是图像的一小部分，很容易被忽略。小乐器，例如“长笛”和“双簧管”，也会出现类似的问题。

在其他情况下，有证据表明照片贴错了标签。在这些生成的“橄榄球头盔”图像中，一些清晰地描绘了未戴头盔的人，而另一些看起来却像棒球头盔。

生成四个图像。前两个人都没有戴橄榄球头盔（尽管他们的头发可能有点奇怪；很难说，因为其他人也很奇怪）。在左下角，一个男人戴着看起来像金属棒球的头盔。右下...右下-橄榄球头盔与露齿卡通鱼交叉

ImageNet是一个非常混乱的数据集。他的类别是蜥蜴，但长颈鹿则没有。栗色（马的特定颜色）代替了马的类别。两人自行车是一类，但滑板不是。

四个图像显然是某种多轮自行车物体。轮辐可能会弯曲，但轮辐会出现奇怪的断裂，有时会变得松动。有些人看起来像骑手，但是很难将它们与自行车分开

，ImageNet污染的主要原因是数据库自动收集在Internet上。这些图像本来应该由众包标签的工人过滤掉的，但是有很多怪异的东西泄漏出去了。而且非常大在一般的研究数据集中绝对不应该出现的图像和标签的数量，以及看起来未经未经图示人员同意而到达那里的图像。据报道，经过AI社区多年的广泛使用，ImageNet团队删除了其中的一些内容。其他有问题的数据集，例如未经许可从在线图像或监视镜头收集的数据集，最近也已被删除（其他数据集，如Clearview AI，仍在使用中）。

Vinay Prabhu和Ababa Birhane指出了本周另一个数据集的严重问题，即8000万个Tiny Images...该系统裁剪出图像并使用在互联网文本上受过训练的另一个神经网络自动标记它们。您可能会感到震惊，但是Internet文本中有些令人反感的东西。 MIT CSAIL永久删除了此数据集，选择不手动过滤所有8000万张图像。

这不仅是不良数据的问题，还在于一个大型研究小组可以发布数据集的系统，这些数据集存在诸如冒犯性语言和不愿拍照的巨大问题。正如技术伦理学家Shannon Vallor所说：“对于今天进行机器学习的任何机构来说，'我们都不知道'不是借口，而是承认。”喜欢ImageNet是将奥巴马提升为白人的算法，它是机器学习社区的一个产品，该社区缺乏多样性（您是否注意到此博客上大多数生成的人都是白人？如果您没有注意到，这可能是由于西方文化的一部分将白色作为默认颜色）。

创建最佳数据集需要花费大量工作-并且更好地知道不应创建哪些数据集。但是这项工作是值得做的。

也可以看看：

«数据科学技能：CAE在Python上签名»

“设计关键算法：实现”

“机器学习项目清单”

当您的数据不干净时

More articles: