调查:匿名数据如何变得个人化和外包

一周前,他们再次打电话给我,并提出要在沙龙里买些新车,但我一直不确定。对于一个简单的问题,即呼叫者在哪里获得我的电话号码,我的姓名和名字,有一个直接的答案-我们从电话号码容量中随机选择了您的电话号码。我不相信这种解释,因此决定询问数据市场的运作方式,了解谁可以合并有关用户的信息,以及互联网垄断者如何轻松,熟练地绕过“个人数据法”(第152-FZ号)。



请仔细阅读有关谁在利用我的数据进行货币化,以及如何将其最终归结于我从未使用过的服务的公司的手中-银行,保险公司,医疗中心,房地产开发商和其他组织,这些组织打扰了广告客户。是的,这是一本长篇小说,随您喜欢。



我们美丽的国家在2020年的春季和初夏进行了自我隔离。除了业务上的财务负担明显增加,人们到处都戴着口罩并必须在家工作之外,这段时间清楚地表明了一些市场参与者对俄罗斯人的个人数据有多么容易和简单。



背景



媒体(TheBellRoem)的Tigran Oganesovich Khudaveryan接受了有关Yandex服务评估自我隔离指数的采访时,提示我写这篇文章



让我简短地提醒您什么是重点:几乎在宣布该政权“像全国不工作的日子”的同时,互联网巨头Yandex开始定期报告公民遵守自我隔离措施的情况。官员和媒体每天查阅此数据。尽管现在这个话题逐渐淡出人们的视野,但对此类数据主要来源的疑问却没有解决。



假设Yandex以前曾对用户持宽松态度-让我们至少记得通过应用程序进行监视的历史-可以合理地假设,使用具有地理位置的移动应用程序收集了在自我隔离期间公民当前位置的数据。就其本身而言,通过智能小工具进行监视的方法是显而易见的。例如,在首都,总的来说是一个公然的故事-尽管大量违反现行法律,但莫斯科DIT强迫人们与另一位类似的“同志少校”签署繁重的协议。



尽管在接受采访时,Yandex的常务董事表示:



“我们不参与任何此类活动。我承认这对我们来说是一个痛处,因为我们一直被怀疑参与了这种监视。但是我们在公司内部有自己的原则:在任何情况下,即使在困难的情况下,我们都不应违反Yandex自成立以来一直遵循的原则。”



-不相信它。记者没有问最重要的问题-Yandex根据什么数据形成了“机密”评级这很重要,因为没有免费访问的答案-互联网巨头根本没有透露其方法:







可以合理地假设“有关各种Yandex应用程序和服务使用的数据”一词意味着监视公民的流动。但是你们和我都不太可能直接同意这种监视。



数据市场如何运作



在90年代,他们出售带有CD的市场炸弹数据库。如今,您甚至可以更快地获取所需的联系人列表-您甚至不需要走到任何地方。



明显但非法的方式



您可以在社交网络或特殊的电报渠道中搜索其他人的数据,我不会提供公众的名字,我相信您会发现自己的名字。







一些更高级的公民的行为稍有不同-他们在网站上发布要约协议,据此,协议是从公共来源收集数据,甚至引用了似乎允许他们这样做的法律条款参考:







唯一的细微差别是Avito网站上的文档说,规则明确禁止自行解析avito.ru Internet网站的联系人数据库。



同样,在线数据库卖家从所有可能的来源收集信息... 坦率地说,所有这些方法都是非法的,因为它们违反了《关于个人数据的法律》(第152-FZ号)的规定。我100%确信,没有一个来自此类数据库的理智的人同意由此类公司通过Internet公开传播有关他本人的信息。



中间人攻击



通过有权访问客户群的企业员工泄漏信息的方式也很明显。让我们不要过多地关注这方面。



与此类人员打交道的唯一方法是访问控制,联系基础的有效设计以及信息安全人员开发的反欺诈机制的使用。顺便说一下,后者会定期抓捕“卖家”,并将其交给执法人员。



收集数据的微妙方式



面对现实,互联网公司已经变得完全无礼,并提出了一种免费处理用户数据的新方法。如今,这个市场中所有最大的参与者都收集了关于我们这些贫穷用户的档案,以至于詹姆斯·邦德,理查德·索尔格,马塔·哈里和奥斯丁·鲍尔斯共同羡慕他们。而且,没有用户授权互联网公司收取这种发票。



每个人都听过美国大选的故事,共和党的胜利是通过将广告定位到Google和Facebook用户来确保的。而且,这些公司与第三方组织Cambridge Analytics共享数据,后者构成了广告的“目标受众”。在中国也使用数据收集-现在流行的社交网络最近也变得闻名。使用Google规定甚至禁止的非法跟踪方法。



我必须说,俄罗斯Yandex密切监视外国同事的行为,并使用类似的方法-该公司隐藏在“非个人数据”屏幕的后面,正如我对非程序员的个人经验所表明的那样,即使坐在家里以适当的技巧坐在沙发上也可以将其解密。



去年12月,RBC刊登了一篇有趣的文章,其中介绍了Yandex和信贷历史局(BCH)的联合项目,目的是在互联网上传输有关用户行为的数据。正如该解决方案的作者所构想的那样,银行将能够从Yandex接收有关他们所需人员的其他信息,同时仅拥有客户的电子邮件地址和手机号码。



文章中一位未透露姓名的消息人士说,Yandex以散列形式接收数据,然后内部算法确定针对特定人员的特定评估,而该评估将返回给BCI。所有这些看起来都很好,但是有一个细微差别-本文包含法律和商业管理公司的执行合伙人Alexander Pakhomov的意见,他和我一样相信,执行此过程后,匿名数据将再次成为个人信息:







匿名数据如何成为个人信息



让我们尝试找出此服务“幕后”发生的事情。我必须马上说,我很难做到这一点,因为我经常享受着伟大而美丽的俄罗斯的风度,并且不花时间在Yandex现代化的莫斯科办公室的会议室开会。因此,我恳请您分享信息,并在我弄错或出现错误时纠正我。



步骤1.散列数据



让我们开始研究Yandex本身在“加密”,“散列”或“非个人”数据概念中的含义。公共服务Yandex.Audience将帮助我们解决这个问题



从其描述可以看出,该服务允许广告商联系其客户。此外,要实现此目标,您只需告诉Yandex一些客户标识符-电话号码或电子邮件地址。可以显式下载此数据,例如,以文本或表格文件的形式下载。您也可以-以非个人形式。为此,使用了MD5哈希算法。



然后该服务的工作方式如下:Yandex计算出一个特定用户,知道他的个人数据,并在各种Yandex服务和门户上向他显示定向的广告消息。



我们对MD5了解多少?
MD5 128- . , 128- , . 

. , — , .



MD5 1991 , 1993 . , . , «» MD5. 2008 .



步骤2.解密MD5哈希



从技术上讲,MD5破解可以通过以下四种方式之一进行:



  • 字典搜寻
  • 蛮力
  • 彩虹裂缝
  • 哈希函数冲突


显然,最快,最简单的选择是使用Rainbow表。实际上,要实现此方法,您只需要了解哈希值并根据特定条件创建表即可。



彩虹桌如何运作
, , . , , , — 9. , 11.



. :







, - . 83910123456. MD5 — fba55dd11f758ab4f03fad3c5f19ba75.



, … , — Plaintext!







, , . , — , , .



«» — , . .



步骤3.数据比较



毫无疑问,Yandex以加密形式存储数据。相对而言,搜索引擎具有每个注册用户的个人资料,除其他外,其中指示了他的电子邮件地址和电话号码。可以轻松地对此类数据进行哈希处理,并在必要时(如上文所述)进行哈希处理。



此外,在从广告商那里以任何形式接收到联系人列表之后,Yandex并不难将其与包含相同标识符的内部数据库进行比较。简而言之,Yandex将其用户资料中的标识符进行交叉匹配,以匹配请求的广告客户数据。当进入特定Yandex服务的页面时,这可以将广告定向显示给特定用户。



用户的唯一标识



按照这种方案工作时,毫无疑问会进行任何非个人数据交换。各方在提供服务的过程中唯一标识特定用户。对于征信机构,根据评论和描述,可以采用完全相同的方案。显然,Yandex使用的解决方案可疑地类似于Crypt平台



但是,Yandex从未公开宣布过将这种配置文件与用户的手机号码或电子邮件进行匹配的可能性。但是,正如我们从媒体了解到的那样,Yandex至少在与联合信用局合作时才这样做。



因为一切都已经浮出水面,为什么不诚实地告诉您的客户呢?相反,Yandex的发言人害羞地谈论缺乏“个人信息”,并援引了俄罗斯联邦立法中缺少的其他虚构术语,从而绕过了一些流通和保护公民数据的问题。



一点练习:Yandex,我发现您违反了152-FZ!



Yandex单独散列吗?我不能明确地回答这个问题,毕竟,我不在这家公司工作,也不了解内部工作原理。但是,我可以做两个假设:



  • Yandex的服务器功能使您可以快速去除未加盐的MD5哈希值;
  • 要使用盐腌哈希,双方都需要知道盐。


显然,在广告客户服务的情况下,将使用无盐哈希。否则,广告客户的界面将必须具有用于指定盐的字段。而且他不在那里!让我们仔细看一下Yandex.Audience描述中的屏幕截图受众群体:请







注意“哈希数据”复选框旁边的问号。让我们转到服务本身,然后将鼠标悬停在这个问题上。







我们看到三个哈希:a31259d185ad013e0a663437c60b5d078ee6d68f49d2c90397d9fbffc3814d1702e8494aeb560dff987e623e71bccf8。此外,第一个显然缺少什么:只有31个字符,但应该有32个!因此,我们将立即丢弃此哈希。



我也无法通过先前创建的Rainbow表解密后两个哈希。但是我决定尝试强行迫使他们。为此,我需要从以太坊采矿中重新配置6个GeForce GTX1060类视频卡的采矿场,以与hashcat程序一起使用







我告诉程序以11位数字的掩码进行搜索(请参见屏幕快照中的顶部箭头)。结果,我的普通农场仅用22秒就消除了其中一个哈希中的电话号码。试想一下,您可以在Yandex设施上以多快的速度强行哈希!



现在,让我们确定谁拥有此号码,只需通过Numbuster移动应用程序将其打孔即可







现在,我们进入搜索引擎,很快就可以获取所需的所有信息:







Checkdex和Checkmate,Yandex,这要归功于您自己网站上的公开信息,我只是在几次点击中就找到了为您提供服务的人!不用说,现在正在阅读本文的任何人都可以轻松地重复执行相同的操作吗?你为什么要对雅罗斯拉夫这样做?



每个用户的个人资料中可以包含哪些数据



要使用Yandex服务,您必须提供您的手机和电子邮件号码。 Yandex通过其应用程序和服务几乎了解我的所有信息:从我访问的站点(Yandex.Metrica所在的位置,并且Runet上有超过54%的位置)到我在应用程序中指示的电话号码。他知道我从Yandex.Go superappa出发的路线,我的疾病,我的音乐爱好。 Yandex知道我要去哪些剧院,看哪部电影,在商店购买哪些商品以及订购哪种食物。



该 信息据该公司称,“主要用于满足自己的需求,并根据客户的偏好知识投放有针对性的广告。”这里的关键是“大部分”。以前,人们认为Yandex是一家创新公司,可以为用户提供免费服务,并通过在互联网上投放广告来赚钱。但是,正如我们从媒体中了解到的那样,现在Yandex至少通过信用历史记录局出售数据-我将在下面显示数据传输机制本身的工作。可以合理地假设会有很多人想从互联网巨头那里购买有关电话号码和电子邮件地址的有关用户的信息。



换句话说,现在银行,保险和法律公司,医疗中心,开发人员可以获取访问某个站点或搜索某种产品的人员的人数,并称其为广告目的。或拒绝签发保险或银行贷款。



征信局向谁出售数据?



您无需成为特殊的分析师就可以了解CRI不仅可以为银行合并有关特定人员的数据。在Yandex所使用的结构的网站上,您可以看到,除了银行计分外,客户还可以使用其他服务:



服务“触发局”



有关您在触发方式下的操作的信息将传输到银行和保险公司:请







注意此服务的逻辑-您一直在监视客户的电话号码,一旦他们采取您感兴趣的任何操作,您就会收到有关此操作的通知。 ...在这种情况下,不会传输有关客户端特定操作的数据。有针对性的行动的事实-提交或签发汽车保险单,订购出租车等。



方便吧?尤其是从解释位置的角度来看“客户数据不会在Yandex中传输和处理”?毕竟,可以通过简单地传递一个散列的手机号码来报告有关访问特定网站的操作信息,而无需任何有关访问该网站的数据。我上面提到的哈希可以很容易地与用户群的哈希进行比较。为简单起见,您甚至可以获取俄罗斯所有可能的移动电话号码组合的数据库-可以在联邦通讯局的网站上找到



同样,事实证明,就Yandex而言,“加密”,“散列”,“去个性化”数据并非如此。当然,Yandex所描述的方案不会在信用局所考虑的服务框架内干扰出售这些数据,这可能是我手机收到垃圾邮件的源头。







保险公司已经从Yandex映射服务及其杰作Yandex.Go superapp获得了数据访问权,可以确定:



  • 我生活和工作的地方;
  • 我乘汽车旅行的频率;
  • 我走什么路线;
  • 我开车多快;
  • 我的驾驶风格是什么-我会急速,鲁re地刹车或平稳行驶。


这不是猜测,而是由于引入了欧洲关于保护公民数据的立法,即所谓的GDPR,Yandex收集这些数据的事实于2019年成为事实。根据它,任何公司都有义务向欧盟公民提供有关其收集和分析的数据的信息。Meduza



版的记者利用了GDPR法该法要求立陶宛提供有关一名雇员的数据。



Meduza的文章说,该记者从Yandex员工那里获得了档案,其中除其他外,还包含有关整个运动历史的档案。在智能手机上启动应用程序时(包括在后台)跟踪信息。记者称这为“在iPhone上启动Maps应用程序的历史,其中包含发生位置的确切坐标”(文件traffic_sessions.csv)。



有趣的是,Yandex并未向俄罗斯联邦公民提供此类信息。而且,到目前为止,Yandex甚至还没有提供一种服务,该服务将使了解谁以及何时请求有关用户的累积数据成为可能。甚至Facebook也提供了这样的服务-用户自己可以请求和查看有关他自己的所有信息。



Yandex会准确收集哪些个人信息?



让我们参考Yandex网站上的法律文件从第4点开始,我们了解到互联网巨头在使用Yandex网站和服务时可以收集以下类别的用户个人信息:



  • 个人信息:姓名,电话号码,地址和年龄;
  • 电子数据(HTTP标头,IP地址,Cookie,Web信标/像素标签,浏览器ID数据,硬件和软件信息);
  • 访问网站和/或服务的日期和时间;
  • 有关用户在使用网站和/或服务时的活动的信息:搜索查询的历史记录;与用户通讯的那些人的电子邮件地址;电子邮件内容和附件,以及存储在Yandex系统中的文件;
  • ;
  • , , ;
  • , — .


?



这个问题的答案可以在同一文档中找到,我们仔细看一下第5点。除了明确的目的外,例如:



向用户提供搜索查询的搜索结果;

遵守法律规定的义务;

为了更好地了解用户与网站和服务的交互方式,



Yandex单独指出,为了向您提供Yandex或我们认为您可能会感兴趣的其他公司的其他产品和服务,有必要收集个人数据(“ c“第5款)。



但是,“关于个人数据”(第152-FZ号)法律属于绝对类别:第15条规定:“只有在事先征得个人数据主体同意的情况下,才能通过与潜在消费者进行直接联系来处理个人数据,以在市场上推广商品,作品,服务。” 在用户方面,监管机构是FAS,Rospotrebnadzor和Roskomnadzor。



同时,这家互联网巨头将其带有非个人化的个人标识符的数据库自由转移到其他公司的数据库中。Yandex已在其自己的隐私权政策令人印象深刻的文字中以不显眼的方式确保了“共享”的权利。



而不是结论



都合法吗?毕竟,我没有赋予Yandex权利向任何人透露有关我的信息。我知道的律师说,互联网数据和互联网标识符是我们立法中的“灰色”字段,因此,不可能让Yandex对有关您的此类数据的销售负责。



Yandex在我的数据上赚钱是多么公平,而没有向我确切说明这是怎么发生的以及由于收入的形成,因为长期以来,这不仅是臭名昭著的熨斗广告,在寻找“熨斗”之后,它在所有网站上追赶了您2个星期...这直接影响到我的生活质量以及社会服务和服务(例如贷款,保险,医疗服务)的可用性。



同意,基于关于我在互联网上的行为的信息对我作为借款人或保单持有人的评估也发生在“黑暗中”,并且仅依赖于隐蔽的条款并隐藏在地下室中的要约-看起来绝对不道德且不透明。这很烦人。



尽管有GDPR规定以及俄罗斯使用公民个人数据的法律越来越严格,这家互联网巨头仍在继续通过我们的信息获利,并通过其服务绝对公开地监控我们的所有行为。甚至隐藏了在社会上重要的话题,就是要向民众和当局告知遵守隔离制度,例如在冠状病毒中。出现一个合理的问题-除了Yandex及其商业客户之外,还有谁使用我们的数据?



All Articles