分析:元游戏评分

你好,哈布尔世界



在本文中,我想分享我收集和分析Metacritic.com网站游戏基础的经验,告诉您发生了什么以及计划中还有哪些内容。我希望该材料能找到读者,并且可能的反馈意见将指出缺陷和进一步分析的潜在方向。



背景



这个春季和夏季,我们当中的许多人每天都有一些空闲时间可供我们使用-在家工作,业务低迷以及其他大家都知道的原因。我决定充分利用我的空闲时间-收紧我上大学以来从未使用过的R,并同时练习实际数据(对于没有实际项目的证书来说,这毫无用处)。



我为什么选择这个特殊的基地?因为我喜欢游戏。而且,因为在6月,游戏《最后的我们》引起丑闻。第二部分获得了几乎完全的一致好评,游戏社区的某些成员对此极为反感。



我有兴趣找到以下几个问题的答案:



  1. 媒体和球员的收视率如何匹配?
  2. a)新闻评估是否有重大动态?b)选手的评估;c)估计差异?


我开始寻找答案。



第一次尝试。相对成功



我决定在metacrtitic.com上寻找答案-这是一个大型网站,可以汇总游戏出版物的评分,并使用户可以对游戏(不仅是游戏)进行评分(重要说明:要对游戏进行评分,根本无需确认其所有权)。看来任务很简单:“解析批判者,用手摸索基础!”



说到做到。对于哈伯的读者来说,这可能不是什么秘密:今天,要编写有效的代码(!= Good),根本不必成为程序员。至少,我完全相信这一点,可以解决我的问题。



装备了Google,stackoverflow和在DataCamp上可以学到的信息,一天之内,我收集了一个约1.6万行的数据库,我在每一个帖子中保存了姓名,平台,用户评分,评论者的评分和发布日期,并立即构建了两个图形,然后将其发布在俄罗斯平台之一上,用于游戏和近战主题。



初步结果
image





图形后面没有可理解的分析-只是对观察到的效果的仔细描述。但是,社区热烈地接受了可视化(有人甚至提出了这个想法,随后又推出了一个神经网络来生成游戏评论),这激励着人们不要半途而废并继续挖掘数据库。



第二次尝试。有趣才刚刚开始



我相信对于Habr读者来说,这不是秘密:自大是不好的事,编写有效的代码(!= Good)并非易事,无论stackoverflow有多么有用,Google和指南都是“在Internet上解析页面很容易,您只需要…”



我在6月24日至25日发布了第一个结果图,第二周,除了收集更多信息之外,我几乎没有其他考虑。



但是,我编写的代码表现得很糟糕。是他:



  1. 工作缓慢(这很明显);
  2. 我收集了一些记录的重复项,而完全忽略了其他记录(这并不明显,因为在编译了带有游戏的页面链接的基础之后,我从记录中清除了重复项,当行数达到数万时,如果您错过了某些内容,就无法确定地说了) ...


最后,《我们的末日》帮助找到了第二个问题。第2部分,我在编译的数据库中找不到该部分-经过几次迭代,我设法提出了一个可以正常工作的代码。



对于任何一个通过编程赚钱的人来说,第一个问题的解决方案似乎都是微不足道的-但我不是其中的一个,因此我建议您对我开怀大笑(坦率地说,这是真正的“啊哈!”时刻,尽管问题本身只是荒谬的)。



历史记录没有保存代码,但是我仍然有一个屏幕截图-您可以在剧透状态下对其进行评估(请注意,可能会遭受西班牙耻辱的攻击)。



你被警告了




最终,两个问题都解决了。解析器代码发布在GitHub上我敢肯定其中仍有很多争议,但现在看来似乎可行(这肯定会增加我的PSI积分)。



门诊卡或Metacritic.com数据库的描述



包含需要解析的游戏的页面的最终列表在7月1日进行了汇总,其中包括96,719个条目-指向Metacritic.com上游戏页面的链接(我从字母索引中收集了每个可用平台的链接库,因此,同一款游戏可以在每个平台的数据库中找到;公平起见,应该注意,在这些情况下,估算值也是独立的)。



> length(all_platforms)
[96719]


这很有趣:实际上,该数据库中有96,718条适合工作的记录。Metacritic在PC的字母列表中存储了一个名为***的游戏(是的,这是三个星号-否,这不是审查制度),但是链接在此该列表指向PC游戏页面,而不是现有的游戏页面。我“手动”添加它没有多大意义-游戏既没有用户评分也没有批评。因此,分析实际上没有任何好处(当然考虑到数据库的大小)。



在剩余的96,718行中,有213个链接指向404页或“宣誓”,出现500个服务器错误-在收集和更新数据库时将跳过这些页。



> length(all_platforms) - nrow(base_df)
[1] 213


这些游戏如何按平台划分?让我们看一下顶部:







就游戏数量而言,PC应该排在第一位,然后(对我而言)出乎意料的是,iOS紧随其后,超过了当前一代的所有游戏机。另外,即使没有逐年细分的情况,也可以看出游戏的数量随着后代的增加而增加。



让我们按发布时间看游戏的数量-按游戏发布的年,半年和月计算:







与2018年相比,2019年的亏损明显可见-也许Metacritic数据库仍将得到补充,但到目前为止差异非常明显。看看2020年的结果将会很有趣。



除了预计游戏数量将逐年增加之外,很明显,下半年更受欢迎-清楚地了解了新年假期游戏的发布策略(或者确切地说,发布带有一定的“滞后性”)-在10月至11月发布,以便游戏有时间收集新闻和建议)。关于基于元数据的这种策略的成功是不可能说的-您需要查看销售数据,但是发布者的这种一致行为使您相信它的有效性。

在上半年,没有如此明显的高峰-毕竟,圣诞节/新年假期是世界上最普遍的庆祝活动,显然与礼物有关。



挺有趣的:在元数据库中,只有18个游戏没有完整的发布日期。其中17款是在PC上玩的游戏,另一款是在Wii U上玩的游戏。其中有4款表示年份,另一款的状态为“ TBA 2011”,其余的-TBA或TBA-抢先体验。对于如此令人印象深刻的基地来说还不错!

在其余的96,505个条目中,有25,943个(26.9%)具有评论家,29,129个(30.2%)具有用户评级,以及20,739个(21.5%)游戏均具有评论。

: 1/5 metacrtitic.com , . , 20 – , . , metacritic.com ( metacritic.com, , ). , (, ), . , , – metascore, .
有关参赛人数,额定游戏百分比的信息(灰色标签,平台名称和条形之间带有数字,并且还会用彩色填充显示),以图形表示形式。







我也很感兴趣看到每个平台上的独家产品份额。 PC和iOS再次成为领导者-PC显然是由于平台的特殊性(开发人员不欠平台持有者任何东西-因为平台持有者在意义上类似于控制台,根本不存在);和iOS,这是因为移动游戏是一个完全独立的世界,仅与经典游戏部分相交(至少在平台上发行的游戏中是这样)。此外,可以清楚地看到,新一代游戏机上出现了更多的跨平台游戏-尽管任天堂在这里脱颖而出,任天堂也拥有许多便携式游戏机,并拥有自己的专属系列。请注意,即将淘汰的下一代主要游戏机-PS4和Xbox One,在此列表中,显示几乎相同的结果-分别占独家广告的12%和11%。但是,重要的是要调整平台上发布的游戏数量-在这个指标上,索尼的游戏机领先于微软的竞争对手-因此,独家游戏的绝对数量更大。但总体而言,该政策具有可比性-除了来自Redmond的公司在仅适用于其平台的游戏的营销支持上花费较少的时间。







下图是评分分布的图表(用户评分降低到100分制)-不能说评分没有差异,但是两者之间的差异非常接近。







为了得出关于分数差异的明确结论,我们将平均分数与配对t检验进行了比较(因为我们正在比较同一对象的两个特征的平均值)。另外,我注意到给定的平均值由游戏等级数加权。预期结果-考虑到数据库的大小-预期会有很大的不同:



> t.test(x = both_scores$UserScore * 10,
       y = both_scores$MetaScore,  
       paired = TRUE)
	Paired t-test

data:  both_scores$UserScore * 10 and both_scores$MetaScore
t = -17.603, df = 20738, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -1.823471 -1.458075
sample estimates:
mean of the differences 
              -1.640773


在这个阶段,有两个结论表明了自己:



  1. 评估的分配,不管其来源如何,都向右移动,十分制的比例非常有限-游戏的评估倾向于比例的上半部分。
  2. 用户和评论家倾向于对游戏进行不同的评分-平均而言,用户得分在100分制下比MetaScore低1.6〜(然而,对于这些评级的消费者之一而言,这可能是微小的差异-玩家试图在购买前对游戏有所了解)。


下一步是什么?让我们一直走。



绝命毒师



首先,我想全面了解直方图。







在图中可以看到一些有趣的事情。一些估计显然比邻近的估计更普遍。用“舍入”数字可以完全理解-40、50、70点在用户中很受欢迎。该图清楚地表明,该游戏不太可能获得79分的得分-如果达到该值,那么对于专业撰写评论的人或只是分享自己观点的人来说,丢掉一个额外的游戏是可惜的。但是,如果您不能以任何方式拉它,那么游戏很可能会降低1分的等级-因此,以8或3结尾的积分的峰值。每个人都喜欢漂亮的数字!



该程序的进一步内容-从2001年开始,每年分别进行估计值分布的直方图(坦率地说,我受到可视化效果之美的引导,而不是任何其他原因)。在这里,我们看到了平均用户评分的惊人旅程,从2001年的83分激增到2020年的47分令人震惊-我们将返回到后者,但是现在,请记住,在收集基础时,已经过去了半年,有些游戏尚未发布。在这种背景下,评论家的评分看起来非常稳定,从2007年的70分到2020年的75分(尚未结束)。







平台呢?在这里,您可以清楚地看到评论家的最爱-这些游戏是在Nintendo 64上发布的(不过我要提醒您,在数据库中只有94种游戏(根据这两个来源的估算))和... iOS,非常奇怪。玩家的同情又回到了复古的一面-只需将PlayStation上令人印象深刻的平均86分与PS4游戏中微不足道的66分相提并论! Xbox系列中也看到了类似的动态。另外,Nintendo Switch和Xbox 360显示出评论家和用户之间的惊人协议。







较老的游戏获得较高用户评分的原因可能是出于心理层面的考虑-我的假设是,人们给他们评分是几年,甚至可能是发布后的几十年,他们评估他们对游戏的回忆和快乐的童年而不是游戏本身。但是,为了确认或反驳这一假设,必须为每个用户调查获取元数据-现有的推断基础还不够。



让我们回到按年分析。







再次-但更清楚地-我们可以观察到评论家评分的稳定性以及平均用户评分的持续下降-到2020年将达到47分。直观上,估计之间的相关性似乎应该降低-值得看一下具有相关性的图。







灰线表示数据库中所有观测值(包括2000年之前发行的游戏)的一般相关性。乍一看,对即将过去的十年中发布的游戏的评价越来越远,而批评家和玩家的意见则越来越多。



但是,我们在2020年的平均玩家评分仍然异常低。在继续之前,您需要处理它。



让我们为用户评论和评论家评论的数量绘制散点图。我故意没有使评分等级与对数球员的数量成对数,这样可以更好地读取两个极端的异常值。







请注意用户评论数量最多的两点-《魔兽争霸3:重制版》和《我们最后的角色:第二部分》。这两款游戏的平均用户评分都较低(与排名较低的前10名邻居相比,它们的评分较低)。评估次数本身就是计算该年平均成绩的系数-因此,它们都大大低估了平均成绩。以下是提到的前十名-碰巧这两个游戏都是在2020年发布的。







这两款游戏显然都是所谓的“评论炸弹”的受害者-尽管《魔兽争霸3:重制》在原则上对包括评论家在内的整个社区都非常失望。但是通过继续谈论玩家评分与评论家之间的联系来清除评分过高或过低的评分是不明智的。如果仅将这两个游戏排除在外怎么办?好吧,2020年的平均用户评分将显着提高。但是,对相关系数的影响实际上是不明显的-与平均值不同,在计算游戏时未考虑游戏的“重量”。











如果我们从分析中排除评分过多的所有游戏怎么办?多少太大?让我们仔细看一下变量:



> summary(both_scores$UserReviews)
    Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
     4.0     11.0     25.0    144.2     75.0 104424.0


查找异常值的经典标准之一是四分之一四分之一间距的阈值。在我们的情况下-(75-11)* 1.5 = 96(必须将其加到第三个四分位数的值中)。没有“自下而上”的排放-至少有4条评论时设置用户得分,但从上方开始,我们摆脱了2768个游戏,留下了17 971个条目。











我们可以再次观察到2011年之后的平均用户评分低于70,并且自2017年以来相关性逐渐下降-但是,值得注意的是,之前曾遇到过类似的相关性指标-在2000-2020年期间清晰可见,在2005、2010-2011、2015- 2016年但是下降从未是系统的-在2017-2020年期间有明显的迹象。有两种可能的解释:第一,审查炸弹的贡献可能被高估了;第二,审查炸弹的贡献可能被高估了。其次,我可能低估了它的规模,有必要进一步降低可接受的最大用户评论标准。但是,出于本文的考虑,我将坚持第一个假设,而将第二个假设的验证作为可能的讨论。



除了上面已经讨论过的所有内容之外,我还想吸引公众直接关注等级差异-为了进行计算,再次将平均用户等级乘以10。







这是该材料中首次出现形状类似于法线的分布(理论上,研究者有必要检查正态分布,但是需要注意的是,如果观察到随机选择的观测值和足够大的基数,则可以使用标准统计工具忽略与正态分布的差异)-这可以认为是局部成功!但是,不可能通过正式检查来巩固成功-通过Pearson卡方检验正态性将使我们返回的p值明显低于0.05:



> Diff <- unlist(both_scores %>%
  mutate(ReleaseDate = year(ReleaseDate), Diff = UserScore * 10 - MetaScore) %>%
  select(Diff))
> nortest::pearson.test(Diff)
	Pearson chi-square normality test
data:  Diff
P = 35078, p-value < 2.2e-16


仍然要接受,提醒自己,不应将基于Metacritic.com上两个评级的游戏分析得出的结论推广到一般游戏中-并以此思想继续进行分析。



让我们看一下游戏发行年份的等级差异:











如果第一个图形难以解释,则第二个图形可以清楚地显示先前指出的趋势-玩家对“旧”游戏更有利-并且比媒体更倾向于评估新游戏。有趣的是,2009-2010年发行的游戏的平均差异非常接近于零-看看十年前发行的游戏!值得记住的是,2010年的估算值之间的相关性相对较低-似乎今年实际的实际游戏数量相差悬殊,但差异的向量却相互平衡。



最后,让我们来看看这些平台-不论游戏的发行年份如何,都分别为:











如果我们将Nintendo 64的89个标题排除在外,那么在不同平台上的情况通常是相似的。但是,零差异的峰值会波动-例如,Nintendo Switch上的游戏评级更加一致,而iOS上的游戏评级则被“抹上”了,分布的“峰值”更可能约为-20-就不满意的玩家数量而言,该平台无疑是领先者。下图仅证实了这一点。顺便说一句,即将离任的一代的主要游戏机在PS4和Xbox One用户的厌恶中也是“领导者”之一。尽管在任天堂阵营中,一切都不是万无一失-平衡是负数。



您可能已经在文章开头看到了下面的图表-但是,在此版本的版本中,有更多的游戏并添加了iOS平台-就评分的关联性而言,它名列最后。







也许值得在此停下来并继续得出结论。



加起来



这个世界不是用青铜铸造的,也不是用石头雕刻的。关于他的事情正在改变。



显然,游戏本身正在发生变化。玩家也在改变-他们的观点数量和多样性正在增长。如果评论界试图遵守某些标准(尽管不言而喻),将平均得分保持在7.5点左右,则玩家会清楚地评估情况-对于间隔20年(2000年和2020年)发布的游戏,平均用户评分为Metacritic从8.5下降到6.9-严重损失!



这背后的原因是什么?我的假设:



  1. 善变的用户倾向于对他们度过童年的游戏进行更好的评价-怀旧的效果(可能)没有,或者被专业评论家抹去了;
  2. , , Metacritic, - , «» 7.5 ;
  3. , Metacritic – , , «» ( ).


可以验证其中两个,并且方法几乎相同-通过一些努力,可以确定游戏发布后很长时间给出的评分是否高于游戏后第一天/几周给出的评分。为了消除评论轰炸的影响,值得一提的是,在有机会发表评论后的头几个小时内,“清理”具有异常高评分的游戏-或至少忽略那些第一用户评分。



对第二种假设的验证需要大量工作来重新评估整个游戏系列(由于它质疑评论家的客观性,因此无法依靠这种评估)。收费的好指标可能是一个好的指标,但是发行商不愿分享这样的数字-营销效果并没有被取消(您可以长时间责怪同一类型的运动员或Ubisoft和Activision Blizzard的传送带,但是这些游戏每年仍足够销售大版本)。

让我们来看吧。



All Articles