我以为我永远不会犯的A / B测试设计错误

在开始我的第一个实验时,我认为所有这些“三/五个/七个最受欢迎的错误”,我在文章中阅读并在会议上听过-肯定不是关于我的。而且,该测试的设计得益于该公司采用的大型美观研究模板。







但实际上,有待解决的陷阱。让我们谈谈如果稍微调整设计或错过模板中的填充会发生什么。以及如何解决所有问题。



我想让新用户受益,但是他们自然不会表现出预期的效果



Skyeng的主要销售工具是带有主持人的免费介绍性视频教程。我们在平台上进行授课,碰巧学生试图连接到呼叫,但未捕获其麦克风或相机。





发生这种情况的原因有很多-从浏览器中的通知显示为平庸的错误(如图中所示)到完全陌生的情况:例如,一旦有人尝试从Tesla进行工作,而那里是我们自己不支持的软件。



如果您不能快速解决问题,则会发生入门课程的技术故障:



  • 学生仍然消极,
  • 老师的课被打断了,
  • 学校此时此时会失去转换为付款的方式(这是我们系的主要指标),补偿老师对课程的参与并开始转移课程。


每个人都受苦。因此,去年我们启动了许多项目来减少技术中断。每个想法都经过测试:企业希望了解该功能是否正常运行以及支持费用是否能够收回。





设备检查任务是必须投入测试的解决方案之一。最初它是一个小部件,下面是其主要屏幕。



这个想法很简单:不要等到上课,而是邀请学生提前检查相机和麦克风-当他离开培训请求时。如果出现问题,我们将向您提供技术支持的票证,他们将有几个小时来解决问题。



当我将用户分为测试和控制时,我希望测试组中的人员将单击小部件并完成任务。可能出什么问题了?



在对照组(“ A”)中,一切照常进行-人们离开了应用程序,开始了自己的生意。但是在测试之后,我们发现“ A”和“ B”组中的技术故障百分比大约为百分之一百。嗯,测试小组中的所有成员都完成了任务,但这没有帮助,或者没有人进入?我们不知道-没有日志记录。



这两个阶段合而为一,事实证明我们无法将它们分开。我不得不重新启动测试并记录了“输入任务”的关键阶段。我们发现大约10%的用户已登录。指标没有显着增加:任务被遗忘了,设备检查本身最终在全球重新设计期间被内置到了新产品中。现在,我首先要检查漏斗所有关键阶段的数据。



« - ?». ,



除了技术问题外,有时学生根本不会参加那门非常免费的入门课程-因为他睡过头了,飞出了头,有东西被转移等等。



因此,在每节课之前,方法学家需要找到一个随时可以打电话的学生:为此,系统为他提供了多个联系人,然后老师给他们打电话。一个人可以花掉12-15%的时间来花在更有用或更愉快的事情上。



似乎是自动化的好机会-让机器人打电话。但是我们需要进行A / B测试:毕竟,听到机器人的人可能会挂断电话。丢失某些东西的可能性是显而易见的。我们进行了测试,起初一切都很顺利,但是...我们对完美主义感到失望。



在许多情况下,机器人必须将呼叫转移给人工操作员:例如,如果学生要取消课程,则操作员必须对CRM进行更改。有时,机器人只是碰到会说话的对话者-该系统的设计并不是为了提供认真的语音识别和对话支持,因此在这里也需要与人建立联系。



我们希望使用户体验尽可能无缝。



因此,我们决定立即将此类呼叫切换到呼入电话线路。即使这个问题并不紧急。在相同情况下,方法学家说:“将在3-5分钟内给您打电话,以重新分配课程。”而且操作员有时间分配工作量并为每个人提供帮助。



操作员不同意该机器人,它产生了峰值,每分钟有几次紧急呼叫。该电路原来是不可缩放的。





在高峰时刻,情况类似于经典游戏。这要感谢Wikipedia及其照片的贡献者perepelin30



我们回到了卫理公会派使用的方案-如果有人清楚地提出了转移请求,则机器人会回答“我们会给您回电”。仅将潜在的紧急问题立即转移给运营商。这些更改之后,必须重新运行测试,因为更改可能会影响关键指标。现在,在每次实验之前,我们都问一个问题:“好吧,如果一切顺利,我们可以推广吗?”





启动测试,检查一切是否顺利,完成了许多当前任务



Skyeng的受众群体非常酷,而且还在不断增长-这些孩子与我们一起教数学和英语。但是,如果没有父母在场,我们不能为孩子开设入门课程。我们不能合法地。因此,如果孩子独自连接,则该课程会中断。然后您就会知道:否定的,重新录制的等等。



家长们总是在打电话时告知他们有关口头警告的时间,这是在同意上课时间的时候。但是从电话到课程的时间流逝,当然,并不是每个人都记得这个协议。





然后解决方案来了:让我们发送短信提醒。这样的文本大约在入门课程的时间留给了家长。



在不中断的情况下增加入门课程的数量并不意味着付费转换的增加。您需要估算投资回报率。为此,我们进行一个实验:



  • 我们将把所有推荐孩子的申请随机分为两组,
  • 我们不会寄给第一组的父母任何东西-他们有规律的交往,
  • 另一个小组的家长将收到两个短信提醒:课程开始前的24和1-2小时。


我们开始测试,第一天进行检查-然后清理营业额。



几周后,我查看了仪表板-除了测试和对照组外,还有其他一些用户。





如果我们想将50除以50,则红色图形清楚地表明出了问题。



事实证明,这应该归咎于一个普通的错误:事件出了点问题,不是每个人都在触发器上发送短信。该错误已得到修复,但是必须重新启动测试:最后,即使您具有正确的测试设计以及所有已填充的模板,依此类推,但这并不意味着测试会顺利进行。而且您应该尽可能地对其进行研究。



ps我真的希望这段文字能帮助某人在测试中犯更少的错误。您很有可能已经拥有或已经拥有自己的有趣案例:如果有一天也分享它们,那就太好了!



pps该帖子基于罗斯托夫IT社区RnDTech的一份报告 -如果您住在该国南部某个地方,请加入,伙计们将迈出一大步。



All Articles