工程师的招聘酒吧:这是什么野兽?

在过去的五年中,Recursive Cactus在一家顶级高科技公司担任全栈开发人员,但现在决定更换工作。



在过去的六个月中,递归仙人掌(它在我们网站上注册时就介绍了自己)一直在为将来的采访做准备,每周至少分配20-30个小时的LeetCode练习,算法教程,当然还有我们平台上的采访实践以评估其进度。



典型的递归仙人掌工作日:



时间 占用
6:30-7:00
7:00-7:30 冥想
7:30-9:30 通过算法解决问题
9:30-10:00 工作方式
10:00-18:30 工作
18:30-19:00 下班方式
19:00-19:30 与妻子沟通
19:30-20:00 冥想
20:00-22:00 通过算法解决问题


典型的递归仙人掌休息日:



时间 占用
8:00-10:00 通过算法解决问题
10:00-12:00 体育
12:00-14:00 空闲时间
14:00-16:00 通过算法解决问题
16:00-19:00 与妻子和朋友共进晚餐
19:00-21:00 通过算法解决问题


但是他为面试做的铺天盖地的工作给他,他的朋友和家人带来了损失。他的学习耗尽了他所有的个人时间,以致于他除了工作和面试准备外几乎没有生命。



一个想法让你保持清醒:“如果我不接受采访怎么办?如果这所有时间都浪费了怎么办?”



我们所有人都曾经在找工作,许多人都经历了这种状态。但是,为什么递归仙人掌花这么多时间准备,而造成这种挫败感的原因是什么呢?



他觉得自己没有达到工程师的最高标准,这是每个工程师必须获得的公认的最低能力水平,才能找到工作。



为了满足律师的要求,他选择了一种特定的策略:满足工程师普遍接受的期望,而不仅仅是成为真正的工程师。



故意假装自己不是一个人似乎很愚蠢。但是,如果我们想了解递归仙人掌的行为,建议先弄清楚这个标准是什么。而且,如果您对此主题稍加思考,似乎它没有那么清晰的定义。



“栏”的定义



让我们看一下FAANG公司(Facebook,Amazon,Apple,Netflix,Google)如何设置标准。毕竟,这些公司几乎受到所有人(包括求职者)的最多关注。



他们中很少有人提供有关招聘过程的具体细节。苹果不会公开共享任何信息。Facebook描述了采访的阶段,但没有描述评估标准。Netflix亚马逊表示,他们正在招聘符合其工作文化和领导原则的候选人。 Netflix和Amazon均未确切描述其如何衡量基本原则。但是,亚马逊确实说明了采访的进行方式,并列出了可以在开发人员采访中讨论的主题。...



Google是最透明的大公司,它以最小的细节公开披露了其采访过程,以及Laszlo Bock“工作规则!”。添加内部细节。



从历史的角度谈到科技巨头时,Alina(我们的创始人)在一篇文章中提到了2003年的《如何移动富士山?,其中谈到了微软是一家杰出的技术巨头时微软的采访过程。



为了收集有关公司如何评估候选人的更多信息,我还研究了Gaila Luckmann McDowell撰写的Hacking Programming Interviews,这实际上是采访潜在候选人的圣经,以及乔尔·斯波斯基 Joel Spolsky)的《游击队面试指南3.0》,由科技界有影响力的知名人士撰写。



木板定义

来源 评估标准
苹果 未公开发布
亚马孙 遵守亚马逊领导力原则
脸书 未公开发布
网飞 未公开发布
谷歌 1.一般认知能力

2.领导力

3.“谷歌”

4.专业知识
Gaila Luckmann McDowell的《黑客编码访谈》 -分析能力

-编程能力

-技术知识/计算机科学基础知识

-经验

-与文化相关
乔尔·斯波斯基 -要聪明

-做得好
微软(大约2003) -“ Microsoft面试的目的是评估整体解决问题的能力,而不是特定的能力。”

-“思考速度,机智,创新的解决问题的能力,跳出框框的思维”

-“渴望别人能做什么,而不是为了什么他们做到了

-动机


“情报”的定义



毫无疑问,编码和技术知识是任何公司聘用开发人员的标准之一。毕竟,这是工作。



但是除此之外,许多人提到了通用情报的标准。尽管他们使用不同的单词,并且对术语的定义稍有不同,但它们都指向心理学家称为“认知能力”的某种概念。



来源 认知能力的确定
谷歌 « . , , . , , , GPA SAT»
Microsoft ( 2003 ) « Microsoft — , … , . , »
« - , , , »
« (, ), , , . »


所有这些定义都让人联想到的理论早在19世纪的心理学家查尔斯·斯皮尔曼,智力最广泛接受的理论。在一系列针对中小学生的认知测试中,斯皮尔曼发现在一种测试类型上表现出色的人在其他测试上也表现良好。这种理解使Spearman提出了这样一个理论,即存在一个影响所有指标的基本基本共同能力因素(“ g”或“ g-factor”),而与特定的任务特定能力(“ s”)无关。



如果您相信“ g”的存在(很多人相信,有些人不……有不同的智力理论),那么找到具有较高“ g”分数的候选人显然符合公司的智力标准。



尽管公司还考虑其他标准,例如领导力和文化,但通常没有用这些术语来定义标准。木板被定义为具有技术技能,以及(可能在更大程度上)具有一般智慧毕竟,候选人通常不训练他们的领导才能和文化。



随之而来的问题是如何衡量它。衡量技术技能似乎很困难但可行,但是您如何衡量“ g”?



衡量一般智力



Boca书中提到了Frank Schmidt和John Hunter 1998年的文章“人事心理学中选择方法的有效性和实用性”。她试图通过分析19种候选选择标准来回答这个问题。面临的挑战是确定哪种方法最能预测未来的绩效。作者得出结论,一般智力(GMA测试)是劳动生产率的最佳预测指标(“预测有效性”)。







在这项研究中,GMA测试被视为智商测试。但是微软使用诸如“世界上有多少个钢琴调音器?”之类的谜题来估算2003年左右的智商。他们的解释:



« Microsoft, , , , , . , , , , »



— « ?», . 20


快进到今天。Google谴责这种做法,认为“在这类问题上的表现充其量是一项离散技能,可以通过培训加以改进,因此对评估候选人毫无用处。”



因此,我们有两家测试通用情报的公司,但从根本上不同意如何对其进行评估。



我们是在衡量特定能力还是一般智力?



但是,也许正如Spolsky和McDowell所论证的那样,传统的算法化和计算机化面试问题本身就是对通用情报的有效测试。 Hunter和Schmidt的研究为该理论提供了一些支持。在所有单一标准评估工具中,使用工作样本进行的测试具有最高的预测有效性。此外,在检查两标准评分工具(GMA检验加工作样本检验)的有效性的最高回归结果时,对工作样本进行评估的标准化效应量大于GMA等级的标准化效应量,表明与候选人的未来绩效之间存在更强的关系。



研究表明,传统的算法面试可以预测未来的表现,甚至比GMA / IQ测试还高。



递归仙人掌认为不存在这种联系:



“在工作中获得的知识与解决算法问题之间几乎没有重叠。大多数工程师很少处理图形或动态编程。在应用程序编程中,最常见的数据结构是列表和字典对象。但是,与他们相关的面试问题通常被认为是微不足道的,因此重点放在其他类别的问题上。”


在他看来,算法问题类似于Microsoft的难题问题:您从面试中学习在现实生活中从未遇到过的任务。如果是这样,那么这与Hunter和Schmidt的研究不符。



尽管递归仙人掌公司有个人信念,但像Spolsky这样的访调员仍然认为这些技能对于生产型程序员极为重要。



« , , : „ ?” — .



, . , , . , , Ruby on Rails 2.0».



— 


Spolsky承认,传统的技术面试问题无法模拟实际的工作问题。相反,他们测试一般的计算机科学能力,这些能力在某些方面是通用的,但在其他方面是特定的。可以说,这是某个领域的一般情报。



因此,如果您不相信计算机智能通用智能,那么McDowell建议以下内容:



“讨论数据结构和算法知识的另一个原因是:因为很难找到问题来解决与它们无关的问题。事实证明,绝大多数解决问题的问题都涉及其中一些基础知识。”



-Gail Luckmann McDowell


当您从计算机科学的角度看世界时,这可能是正确的。但是,认为非程序员在解决问题上更加困难是不公平的。



在这一点上,我们并不是在讨论像Spearman最初定义的那样测量通用情报。相反,我们正在谈论的是由那些成长或参与传统计算机教育的人定义或传播的特定智能,并结合了通用智能(Spolsky,McDowell,Microsoft的Bill Gates,以及五个FAANG创始人中的四个研究计算机科学或常春藤大学或斯坦福大学。



也许当我们谈论酒吧时,我们的意思确实是主观的,具体取决于谁进行测量,并且此定义因人而异。



该假设得到了候选人在我们平台上从面试官那里收到的评估的支持。



酒吧主观



在我们的金额访问平台上,人们可以在线培训技术访问人员,并与领先公司的访问者进行匿名交流。面试问题类似于您在电话筛选中担任后端开发人员职位时可能会听到的问题,面试人员通常来自Google,Facebook,Dropbox,Airbnb等公司,以下是此类面试的一些示例。每次面试后,面试官都会从多个方面对候选人进行评分:技术技能,沟通能力和解决问题的能力,范围为1到4,其中1表示“不好”,4表示“惊人!”。反馈表单如下所示:







如果您有信心,则可以跳过培训并直接与我们的合作伙伴公司进行面试(稍后会详细介绍)。



通过观察最活跃的面试官,我们注意到此人将聘用的候选人比例有所不同(“及格率”)。该比例为30%至60%。有些面试官似乎比其他面试官强得多。







由于受访者和访问者是匿名的,并且是随机选择的[1]我们预计面试官之间候选人的素质不会有很大差异。因此,受访者的素质不应该是造成这种现象的原因。但是,即使考虑到候选人的经验等属性,不同面试官的通过率仍然存在差异[2]。...



也许某些面试官刻意严格,因为他们的门槛更高。尽管打了更严格的面试官的候选人的成绩较低,但他们通常在下一次面试中表现更好。



可以用几种方式来解释此结果:



  • 更严格的面试者系统地低估了候选人

  • 候选人被严谨的面试官厌烦,以至于他们在面试之间往往会有所提高,以求达到原始面试官更高的标准


如果后者是正确的话,那么经过更严格的面试官培训的候选人在现实生活中的面试应该做得更好。但是,我们并未发现访调员的严重程度与平台上未来进行真实访谈的速度之间存在相关性[3]。...







我们平台上的面试官代表候选人在现实生活中会遇到的人的类型,因为这些人在真实技术公司进行电话筛选和面对面的面试。而且由于我们没有规定采访方法,因此这些图表还显示了您挂断电话或离开办公室后对采访结果的意见分布。



这表明不管您的实际答案如何,获得工作机会实际上取决于您与谁面试。换句话说,该条是主观的。



面试官之间的这种差异迫使我们重新考虑自己对酒吧的定义,该酒吧在被我们的合作伙伴公司面试时可以过滤候选人。我们的定义与Spolsky的二元标准(“聪明”)非常相似,高估了访调员的意见,而低估了其他三个标准,从而导致了双峰骆驼式分布,如下图所示。







尽管当前的评分系统与将来的面试结果具有很好的相关性,但我们发现,面试官的分数与未来的结果之间的相关性不如我们其他标准强。我们减轻了重量,最终提高了预测的准确性[4]...就像电影《瑞奇·鲍比:公路之王》中一样,瑞奇·鲍比了解到比赛中除了第一个和最后一个之外还有其他地方,因此我们也了解到超越“雇用而不是雇用”的二元结构是有用的,或者,如果愿意的话,“聪明-不聪明”。



当然,我们不能完全摆脱主观性,因为其他标准也由访调员确定。这就是使评估变得困难的原因:面试官的评估本身就是对候选人能力的一种衡量。



在这种情况下,每个特定测量的准确性变得不确定。好像访调员正在使用不同长度的木棍进行测量,但每个人都认为自己的木棍的长度已知,例如一米。



当我们与面试官讨论候选人评估时,不同长度的棍棒理论得到了证实。以下是一些面试官如何评估候选人的示例:



  • 问两个问题。如果他回答了两个,则测试通过

  • 询问各种难度(容易,中等,困难)的问题。如果答案是平均的,则测试通过

  • 响应速度非常重要。如果答案是快速的(没有明确定义“快速”一词),则测试通过

  • 速度并不重要。如果有可行的解决方案,则通过

  • 候选人从最高等级开始。每个错误都会扣除积分


不同的评估标准-不一定很糟糕(实际上完全正常)。他们只是在我们的测量中引入了很大的分散,也就是说,候选人的评估并不完全准确。



问题是,当有人谈论条形图时,他们通常会忽略测量中的不确定性。



通常建议仅聘用顶级候选人。



一个好的经验法则是只雇用比你更好的人。不妥协。永远”



-拉斯洛·博克(Laszlo Bock)


“无论找到这些优秀候选人有多么困难,都不要降低您的标准”



-乔尔·斯波斯基(Joel Spolsky)


“在Macintosh部门,我们有一句俗语:'玩家A雇用玩家A;B球员正在雇用C球员”-这也意味着伟人也在雇用伟人”



-Guy Kawasaki


“每位受雇的员工都应胜过目前担任类似职位的员工的50%,这提高了门槛”



-亚马逊Bar Raiser博客文章


这些都是很好的建议。但是,他们认为可以可靠地测量“质量”。但是我们已经看到并非总是如此。



即使提到不确定性,差异也应归于应聘者的能力,而不是衡量过程或面试官。



“在中间,有很多'潜在有用'的员工似乎能够为共同事业做出贡献。关键是要区分超级巨星与这些“潜在有用”的巨星,因为您不想雇用任何“潜在有用”的巨星。决不。



如果发现难以决定,则有一个非常简单的解决方案。请勿雇用任何人。只是不要雇用您不确定的人。”



-乔尔·斯波斯基(Joel Spolsky)


对候选人的评估并不是一个完全确定的过程,但许多人认为是这样。



为什么酒吧这么高



“质量妥协”一词并不是真正的妥协,而是面对不确定性的决策。从上面的引言可以看出,通常的策略是仅在绝对有信心时才雇用。



不管您使用哪种量尺,它都会使门槛真正提高。对候选人完全有信心意味着将录用不良的可能性(“误报”)降到最低。公司正在尽一切可能避免这种情况。



“考虑到纠正所有错误所花费的时间,一个糟糕的候选人非常昂贵。解雇误雇的员工可能要花费数月的时间,甚至会成为一场噩梦,特别是如果他们选择起诉。”



-乔尔·斯波斯基(Joel Spolsky)


亨特和施密特计算雇用穷人的成本:“标准偏差......是平均年薪,至少40%”,这是$ 40,000个的今天,假设平均工程师的薪水是$ 100,000。



但是,如果你设置了酒吧太高,机会是您错过了一些好的候选人(假阴性)。麦克道尔(McDowell)解释了为什么公司并不真正介意很多假阴性:



“从公司的角度来看,拒绝许多优秀的候选人确实是可以接受的……他们愿意忍受。当然,他们宁愿不这样做,因为这会增加人力资源成本。但这是可以接受的折衷办法,条件是他们仍然要有足够数量的优秀候选人。”


换句话说,如果预期结果与继续搜索的招聘成本相比差异较大,那么值得等待最佳候选人。此外,潜在问题员工的人事费用和法律问题也在尽可能地提高标准。



看起来是对成本和收益的非常合理的计算。但是,有人实际上进行过这样的数字计算吗?如果是这样,我们很乐意收到您的来信。但是在实践中似乎非常困难。



由于所有计算都是靠肉眼完成的,因此我们可以这样做,并认为不应将阈值设置得太高。



如前所述,候选人能力的分布不是二元分布的,因此斯波尔斯基的噩梦不会发生在所有所谓的“坏”员工身上,这意味着“好”和“坏”员工之间预期的生产率差异可能小于预期。



另一方面,招聘成本可能会比预期的要高,因为随着资格的提高,候选人的选择变得更加困难。根据定义,标准越高,此类人员越少。施密特和亨特的“坏租”损失计算只比较候选对象。这项研究没有考虑到向人才库招募高质量候选人的相对成本,这是当今许多技术招聘团队面临的主要问题。而且,如果其他IT公司使用相同的招聘策略,那么竞争会增加候选人拒绝报价的平均机会。这增加了填补空缺的时间。



总而言之,如果“好”和“坏”候选人之间的预期结果低于预期,并且招聘成本高于预期,则降低门槛是合乎逻辑的。



即使公司雇用了无效的员工,也可以使用培训和人力资源工具来减轻负面影响。最后,一个人的生产力确实随着时间的增长而增长,他获得了新的技能和知识。



但是,在招聘人员时,很少考虑员工的发展(Laszlo Bock在某些地方提到了这一点,但是大多数这些主题是彼此分开讨论的)。但是,如果您确实考虑到这一点,则可以在雇用和发展员工之间建立联系。您可以讨论提高劳动效率的不同方法:为培训现有员工付费或雇用新员工。



您甚至可以认为这是一个折衷方案。与其在内部发展员工,不为什么将这种发展外包出去?让其他人弄清楚如何发展原始人才,然后您再向招聘人员付款,以找到现成的专业人员。为什么可以在全食超市购物并在家中做饭,而您却可以支付现成的饭菜费用呢?当您可以进行实际工作(即工程任务)时,为什么还要在管理和培训上浪费时间?



可能是因为公司不知道如何有效地培养人才而将门槛定得很高。



因此,公司可以通过将职业发展的重担转移到应聘者身上来降低风险。相反,诸如递归仙人掌之类的候选人别无选择,只能进行面试。



起初,我认为递归仙人掌是该规则的例外。但事实证明,他并不孤单。



面试前的考生练习



去年,我们询问了候选人准备面试的时间。几乎一半的受访者表示,他们花了100个小时或更长时间进行准备工作[5]...







我们想知道招聘人员如何了解情况。Alina在Twitter上提出了类似的问题-结果显示,人事经理严重低估了候选人为面试做准备的努力。





显然,这种差异仅证实了潜在的隐性规则:如果您不是最聪明的人(无论这意味着什么),那么这不是我们的问题。



修改酒吧



这就是“杠”。这是公司为避免误报而制定的高标准。但是,尚不清楚这些公司是否实际进行了适当的成本效益分析。较高的门槛可能是因为不愿投资于员工发展。



木板几乎可以测量您的一般智力,但是实际的测量工具不一定与科学文献相符。甚至关于这一主题的科学文献本身也可以被认为是可疑的[6]。...该标尺实际上衡量的是计算机科学领域的特定智能,但是该衡量标准因采访您的人而异。



尽管在招聘的许多方面存在差异,但我们谈论的酒吧似乎具有明确的含义。它允许招聘经理做出明确的二元选择,但不允许他们批判性地思考是否可以为公司改进“标准”的定义。



它有助于理解为什么递归仙人掌要花这么多时间来训练。部分原因是他目前的公司没有发展他的技能。他准备了许多可能的问题和面试官,因为招聘标准千差万别。他探索了在日常工作中不一定会使用的主题-所有这些都是为了让那些被认为“聪明”的人通过。



这是目前对他的个人生活产生重大影响的系统。



“我妻子不止一次地说她想我。我过着忙碌,幸福的生活,但我觉得有必要为几个月的采访做好准备,以保持竞争力。没有一个单身母亲可以像这样准备。”



-递归仙人掌


这影响了他目前的工作和他的同事。



“该过程需要大量精力,所以我不能100%地工作了。我希望自己能做得更好,但是我不能同时照顾自己的未来,一天要四个小时练习算法,并做好自己的工作。



这不是一种非常愉快的感觉。我喜欢我的同事。我很负责 我知道我不会被解雇,但我知道他们还有额外的负担“



-递归仙人掌


记住所有有关误报,面试结构,困惑,招聘和发展标准的微观决定都构成一个最终影响人们个人生活的系统。不仅是申请人本人,而且还包括周围的所有人。



员工招聘远没有解决的问题。即使我们以某种方式解决了它,也不清楚我们是否能够消除所有这些不确定性。毕竟,在人工工作环境中陪伴一个或两个小时后,很难预测一个人的未来工作成果。尽管我们一定要尽量减少不确定性,但将其作为过程的自然组成部分是有帮助的。



该系统可以改进。这不仅需要提出新的想法,而且还需要重新审视几十年前做出的想法和假设。您需要考虑先前的工作并继续前进,而不要继续从事下去。



我们相信,IT行业中的每个人都可以做出贡献-并改善IT招聘系统。我们知道,仅因为您很聪明,您就可以这样做。






[1]有偏见的可能性,特别是在候选人选择培训的时间方面。肤浅的分析表明,这种联系并不那么重要,但是我们正在研究这个问题(将来我们可能会在博客中写这个话题)。您还可以在站点上的传统算法访问和系统设计访问之间进行选择,但是绝大多数选择了传统访问。显示的及格率与传统面试一致。[返回]

[2]您可能会想知道采访.io上候选人的相对水平。尽管很难确定真实水平(这是本文的主题),但是我们的执业面试官说,面试候选人的平均水平与他们在自己公司进行面试时遇到的水平相对应,尤其是在电话筛选期间。[返回]

[3]这仅包括符合我们内部招聘标准并来我们办公室面试的候选人。该图未反映受访者的全部人数。[返回]

[4]您可能还记得,我们之前有一种算法可以根据访问员的严格程度来调整统计数据。经过进一步检查,我们发现该算法以一种意想不到的方式引入了候选人分数的方差。因此,现在我们不再那么依赖他了。[返回]

[5]100和200小时的爆发是由于措词和调查最大值的错误。提出以下三个问题:1)在上一次求职过程中,您花了几个小时准备面试? 2)您在注册面试之前花了几个小时准备面试? 3)在您注册了访谈录.io之后,您花了多少小时准备访谈录(不包括网站上的时间)?每个问题的答案上限为100小时,但是对于许多受访者来说,答案2和3的总和超过100。问题1的答案的中位数为94,几乎等于答案2和3的总和的中位数,因此我们使用此总和来分配大于100小时。重要经验:将最大值设置为超出您的预期并仔细检查您的调查。[返回]

[6]我觉得评估这项研究有些困难,因为我不是心理学家,尽管我基于熟悉的统计工具,但荟萃分析等方法对我来说有点陌生。问题不是这些工具是否正确,而是要对研究投入进行推理有多困难。像意大利面条式代码一样,基础数据集的验证分布在数十年的先前科学工作中,使分析变得困难。这可能是心理学的本质,与自然科学相比,心理学很难获得有用的数据。此外,其他的问题出现关于方法论,这是更详细地讨论了这篇文章[返回]



All Articles