如何不靠面试评估IT候选人

你想不靠面试评估IT候选人，又不想招错人吗？这件事是可行的，而且在技术岗位上，它往往是更准确的方法。传统的行为面试是整个招聘流程里最贵、最慢、也最容易掺入偏见的环节。它几乎出现在中国每一条IT招聘链路里，可它到底测出了什么？在技术岗位上，大部分能预测未来绩效的有效信号，完全可以在候选人和团队任何人交谈之前就采集到。

这篇文章是一份实操指南，而不是一篇「反对一切面试」的檄文。你会读到要测什么、怎么测、如何规避评估偏见，以及面试在什么节点上重新值得拥有一席之地，只不过那时它会更短、更省钱、也更聚焦。

为什么要摆脱对面试的依赖？

在中国的招聘里，最大的误差来源常常有个名字，叫「凭感觉」。有三个理由值得把它从筛选环节里往后推。

1. 偏见是内建的。 主持面试的人会被非技术信号带跑，比如投缘程度、谈吐、口音、毕业院校、性别或感知到的年龄。几十年的人才选拔研究一再表明，非结构化面试与日后工作绩效的相关性很弱，在技术岗位上尤其如此。结构化面试的表现要好得多，但很少有团队真正坚持把它做扎实。

2. 时间就是成本。 一个普通的IT岗位，很容易吃掉用人部门12到18小时，再加上招聘端好几个小时，每招一个人都是如此。这种消耗是线性增长的，不会随规模摊薄。

3. 到岗周期决定成败。 每多加一轮面试，就给了优秀候选人一次去别处签约的机会。在中国持续存在的IT人才缺口下，高技术职类和AI相关岗位的人才紧缺指数长期偏高，决策快的公司才能赢。在北上广深这样的人才高地，你抢的是和所有人同一批简历。

重点不是取消每一场面试，而是把面试从漏斗的最前端拿掉，只在技术信号早已清晰之后，用它来做最终决策。

接触候选人之前，能测哪四个维度？

技术岗位上一切要紧的东西，都可以归进四组。一套客观的候选人评估正是建立在这四根支柱上。

1. 可量化的硬技能

代码、分析性思维、特定技术栈的知识。可以这样测：

沙箱里的实操测试（在带 lint、测试和依赖的真实环境里写真代码，而不是在白板上）
逆向代码评审（候选人审阅一段有缺陷的代码，指出问题并解释如何修复）
限时解题（算法、系统设计、调试）
小型 take-home 项目，在合适的场景下使用（高级岗位、需要强主人翁意识的角色）

要避免的是：只考死记硬背经典算法的测试。它们和「刷过题」的相关性，远高于和「能在岗位上交付」的相关性。用测评代替面试只有在测评能映射真实工作时才成立。

2. 工作场景中的语言能力

在远程岗位或国际团队里，语言是硬技能，不是软技能。可以这样测：

标准化测试（读、写、说）并给出 CEFR 等级（A1 到 C2）
异步口语样本（按给定题目录制回答）

简历上写「英语流利」毫无偏差地通过，只有测量才能显出真实水平。

3. 经过验证的行为画像（Big Five）

软技能并不玄。已经有经过几十年验证的科学工具：

Big Five（大五人格，OCEAN）：开放性、尽责性、外向性、宜人性、神经质。它是人格研究领域的学术标准。
情境判断测验（SJT）：给出一个真实的工作情境和若干个看似都合理的反应，测的是实践判断力。

要避免的是：MBTI、没有公开验证的私有测试，以及任何号称能在五分钟内找到「完美候选人」的东西。

4. 经过验证的工作经历（而非自我声称）

简历是文字，验证才是凭据：

经历核实，通过推荐人和证据完成，并取得候选人同意。在中国，许多团队会做背景调查（背调）来核对在职时间、职级与离职原因，但要在合规框架内进行。
360度推荐核验：不只来自上级，也来自同事、下属和合作方，不同来源给不同权重。
公开作品集：GitHub、Gitee、开源贡献、技术文章、技术分享。它能显示品味、深度和沟通能力。

个人信息保护法和生成式AI新规对自动化评估怎么看？

不靠面试评估候选人，意味着你在处理敏感数据，并且常常会用到算法。在中国，有几套规则是不可回避的。

《个人信息保护法》（PIPL）和《数据安全法》：候选人数据属于个人信息。你需要合法性基础、明确的处理目的、最小必要原则，以及清晰的删除期限。测评结果只能在招聘流程所需的期间内保存，之后应按规则删除。尤其要注意 PIPL 第二十四条：通过自动化决策作出对个人权益有重大影响的决定时，个人有权要求处理者作出说明，并有权拒绝仅通过自动化决策的方式作出决定。换句话说，纯算法淘汰、没有任何人工介入，是有合规风险的。

《生成式人工智能服务管理暂行办法》：当招聘里用到生成式AI来做候选人初筛或评分时，这套由国家网信办牵头、依托《网络安全法》《数据安全法》《个人信息保护法》制定的办法就会适用，它对透明度、数据来源和内容标识提出要求。官方原文见国家网信办发布的《生成式人工智能服务管理暂行办法》。

一个搭得好的评估在这里能帮你两次：它把标准写明、可记录、可追溯，而不是把判断藏在某一个人的「感觉」里。重点在于，结构化、可量化的方法，在这些法规下比一场谁也无法复现其评判逻辑的主观面试更容易站得住脚。

四个维度怎么变成一个决策？

不是把它们相加成一个唯一的「总分」。更好的做法是一张能力多边形：一种多维呈现，让你按每个标准去筛。这正是结构化候选人筛选的精髓所在。

举例：一个中级软件工程师岗位，后端 Python，小团队。

硬技能（Python 加系统设计）：高要求
语言（英语）：中等要求（读文档、在异步 PR 里讨论）
Big Five 尽责性：高要求（无需紧盯也能交付）
Big Five 宜人性：中等要求（融入小团队）
经过验证的经历：3 年以上

每个候选人都是一个多边形。你要找的不是「样样最强的人」，而是恰好落进这个画像的人。面试在重新登场时，是为了多边形测不到的东西，也就是和团队真实的化学反应。这件事 30 分钟就够了。

「传统技术笔试」错在哪？

今天常见的很多形式都有已知的毛病，而大多数评估偏差也正是从这里产生的：

时长失衡。 一个 8 小时的 take-home，本质上是变相的无偿劳动。
环境不真实。 在白板上写二叉树算法，和生产代码毫无关系。
没有反馈。 候选人投入数小时，换来一句「不太合适」。他什么也没学到，而你的雇主品牌付出代价。
没有标准化。 同一份笔试，两位评审，给出两种完全不同的判断。

一份好技术测试隐含的契约是：短、真实、有反馈、有清晰的评分量表，并且对所有人用同一把尺。

哪些反模式应该砍掉？

让候选人「解决公司的真实问题」。 那是无偿劳动。
开着摄像头、三位沉默旁观者的 live coding。 它测的是紧张，不是能力。
一份想一次测完所有东西的超级笔试。 硬技能归一个工具，行为归另一个工具。
让面试占到决策的 70%。 偏见就住在那里。
相信「随便一个 5 年经验的工程师都能搞定」。 糟糕的选拔已经按这条原则运转了几十年。

面试什么时候该拿回它的位置？

即便在一个大部分信号都来自评估的流程里，面试仍然在三个节点上有意义。

发 offer 之前，作为对齐谈话

和直属负责人聊 30 到 45 分钟。互相认识、岗位预期、薪资、前 90 天。短、聚焦、不设陷阱。

当硬技能难以用笔试衡量时

技术负责人、架构、产品负责。围绕真实场景的结构化对话（系统设计讨论、复盘某次故障时的架构决策）在这里是最好的工具，但要结构化、带量表、在一场 60 分钟的会谈里完成，而不是一轮四小时的车轮战。

作为文化层面的合理性核对

在小团队里（30 人以内），一场和直属同事的最终对话，有助于感受日常里的化学反应，不带决策权重，更像是在问「这事能不能周复一周地跑下去？」。

IT岗位推荐的流程是什么样的？

1. 按客观标准筛选人才池：最低评分、语言、可入职时间、薪资预期、地点

2. 简短而具体的技术测试（60 到 90 分钟），在沙箱里，写真代码

3. 交叉核验软技能加语言，用已有的 Big Five 和语言测试结果

4. 并行做一次快速的 360 度推荐核验

5. 一场 45 分钟的面试，和负责人对齐并发 offer

企业的投入：每招一人 2 到 3 小时，而不是传统流程里的 12 到 18 小时。决策以天计，而不是以周计，这正是当前人才缺口下你需要的。

NORT如何融入这套流程？

NORT 把第 1 到第 4 步打包进一次可携带的评估。候选人只做一次，企业按能力多边形来筛，一个可配置的评分把各维度按可调权重汇总起来。至于招聘管理系统如何管理漏斗、又在哪里触及边界，可以读一读术语表里的招聘管理系统（ATS）。

对招聘方来说，这意味着：岗位一开，「接触之前」的部分就已经就绪，筛选即时可用，而最终面试落在它该在的位置（对齐加决策），而不是用来发现候选人到底有没有这项技能。

常见问题

可以 100% 不面试就录用吗？

技术上可以，在硬技能与绩效高度相关的岗位上（工程、数据、设计），并且测评对这一层覆盖得好。实践中，你还是应该保留一场简短的最终对齐谈话。完全不谈，很难让双方对预期都有清晰共识。

Big Five 在招聘里真的有用吗？

这套工具背后有 40 多年公开发表的验证研究。它会失效的情形是：被当作唯一信号使用、用了未经验证的山寨版本，或者被和 MBTI 这类缺乏科学依据的工具混为一谈。用对了，配上经过认证的量表，它是最稳健的工具之一。

自动化评估和个人信息保护法、生成式AI新规相容吗？

只要你搭得规范，是相容的。PIPL 要求合法性基础、透明、最小必要和删除期限，并赋予个人对自动化决策要求说明、拒绝纯自动化决策的权利。《生成式人工智能服务管理暂行办法》对招聘中用到的生成式AI提出透明度与数据合规要求。一个结构化、可追溯的流程，比一团谁也说不清的「凭感觉」更容易合规。关键是保留有意义的人工介入。

候选人不会怀念面试吗？

这因人而异。受够了缓慢、不透明流程的人会喜欢这种变化，更多透明，更少在「面试候场区」里干等。一些习惯了旧形式的人会怀念那场交谈。所以保留一个最终的人工环节是值得的，只不过它不再承担筛选权重。

不面试怎么降低招错人的风险？

三件事：技术测试里有清晰的评分量表、严谨的推荐核验（3 个以上、按不同权重的联系人），以及精心设计的前 90 天。相比之下，面试是一个偏晚、噪声又大的筛子。

这对所有职级都适用吗？

对中级和高级最适用。对初级，尤其是应届，面试的权重还要更大，因为可供测量的履历更少。到了资深专家和管理层，系统设计加架构对话又会重新占据更大的分量。

TL;DR

传统行为面试既有偏见又昂贵，在技术岗位上，放在最前面并不划算
接触之前可测的四个维度：硬技能、语言、经过验证的行为、核实过的经历
用能力多边形来筛，而不是一个单一总分
个人信息保护法和生成式AI新规都更偏向结构化、可记录的方法，而非凭感觉
面试只在最后回来，用于对齐和决策，而不是用来发现技能
结果：每招一人企业投入 2 到 3 小时，而非 12 到 18 小时，决策以天计而非以周计

想把「接触之前」这一步认认真真搭一次，然后立刻开始筛选吗？免费注册一个 NORT 账号，在你下一次 IT 招聘里试试结构化的候选人筛选。