港中大等高校：AI助手实现任务执行能力测试评估体系建立突破

这项研究来自香港中文大学、香港中文大学（深圳）、华南理工大学、厦门大学、北京大学、香港科技大学及香港大学的联合研究团队，以预印本形式发布于2026年4月，论文编号为arXiv:2604.28139，感兴趣的读者可通过该编号查询原文。

**一、从"聊天机器人"到"办事员"：AI正在经历一场身份转变**

每个人都用过"找人帮忙"的经历。你托朋友帮你订个餐厅，他只要动动手指打开App就能搞定；你请同事帮你整理一份跨部门的数据报告，他得先从财务系统拿数据、再到HR系统核实人员信息、然后在本地电脑上生成文档——这两件事的复杂程度天差地别。

现在，AI正在经历同样的身份转变。过去那种"聊两句回答你问题"的AI，正在升级成真正帮你"完成任务"的AI助手。它们不再只是回答"北京今天天气怎么样"，而是要真正去订机票、发邮件、跑代码、修文件、协调多个系统之间的数据——这就是所谓的"AI工作流代理"（workflow agent）。

但问题来了：我们怎么评判这类AI到底干得好不好？

你出门前托朋友帮你关煤气，回来发现煤气还开着，朋友却跟你说"我记得关了"——这就是当前很多AI评测的困境。AI交上一份看起来漂亮的报告，但背后到底有没有真的去查数据、有没有真的执行操作，很多测试根本看不出来。正是为了解决这个问题，研究团队开发了一套叫做Claw-Eval-Live的全新评测体系。

**二、AI考试出了什么问题？现有测试为何像"纸上谈兵"**

要理解Claw-Eval-Live解决了什么问题，先得搞清楚现有的AI评测有哪些毛病。

现有的大多数AI代理评测，就像一套五年前编的考试题：题目在发布时精心设计，但一旦发布就再也不变了。问题是，现实世界里人们需要AI帮忙完成的任务一直在变。五年前大家最需要的可能是"帮我搜索网页"，现在最急迫的可能是"帮我在多个企业系统之间协调一次审批流程"。一套一成不变的题目，就算当初设计得再好，也会慢慢脱离现实需求——题目还在那，但考的已经不是当下最重要的能力了。

更要命的是，现有评测大多只看AI交出来的"答卷"，也就是最终的文字结果，却不管它是怎么完成任务的。用一个通俗的比喻来说：老师让学生写一篇数学题的解题过程，但评分时只看最终答案对不对，完全不看解题步骤——这就给了作弊的空间。AI可能写出一篇看起来条理清晰的分析报告，但实际上它根本没有去查相关数据库，所有内容都是"编"出来的。这类"说得好听但没真干活"的问题，在AI领域被称为"能说不能做"的差距。

Claw-Eval-Live就是专门为堵住这两个漏洞而设计的。

**三、Claw-Eval-Live的核心设计：一套会"自我更新"的考试系统**

研究团队把Claw-Eval-Live比作一套有两层结构的考试体系。外层是一个动态的"需求信号层"，内层是一个稳定的"快照层"。

动态层的作用是追踪现实世界里人们最需要AI完成哪些工作。团队使用的信号来源叫做ClawHub热门技能榜单——可以把它理解成一个AI工具的"下载排行榜"，记录了当下最受用户欢迎的500种AI工作技能。这份榜单会随着时间变化：某类任务越来越多人需要，它的排名就上升；某类任务过时了，它就会下滑。

稳定层则是将某一时间点的需求信号，转化成一批固定的、可复现的测试题目。一旦某一个版本（也叫"快照"）正式发布，它的题目、评分标准就固定下来，保证所有人在同样条件下比较AI的成绩。等到需求信号发生明显变化，团队再更新下一个版本的快照。

这个设计就像出版年鉴：每年的年鉴内容是固定的，可以让不同地区的人公平比较；但每年都会出新版本，追踪最新的变化。如此一来，评测既不会因为不断改动而无法纵向比较，又不会因为永远不变而脱离现实。

**四、题目是怎么出的？从"排行榜信号"到"可执行任务"的五步流程**

把一份用户下载排行榜变成一批能客观评分的AI考题，这中间的过程相当复杂，研究团队将其分成了五个步骤。

第一步是信号收集。团队从ClawHub Top-500榜单里提取每一个技能条目，记录它的功能类型和排名权重，作为"哪类任务最重要"的参考依据，但不直接把榜单条目变成考题。

第二步是模式聚类。榜单上的条目可能有很多重叠——例如"发送邮件通知"和"批量发送提醒邮件"本质上属于同一类工作。团队把相似的条目归并成更稳定的"工作流模式"，比如"文档转化类"、"跨系统协作类"、"数据分析类"、"工作空间修复类"等，形成几个大的分类家族。

第三步是家族权重分配。根据每个分类在榜单上占据的信号总量，为每个分类计算一个权重比例，决定这个版本的考题里各类任务应该占多大比例。权重高的类型出的题多，权重低的出题少，但不会直接决定某道具体题目进不进最终考卷。

第四步是种子展开与实现。按照权重，团队为每个分类设计若干"种子任务"——每个种子任务说明了用户的目标是什么、需要操作哪些系统、需要留下哪些可验证的行为痕迹、评分的边界在哪里。然后把这些种子任务落实成可以真正运行的考题，包括任务说明、工具接口定义、预置的数据环境（称为"fixture"），以及专门为这道题写的评分程序。之后还要经过预筛选：只有在测试运行中能稳定跑通、在不同AI模型上产生有区分度的分数差异的题，才能留下来。

第五步是基于区分度的最终选题。经过预筛选后，团队得到了157道候选题，但最终要从中选出105道进入正式发布版。如何选？团队用了一种叫做"混合整数线性规划"的数学优化方法——简单来说，就是用一套严格的数学公式来决定哪些题留、哪些题去，而不是凭感觉或经验拍板。这个优化过程同时满足三个约束：总题目数量固定为105道；每个任务分类都必须有题目覆盖；入选的题目组合在区分不同AI模型方面效果最大化。那些所有AI都能轻松通过、或者所有AI都必然失败的题，一律排除，因为这类题根本区分不出好坏。

**五、考场长什么样？两种截然不同的"战场"**

最终发布的105道题，按照AI需要操作的环境类型，分成两大类战场。

第一类叫做"服务支撑型工作流"，共87道题。这类任务要求AI与一组模拟真实企业系统的受控服务进行交互——包括CRM客户关系管理系统、财务系统、邮件系统、日历系统、帮助台系统、知识库等共18个受控服务。AI需要在这些系统之间查询数据、比对信息、做出决策，并且真正执行"写入"操作，比如创建草稿、更新记录、创建任务等。这类任务的核心难度在于：需要协调多个系统、保持状态一致性、并留下可核查的操作记录。

第二类叫做"工作空间修复"，共18道题。这类任务把AI放进一个沙盒化的本地工作环境，给它一个"坏掉"的状态——可能是某个配置文件写错了、某段代码有bug、某个服务无法启动——AI需要检查日志、修改文件、运行命令，并且真正把问题修好。

每道题都有完整的配套资料：一个YAML格式的任务定义文件、预置好的初始数据环境、工具接口规范，以及一个专门为这道题编写的自动评分程序。整个考试过程全程记录，不只保存AI最后说了什么，而是保存它的每一步操作：调用了哪些工具、工具返回了什么、消耗了多少时间和token、最终系统状态如何。

**六、怎么打分？"说了什么"和"做了什么"缺一不可**

Claw-Eval-Live的评分机制是整个系统最有特色的部分，官方把它总结为"基于规则的提取加上结构化大模型评判"。

这句话的核心含义是：评分从可验证的证据出发，而不是把评判权完全交给另一个AI。整个评分过程有三类关键证据来源。

数据检索验证主要占总分的15到20%，验证AI有没有调用正确的工具、查询正确的数据来源，这部分直接从操作日志中提取，是确定性判断。数据准确性验证通常占40到60%，核查AI最终给出的实体名称、数字和结论是否与预置的标准答案一致。操作执行验证占10到20%，通过服务审计日志或工作空间的最终状态，确认AI是否真正完成了要求的状态变更——比如记录确实被更新了、文件确实被修改了、服务确实重新跑通了。

只有当这三类确定性证据无法完全覆盖任务的所有评分维度时，才会引入大模型评判，用来处理那些无法用精确匹配来核查的语义层面——比如报告的完整性、表述的组织质量、分析的逻辑连贯性。

实操中，评分程序按任务类型分成三种模式。对于分析型任务（如账目核对、HR审查、业务预测），确定性检查验证工具调用规范性、实体和数字准确性、以及必要的写入操作，然后再由大模型评判那些无法精确核查的语义维度。对于操作型任务（如起草邮件、安排会议、工单分类），确定性验证的比重更大，大模型仅用于评判呈现质量。对于工作空间修复任务，评分完全基于脚本验证，执行完成后，验证脚本直接在工作空间内重新检查文件内容、服务健康状态、配置完整性，修复是否成功是一个客观的系统状态事实，不涉及任何主观判断。

当需要大模型评判时，研究团队使用GPT-5.4作为评判模型。由于GPT-5.4本身也是被测模型之一，这可能引入一定的评判偏差，团队通过把大模型评判限制在确定性检查无法覆盖的语义维度、并为每次评判调用提供完整的操作记录和专属评分标准来降低这一风险。

**七、最终成绩单：没有一个AI能跨过70%这道坎**

研究团队测试了13个主流前沿大模型，评分指标有两个：通过率（完成分数达到0.80门槛的任务比例）和总体完成度（所有105道题平均得分的百分制换算）。

排名第一的是Claude Opus 4.6，通过率66.7%，总体完成度83.6分。紧随其后的GPT-5.4通过率63.8%，总体完成度81.7分。第三、四名的Claude Sonnet 4.6和GLM-5都是61.9%的通过率，但后者总体完成度稍低（78.1分对79.9分），因此GLM-5排名第四。再往后，MiniMax M2.7拿到54.3%，而MiMo V2 Pro、Kimi K2.5和Gemini 3.1 Pro三家并列53.3%。排名末尾的Doubao Seed 2.0只有43.8%的通过率。

整个榜单呈现出一个清晰的格局：顶部和底部之间相差将近23个百分点，说明当前的AI模型在工作流能力上确实存在较大的梯度差异，不是一锅粥。但更关键的信息是：即便是第一名，也只完成了三分之二的任务。这不是偶然的——它说明稳定可靠的工作流自动化对于今天的AI来说依然是一个未攻克的难题。

三家并列53.3%的模型进一步揭示了为什么通过率和总体完成度需要同时看。MiMo V2 Pro总体完成度76.9，Kimi K2.5是76.2，Gemini 3.1 Pro只有74.0——通过率相同，但总体完成度拉开了差距。换句话说，对于那些没通过的任务，前者完成得更多一些，后者则差得更远。这表明评测系统捕捉到了比二元通过失败更细腻的能力差异。

**八、不同科目的成绩：有的科目轻松满分，有的科目全体挂科**

把105道题按业务类型归成七个大组来看，各模型的表现呈现出极度不均衡的图景。

"开发与终端"类（18道，主要是工作空间修复任务）是各模型表现最好的领域。Claude Opus 4.6、GPT-5.4、Claude Sonnet 4.6在这个大组的通过率均为100%，即便是表现最差的Doubao Seed 2.0也有72%。换句话说，本地工作空间的诊断与修复，对今天的顶级AI来说已经基本不是挑战了。

"人力资源与人员管理"类（9道任务）则是另一个极端，可以说是整个考卷里最难的一组。没有任何一个模型的通过率超过22.2%，多个模型在这一组的得分是0%。这些任务涉及员工入职、绩效审查等需要从多个系统提取特定员工信息、并按规范完成操作的场景——AI在这里大量生产的是"看起来像模像样但实际上缺少关键细节"的通用性回答，一旦用具体的证据核查，就会暴露出并没有真正查询正确数据的事实。

"效率与生产力"类（25道任务）是分化最大的一组，从Claude Sonnet 4.6的88%到Doubao Seed 2.0的48%，跨度超过40个百分点。这意味着这类任务在区分AI能力高低方面最有效力。

"管理与运营"类的情况也很严峻：在0.80的公共通过门槛下，没有任何一个模型在这一类别里达标。业务流程自动化家族平均通过率只有12.8%。

细化到单个任务家族，表现最佳的是PRODAPP（任务量17道，平均通过率84.2%），但即便如此，最好和最差的模型之间仍有47.1个百分点的差距。HR家族平均通过率只有6.8%。在单道题层面，有几道题成为了最强的模型区分器：月度电商对账（ecommerce_monthly_reconcile）、首次响应时间审计（first_response_time_audit）、多文档合并（multi_doc_merge）——这些任务的共同特点是，只要漏掉一个数据来源、或者遗漏一次关键操作，最终得分就会大幅下滑。

**九、服务型任务vs工作空间修复：AI真正的瓶颈在哪里**

把105道题按执行环境一分为二来看，两类任务之间的差距触目惊心。

在18道工作空间修复任务上，所有模型的通过率至少都有72.2%，头部模型接近100%。但在87道服务支撑型工作流任务上，没有任何一个模型超过59.8%——Claude Opus 4.6以59.8%领跑，GPT-5.4是56.3%，GLM-5是55.2%。

这个对比的意义相当深远。当前的AI在有限的、固定的本地环境中修复已知问题，已经相当游刃有余。但一旦要在多个相互关联的业务系统之间来回穿梭、协调状态、不遗漏任何一个必要步骤，AI的能力就开始出现明显的裂缝。真正的挑战不是"AI会不会用终端"，而是"AI能不能在跨系统的业务流程中保持状态、不丢失关键证据、并按规定完成所有必要的写入操作"。

**十、通过率相同，但差距可以很大——为什么需要两个指标**

榜单上并列53.3%通过率的三个模型揭示了一个重要道理：通过率相同的模型，实际能力可能大不一样。

通过率告诉你"有多少道题完全做完了"，但总体完成度告诉你"在没完全做完的题里，平均做到了几成"。对于一个实际部署中的工作流代理来说，这两个维度都重要——有时候你需要的是"必须完整执行某个流程"，有时候你只需要"尽量多完成流程的大部分步骤"，两种场景对应的选型标准不同。

**十一、花钱多的不一定是最好的选择——效率账怎么算**

研究团队还统计了每个模型完成全部105道题所消耗的资源，包括token数量、调用轮次、估算API费用和总耗时。

GPT-5.4的表现尤为突出：它在top4中消耗token最少（1.26亿），速度最快（104分钟），成本最低（约6.27美元），同时排名第二。相比之下，同样在top4的Claude Opus 4.6需要消耗3.32亿token、花费约31.61美元、耗时213分钟，才换来略高的通过率。成本差距接近5倍，但通过率只差约3个百分点。

另一方面，DeepSeek V3.2的费用估算最低（约0.56美元），但通过率只有51.4%，与顶部模型差距明显。MiniMax M2.7费用也极低（0.69美元），通过率达到54.3%，性价比相对突出。

这意味着，对于实际部署工作流AI的团队来说，选型不能只看通过率排名，还需要结合具体业务类型的任务分布和可接受的成本范围来综合判断。

**十二、区分度的分布：为什么有些题"无效"，有些题"特别好用"**

在全部105道题中，并非每道题都同样有价值。研究团队把区分度定义为：13个模型在同一道题上的得分标准差。标准差越高，说明这道题越能把强模型和弱模型区分开。

统计结果显示，105道题里有27道是"全员失败题"（13个模型全部没过），有19道是"全员通过题"（13个模型全部通过）。这两组题在区分不同模型方面贡献极小。真正有区分价值的题集中在中间地带——有些模型通过、有些模型没通过的那些题。

区分度最高的几道题包括电商月度对账、首次响应时间审计和多文档合并，这些任务需要精确的多来源数据提取，任何一个步骤的遗漏都会导致得分骤降，因此不同能力水平的模型在这些题上会表现出明显的分数差异。

这也是为什么团队在选题时使用了比正式评测更宽松的预筛选门槛：如果按照正式的0.80门槛来筛，会排除掉太多只有最强模型才能通过但确实有价值的任务，导致考卷的区分效力下降。最终发布版虽然按0.80门槛打分，但选题时用了更宽松的标准，保留了足够多的中等难度任务。

**十三、这套系统告诉了我们什么，又留下了什么问题**

归根结底，Claw-Eval-Live传递的信息可以用两句话概括：当前最好的AI工作流代理，还没有一个能在105道代表真实企业需求的任务里通过70%；而且失败的模式是有规律的——HR、管理和多系统协调类任务是系统性的瓶颈，不是个别失误。

这对普通人的生活意味着什么？如果你正在使用或者考虑使用某个AI助手来帮你处理企业级的流程性工作，你需要知道它在哪些场景下靠谱、在哪些场景下还不行。用AI帮你修一个坏掉的开发环境，已经相当可靠；但用AI帮你协调一次跨部门的薪酬审查或OKR评估，恐怕还需要人工把关。

这套评测体系本身也有局限。大模型评判环节引入了GPT-5.4作为裁判，而GPT-5.4本身也是被评测对象之一，这种双重身份可能带来偏差，尽管团队已经尽力将大模型评判的范围限制在确定性检查无法覆盖的最小必要范围内。此外，ClawHub热门榜单作为需求信号来源，反映的是工具生态系统用户的偏好，不一定完整代表所有类型组织和行业的实际需求分布。

但无论如何，这套系统提出了一个重要的方向性问题：评判AI"能不能干活"，应该看它做了什么，而不只是看它说了什么。有兴趣深入了解的读者可以通过论文编号arXiv:2604.28139查阅完整的研究报告和项目主页claw-eval-live.github.io。

Q&A

Q1：Claw-Eval-Live是如何保证评测题目不脱离真实需求的？

A：Claw-Eval-Live使用ClawHub Top-500热门技能榜单作为需求信号来源，这是一个反映用户当下最常使用的AI工作技能的排行榜。每次发布新版本时，团队会重新从最新榜单出发，经过聚类、权重分配、种子展开等五个步骤，将排行榜信号转化为可执行的测试任务。这样，评测题目的分布会随着用户需求的变化而更新，而不是永远固定在某一时间点的判断上。

Q2：为什么Claw-Eval-Live不直接让AI自己批改答案？

A：Claw-Eval-Live的评分设计优先使用确定性规则检查，包括操作日志核查、数据准确性比对、服务状态验证等，只有在这些客观检查无法覆盖的语义维度（如报告组织质量）时才引入大模型评判。这是因为如果把整个评分权交给另一个AI，评分本身就会变得不可靠——AI可能觉得另一个AI"说得很好"，却没有发现它其实根本没有执行任何操作。用可验证的行为证据打分，比只看文字输出可靠得多。

Q3：测试结果显示AI在哪类工作上最弱？

A：根据Claw-Eval-Live当前版本的测试结果，AI在人力资源与人员管理类任务上表现最差，没有任何模型的通过率超过22.2%，多个模型得分为零。管理与运营类任务同样是全员难题。这些任务的共同特点是需要从多个业务系统中精确提取特定人员或流程信息，并按规定完成状态写入操作，而目前的AI往往生成表面上合理但实际缺少关键证据支撑的通用性回答。