跳到主要内容

高考志愿AI测评报告发布,千问Agent表现已达人类咨询师水平

15 0
AI摘要

6月23日,友松实验室发布国内首个高考志愿AI测评报告《高考志愿AI测评基准》,以千问高考志愿填报Agent为测评对象。测评显示,千问在稳定性、精确性、结构化表达与效率上已达到人类志愿咨询师水平,尤其在客观题中全部答对。报告旨在为高考志愿AI产品建立公开、可复现的评估框架,明确AI任务边界。测评覆盖基本事实、模拟填报、开放式咨询和

AI测评报告揭示新趋势

高考志愿AI测评报告发布,千问Agent表现已达人类咨询师水平

于6月23日, 友松实验室发布了国内首个高考志愿填报AI能力的测评报告, 名为《高考志愿AI测评基准》, 该报告把千问高考志愿填报Agent当作测评对象, 其结果表明, 在多项指标方面, 它达到了人类志愿咨询师水平, 甚至还超越了, 这一发现意味着AI技术在教育决策领域跨出了重要一步, 从而引发了行业的广泛关注以及讨论。

四项环节评估立体全面

测评涵盖高考志愿的基本事实与规则, 还有模拟志愿填报, 以及开放式咨询, 以及志愿推荐报告这四个环节。这些环节完整模拟了考生和家长从查资料开始, 到看规则, 再到排方案, 最后做决策的全流程。友松实验室作为专注于人工智能与教育决策研究的独立团队, 确保测评框架公开, 并且可复现, 而且可扩展, 为快速涌现的AI高考志愿产品建立评估标准。

数据表现碾压人类同行

在44道客观题里头, 千问全都答对了, 准确率达到100%, 而人类咨询师平均的正确率仅仅是89.3%。到了模拟志愿填报的环节, 千问给出的方案含有6个能够录取的志愿, 并且命中了事后评估的最优结果, 人类咨询师平均只有5.3个可录取志愿。在100场匿名对比当中, 评审专家有58次更加倾向于选择千问版本, 它的“可直接展示率”是56.0%, 远远超过了人类咨询师的33.0%。

稳定性精确性优势明显

报告表明, 千问于专业路径的拆解、风险的提示以及表达的清晰度方面, 展现出更为稳定的态势。这是因它基于夸克历经8年高考服务的数据与经验所构建的基础, 在产品的形态、数据的积累以及用户的覆盖上具备行业的代表性。而人类对照组是由53名平均从业年限为4.6年的志愿填报咨询师构成, 数据的对比彰显出AI在精确性以及结构化表达层面的显著优势。

人类价值不可完全替代

报告着重指出人类咨询师具有不可被替代的特质, 特别是针对像收入预期这般, 以及就业判断这类, 必须依据个体状况小心翼翼地进行校准的话题而言, 咨询师能够给出更贴合实际情形的建议。在亲子协商的场景当中, 还有价值取舍的情况之下, 结构完备的AI方案是不能够替代人与人之间的沟通以及判断的。这样的一个结论为AI于教育决策里的角色确定了明晰的边界。

互补模式引领未来方向

报告提出建议, AI在高效完成信息核验方面更具优势, AI在完成资料整理方面更为擅长, AI在进行方案初筛方面表现突出, 人类咨询师会将重点放在家庭沟通上, 人类咨询师会侧重于价值取舍, 人类咨询师能做出个性化判断。二者相互形成补充, 志愿填报才能够既提升准确性, 志愿填报也能够更契合考生以及家庭的实际需求。这样的一种模式得到了多所高校的关注, 这样的一种模式被多个科研机构关注, 有望促使教育决策服务朝着智能化方向发展, 有望促使教育决策服务朝着人性化方向发展。

你会不会安心地让人工智能为你的子女去规划高考志愿, 欢迎于评论区之中分享你的见解, 记得去点赞以及转发这篇文章从而让更多的人参与进讨论里面!

登录后参与评论

评论仅开放给已登录并完成邮箱绑定的用户。

评论 0

暂无评论。