首个高考志愿AI测评发布:千问多项表现超过人类志愿咨询师

6月23日，国内首个针对高考志愿填报场景的AI能力测评报告《高考志愿AI测评基准》发布。该报告由友松实验室独立完成，以千问高考志愿填报Agent作为测评对象。结果显示，千问多项表现已达到人类志愿咨询师水平，在稳定性、精确性、结构化表达与效率层面更具优势。

友松实验室是一个专注人工智能与教育决策研究的独立研究团队，长期关注大模型能力评估、教育场景中的 AI 应用，以及学生升学选择中的信息、认知与决策问题，研究成果被多所高校、科研机构采用。此次发布的测评基准，旨在为快速涌现的高考志愿AI产品建立一套公开、可复现、可扩展的评估框架，明确AI在当前阶段能够承担的任务边界。

考虑到千问高考Agent基于夸克8年高考服务数据与经验构建，在产品形态、数据积累和用户覆盖上具有行业代表性，报告将其列为首个测评对象。人类对照组则由53名志愿填报咨询师组成，平均从业年限4.6年。

测评覆盖高考志愿基本事实与规则、模拟志愿填报、开放式咨询和志愿推荐报告四个环节，对应考生和家长填报志愿时从查资料、看规则，到排方案、做决策的主要流程。

结果显示，在44道客观题中，千问全部答对，准确率为100%，人类咨询师平均正确率为89.3%;在模拟志愿填报中，千问方案包含6个可录取志愿，未出现显性偏好违背，并命中事后评估的最优结果，人类咨询师平均为5.3个可录取志愿;在开放式咨询中，评审专家在100场匿名对比中，有58次更倾向选择千问版本，“可直接向学生和家长展示的”可直接展示率为56.0%，高于人类咨询师回答的33.0%，认为其在专业路径拆解、风险提示和表达清晰度上更为稳定。

报告认为，在测评设定的任务范围内，千问的多项表现已达到资深人类咨询师水平，尤其在稳定性、精确性、结构化表达与响应效率方面呈现出优势。

但报告同时指出，人类咨询师的价值同样不可替代。尤其在收入预期、就业判断等需要结合个体情况谨慎校准的话题上，咨询师更能给出贴近实际的建议;在亲子协商、价值取舍等场景中，结构完整的AI方案也无法替代人与人之间的沟通和判断。

报告建议，AI更擅长高效完成信息核验、资料整理和方案初筛，人类咨询师则可更多聚焦家庭沟通、价值取舍和个性化判断。二者形成互补，才能让志愿填报既提高准确性，也更贴近考生和家庭的实际需求。

字节跳动发布视频生成模型Seedance2.5，支持单次直出30秒完整视频，标志视频生成迈入长序列时代。同时推出多模态模型豆包Seed2.1及图像模型Seeddream5.0，提升其在AI领域的竞争力。

Groq去年底以200亿美元将LPU推理技术非独家授权英伟达，部分核心团队同时转入，一度引发外界对其前景的疑虑。仅数月后，Groq宣布转型AI推理云服务商，并完成6.5亿美元新融资。其转型底气在于掌握全球唯一大规模部署的LPU推理系统，形成独有优势。

2026火山引擎FORCE原动力大会上，总裁谭待发布豆包大模型2.1Pro，并公布日均Tokens用量突破180万亿，较2024年5月1200亿的初始规模增长1500倍，业务渗透力极强。新模型重点升级代码生成、智能Agent及多模态能力。

美光与Anthropic达成战略合作，将围绕AI内存架构设计、技术研发与供应链保障展开协同，重点突破高带宽存储器、DRAM及固态硬盘在AI训练和推理中的应用，标志着算力竞争从模型延展至底层硬件。

DeepSeek Harness团队负责人崔添翼近日在海外社交平台发文，面向全球招聘技术与产品人才。他透露部门人才缺口显著，固定开放研究员、研发工程师及产品经理三类核心岗位，招聘不设国籍限制，仅要求具备中文工作能力，显示出这家头部AI中企在国际化人才吸纳上的灵活性。

关注 “悠AI” 更多干货技巧行业动态

AI广播站

文章版权归作者所有，未经允许请勿转载。

没有相关内容!

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

首个高考志愿AI测评发布:千问多项表现超过人类志愿咨询师

美团破解百万商家的视觉难题 AI 海报生成的“技术闭环”

字节跳动火山引擎 2026 大会重磅发布：Seedance…

相关文章

暂无评论