自信满满却错漏百出?WSU重磅研究:ChatGPT科学判断力堪忧,获评“低分D等生”

AI广播站5小时前更新 小悠
3 0 0

在人工智能迅猛发展的今天,越来越多的人习惯于向ChatGPT寻求专业答案,尤其是面对复杂的科学问题时,AI那流畅且笃定的语气往往让人深信不疑。然而,美国华盛顿州立大学(WSU)于2026年3月发布的一项最新研究却给这种“盲目信任”敲响了警钟:这个看似“无所不知”的对话式AI,在复杂科学判断面前不仅准确率有限,更暴露出了令人不安的“自相矛盾” 。

这项由WSU Carson商学院副教授梅苏特·奇切克(Mesut Cicek)领衔的团队完成的研究,对ChatGPT进行了一次近乎严苛的“科学大考”。研究人员精心挑选了自2021年以来发表于商业期刊的719条复杂研究假设,将其作为“考题”反复提交给AI进行真伪判断 。为了确保测试的严谨性,团队在2024年和2025年分别进行了两轮实验,令人惊讶的是,尽管升级了模型,结果却依旧不容乐观。

自信满满却错漏百出?WSU重磅研究:ChatGPT科学判断力堪忧,获评“低分D等生”

表面上看,ChatGPT交出了一份不错的答卷,在2025年的测试中表面正确率达到了80% 。然而,当研究者剥去这层华丽的“外衣”,对数据进行更深层次的统计学调整后,一个残酷的真相浮出水面:剔除随机猜测的成分,ChatGPT的真实表现仅比纯粹的“掷硬币”(50%概率)高出约60%。研究者毫不客气地将这一成绩评价为“低分的D等成绩”,远谈不上可靠 。

更让科学家们担忧的是AI表现出的“精神分裂”症状。研究团队将同一条假设向ChatGPT反复提交了10次,使用的提示词完全一致。结果发现,模型仅在约73%的案例中保持了结论一致。也就是说,在超过四分之一的场景下,面对同一个科学问题,ChatGPT会给出截然相反的答案 。

“我们谈的不只是准确率,更是前后不一的问题。因为当你反复问同一个问题时,它给出了不同的答案,”奇切克教授在接受采访时描述道,“它可能这次回答‘真’,下一次就说是‘假’,再下一次又是‘真’。在部分极端案例中,甚至出现了5次回答‘真’、5次回答‘假’的完美对半开情况。”

研究还揭示了一个致命短板:ChatGPT在识别“错误”信息方面表现极差。当面对一个本身就不成立的假命题时,AI的正确判断率仅为可怜的16.4% ,这意味着超过八成的错误论断都会被它“放行”甚至“美化” 。

奇切克教授指出,问题根源在于,当前的AI工具本质上并不具备真正的“大脑”。“它们只是在进行高级的记忆和模式匹配,并不像人类那样真正理解世界,”他解释说 。AI能用极具说服力的语言包装答案,给用户制造一种“被理解”的幻觉,但这背后缺乏严谨的逻辑推理与证据权衡能力 。

这项发表在《Rutgers商业评论》上的研究,不仅是对普通用户的提醒,更是对商业决策者的严厉警告。研究者呼吁,在处理复杂决策时,必须对生成式AI的输出结果保持高度怀疑,并将其视为辅助工具而非权威专家 。

“永远保持怀疑。我并不反对AI,我自己也在用,”奇切克教授最后强调,“但你必须非常小心

自信满满却错漏百出?WSU重磅研究:ChatGPT科学判断力堪忧,获评“低分D等生”

关注 “悠AI” 更多干货技巧行业动态

© 版权声明

相关文章

没有相关内容!

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...