自信满满却错漏百出？WSU重磅研究：ChatGPT科学判断力堪忧，获评“低分D等生”

在人工智能迅猛发展的今天，越来越多的人习惯于向ChatGPT寻求专业答案，尤其是面对复杂的科学问题时，AI那流畅且笃定的语气往往让人深信不疑。然而，美国华盛顿州立大学（WSU）于2026年3月发布的一项最新研究却给这种“盲目信任”敲响了警钟：这个看似“无所不知”的对话式AI，在复杂科学判断面前不仅准确率有限，更暴露出了令人不安的“自相矛盾” 。

这项由WSU Carson商学院副教授梅苏特·奇切克（Mesut Cicek）领衔的团队完成的研究，对ChatGPT进行了一次近乎严苛的“科学大考”。研究人员精心挑选了自2021年以来发表于商业期刊的719条复杂研究假设，将其作为“考题”反复提交给AI进行真伪判断。为了确保测试的严谨性，团队在2024年和2025年分别进行了两轮实验，令人惊讶的是，尽管升级了模型，结果却依旧不容乐观。

表面上看，ChatGPT交出了一份不错的答卷，在2025年的测试中表面正确率达到了80% 。然而，当研究者剥去这层华丽的“外衣”，对数据进行更深层次的统计学调整后，一个残酷的真相浮出水面：剔除随机猜测的成分，ChatGPT的真实表现仅比纯粹的“掷硬币”（50%概率）高出约60%。研究者毫不客气地将这一成绩评价为“低分的D等成绩”，远谈不上可靠。

更让科学家们担忧的是AI表现出的“精神分裂”症状。研究团队将同一条假设向ChatGPT反复提交了10次，使用的提示词完全一致。结果发现，模型仅在约73%的案例中保持了结论一致。也就是说，在超过四分之一的场景下，面对同一个科学问题，ChatGPT会给出截然相反的答案。

“我们谈的不只是准确率，更是前后不一的问题。因为当你反复问同一个问题时，它给出了不同的答案，”奇切克教授在接受采访时描述道，“它可能这次回答‘真’，下一次就说是‘假’，再下一次又是‘真’。在部分极端案例中，甚至出现了5次回答‘真’、5次回答‘假’的完美对半开情况。”

研究还揭示了一个致命短板：ChatGPT在识别“错误”信息方面表现极差。当面对一个本身就不成立的假命题时，AI的正确判断率仅为可怜的16.4% ，这意味着超过八成的错误论断都会被它“放行”甚至“美化” 。

奇切克教授指出，问题根源在于，当前的AI工具本质上并不具备真正的“大脑”。“它们只是在进行高级的记忆和模式匹配，并不像人类那样真正理解世界，”他解释说。AI能用极具说服力的语言包装答案，给用户制造一种“被理解”的幻觉，但这背后缺乏严谨的逻辑推理与证据权衡能力。

这项发表在《Rutgers商业评论》上的研究，不仅是对普通用户的提醒，更是对商业决策者的严厉警告。研究者呼吁，在处理复杂决策时，必须对生成式AI的输出结果保持高度怀疑，并将其视为辅助工具而非权威专家 。

“永远保持怀疑。我并不反对AI，我自己也在用，”奇切克教授最后强调，“但你必须非常小心

自信满满却错漏百出？WSU重磅研究：ChatGPT科学判断力堪忧，获评“低分D等生”

关注 “悠AI” 更多干货技巧行业动态

AI广播站

文章版权归作者所有，未经允许请勿转载。

没有相关内容!

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

自信满满却错漏百出？WSU重磅研究：ChatGPT科学判断力堪忧，获评“低分D等生”

不仅是生成视频更是“读懂”故事：小云雀AI携Seedance 2.0引爆短剧工业化革命

狙击Claude的最后一块拼图？OpenAI收编Python“基建狂魔”Astral

相关文章

暂无评论