在生物科技的快速发展中,如何高效且准确地分析复杂的生物数据成为了研究人员面临的一大挑战。为了帮助 AI 模型在这一领域展现更强的分析能力,OpenAI 近日推出了全新的 GeneBench-Pro 基准测试。这一基准专注于评估 AI 在基因组学、蛋白质组学等生物学任务中的实际研究能力,尤其是在面对混乱和不完整数据时的判断与决策能力。
GeneBench-Pro 与传统的基准测试有着显著的不同。传统测试往往侧重于模型的记忆能力和完成任务的固定流程,而 GeneBench-Pro 则更强调模型在真实科研环境中的实用性。测试任务设计时考虑了 “模糊、不完整和带有干扰” 的数据环境,让模型在这样的条件下进行数据探索和分析,从而更真实地反映其判断能力。

此次基准测试覆盖了广泛的生物学领域,包括基因组学、定量生物学和转化医学,共计129道题目,涵盖了统计遗传学、群体遗传学、功能基因组学和蛋白质组学等多个子领域。每道题目都会为模型提供接近真实科研环境的数据集,并要求模型根据简短的实验背景和相关问题自主选择分析方法并修正策略,最终得出结论。
为了避免传统长流程测试中常见的评分偏差,OpenAI 在设计 GeneBench-Pro 时采用了合成数据。这种方式允许 OpenAI 更好地控制数据生成过程,从而确保模型的表现更能反映其真实的理解能力,而不仅仅是通过猜测或走捷径而获得的正确答案。
目前,OpenAI 已在 Hugging Face 平台上开源了10道代表性的 GeneBench-Pro 示例题,外部研究人员可以通过可交互界面进行体验。后续,OpenAI 计划将其中50道题目交给 Artificial Analysis 进行独立评测,以验证不同模型在这一基准测试中的实际表现。
7月1日,葡萄牙发布国家AI大语言模型“阿马利娅”,以葡语为核心构建本土底座,驱动公共服务数字化,强化本国及欧洲技术主权。历时18个月,将全面赋能教育、国防、文医政等,确保迭代与自主AI基建。
纳睿雷达发布“WDSPT0152型”S波段全极化有源相控阵雷达及配套“睿宸”AI气象大模型。新雷达融合S波段与全极化技术,强化复杂天气捕捉能力;AI模型则助力超精细化短临预报,推动气象监测迈向高精度、智能化。
AI云服务商Together AI完成8亿美元C轮融资,估值达83亿美元。本轮由沙特阿美创投领投,英伟达、Vista Equity Partners等跟投。该公司成立于2022年,专注提供英伟达GPU集群等AI基础设施租赁服务。
据外媒消息,微软计划今年8月在Teams中推出AI会议助手Facilitator,它能实时解析对话,自动发现未解答的疑问和表述模糊之处,并在聊天窗口补充相关信息,以完善沟通。该工具默认关闭,需用户手动开启,不会主动发言。
SpaceX展示了一款类似手机的AI设备原型,比iPhone更纤薄,介乎触屏手机与Rabbit R1之间,引发其进军消费电子和移动业务的猜测。尽管马斯克公开否认报道“纯属捏造”,但此举仍被视为释放拓展信号,项目处于早期,设计或调整。

关注 “悠AI” 更多干货技巧行业动态