DeepSeek V4 中文大模型评测:再创国内第一辉煌!

在最新发布的 DeepSeek V4中文大模型测评中,SuperCLUE 团队的结果显示,DeepSeek-V4-Pro 以其卓越的综合表现重新夺回国内第一的位置,而 Flash 版本则紧随其后位居第二。这一成就标志着国产开源模型在技术上的又一次突破。

本次测评涵盖了数学推理、科学推理、代码生成、智能体任务规划、指令遵循和幻觉控制等六个维度。DeepSeek-V4-Pro 以70.98分的高分领先,Flash 版本也取得了68.82分的优异成绩,两者的得分均显著高于国内其他同类模型。

DeepSeek V4 中文大模型评测:再创国内第一辉煌!

DeepSeek V4系列采用了全新的注意力机制,支持百万级长上下文,同时有效降低了算力与显存的占用。这使得该系列在搭配国产芯片时,整体效率得到了显著提升。与上一代 V3.2相比,Pro 版本在智能体能力上提升超过20分,数学推理提高近10分,指令遵循的得分增加近12分,幻觉控制同样有了明显的优化。

在 Flash 版本方面,它在保持高效推理的同时,也在智能体与数学推理上实现了大幅提升,性价比表现突出。Pro 版本专注于高性能,适合复杂任务与专业场景,价格为15元每百万 Tokens。而 Flash 版本则以速度快、成本低著称,API 价格仅为1.25元每百万 Tokens,非常适合日常使用。

尽管 DeepSeek V4在多个方面表现优秀,但测评中也指出,该模型在代码生成和复杂指令执行等领域与海外顶尖模型相比仍存在一定差距。总体来看,DeepSeek V4凭借其均衡的能力与合理的成本,在国内市场中稳稳立足,成为日常办公、开发创作及长文本处理的优质选择。

🌟 DeepSeek-V4-Pro 在最新评测中荣登国内第一,Flash 版本紧随其后。  

🧠 测评覆盖数学推理、科学推理等六个维度,Pro 版本得分达到70.98分。  

💰 Pro 与 Flash 版本各有特色,前者适合复杂任务,后者则提供高性价比,便于日常使用。

日本AI公司LifePrompt公布,基于OpenAI最新模型的ChatGPT在东京大学和京都大学本科入学考试中表现优异,尤其在东京大学医学专业考试中,得分比人类最高分考生高出50分,标志着AI在学术领域的重大突破。

苹果前AI主管约翰·吉安南雷亚离职后,加入英国剑桥AI初创公司CuspAI,担任兼职顾问,主要负责拓展美国市场业务。他曾主导苹果的Apple Intelligence、机器人和Siri等项目,并拥有谷歌的AI系统构建经验。

Adobe于4月28日推出Firefly AI助手公测,面向Creative Cloud Pro及Firefly Pro/Premium付费用户。核心升级是从单一生成工具进化为跨应用智能体,无需精通Photoshop、Premiere等软件即可操作。

在AI大模型快速发展的背景下,记忆短板问题日益凸显。深圳新锐公司MemoraX AI专注于解决这一痛点,近日完成千万美元种子轮融资,由L2F光源创业者基金和钟鼎资本领投,多家机构跟投。公司位于深圳南山,从成立到融资速度惊人,旨在攻克大模型“转头就忘”的难题。

Google正在YouTube测试“向YouTube提问”生成式AI搜索功能,将关键词检索升级为对话模式。该实验面向美国18岁以上YouTube Premium用户,旨在实现视频搜索从内容匹配向深层信息理解与聚合的转变。

DeepSeek V4 中文大模型评测:再创国内第一辉煌!

关注 “悠AI” 更多干货技巧行业动态

© 版权声明

相关文章

没有相关内容!

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...