谷歌最新开源的AI文件检测系统Magika 1.0,用Rust语言重构核心引擎,每秒可识别上千文件,为全球网络安全树立新标杆。
当地时间11月7日,谷歌正式发布Magika 1.0稳定版,这款基于人工智能的文件类型检测系统完成自去年初开源以来的首次重大升级。
新版本核心引擎完全采用Rust语言重构,不仅在性能上实现巨大飞跃,还将支持的文件格式扩展至200多种,为全球网络安全防护注入新的AI动力。
01 技术革新:Rust重构带来性能飞跃
Magika 1.0的最大变化在于其核心引擎已完全采用Rust重写,这一架构调整带来了显著的性能提升和内存安全性保障。
新版Magika提供原生的Rust命令行工具,在单核环境下每秒可识别数百个文件,而在多核CPU上更可扩展至每秒处理约1000个文件。
这一性能表现使得Magika在高负载生产环境中部署成为可能。
该系统使用ONNX Runtime进行模型推理,并借助Tokio框架实现异步并行处理,构成了高效稳定的技术基础。
02 识别能力:覆盖200多种文件格式
Magika 1.0的检测能力已扩展至200多种文件格式,是初始版本的两倍,覆盖了多个专业领域。
新增支持的文件类型包括数据科学与机器学习领域的Jupyter Notebooks、PyTorch和ONNX。
现代编程与网页开发相关的Swift、Kotlin、TypeScript等语言。
以及DevOps配置文件和各种数据库与图形格式。
特别值得一提的是,Magika 1.0在区分相似格式方面能力出众,能够准确区分JSONL与JSON、TSV与CSV,甚至能辨别C与C++、JavaScript与TypeScript等语言文件。

03 训练挑战:3TB数据与生成式AI的完美结合
在技术实现过程中,谷歌研发团队面临两大挑战:训练数据规模庞大与部分文件类型样本稀缺。
未压缩的数据集超过3TB,为此谷歌采用自研的SedPack数据集库,通过流式加载与解压技术实现高效训练。
针对样本不足的文件类型,研究团队使用生成式AI工具Gemini创建高质量的合成训练数据,将现有代码和结构化文件转换为其他格式,以增强模型的泛化能力。
这种创新方法解决了罕见文件类型样本匮乏的问题,大幅提升了模型的识别准确率和泛化能力。
04 安全应用:从谷歌产品到开源生态
Magika并非仅仅是实验室中的技术玩具,而是经过实战检验的安全利器。
在谷歌内部,Magika已被应用于Gmail、Google Drive和安全浏览器等产品中,有效提升文件安全性。
特别是在Gmail附件安全网关中,Magika通过流式处理快速识别文件类型,将结果实时传递给后续安全扫描流水线,成为抵御恶意文件的第一道防线。
谷歌还将Magika的代码和模型在GitHub上以Apache 2许可证的形式免费提供,赋能全球网络安全生态系统。
05 精准突破:AI识别相比传统方法显著提升
Magika在识别传统方法难以辨别的恶意代码内容方面表现突出,整体识别准确率提升30%,精确度提升95%。
这一突破性性能提升主要得益于其采用的定制化Keras模型,体积仅几MB却能覆盖200多种内容类型。
与传统基于规则的文件检测工具相比,Magika通过深度学习实现特征自学习,能有效识别那些无明显特征的伪装文件。
在谷歌内部测试中,Magika实现了99.2%的准确率,远超传统工具89.7%的表现。
06 开发者支持:多语言绑定简化集成
为降低开发者集成门槛,新版Magika同步更新了Python与TypeScript模块,简化了开发者在各语言中的集成过程。
用户可通过简单命令在Linux、macOS或Windows上安装原生客户端,也可通过pipx install magika安装Python包使用Rust版命令行工具。
谷歌表示,Magika的未来发展将持续聚焦于性能优化与文件类型扩展,并鼓励开发者社区参与贡献,包括测试、功能请求及代码提交。

关注 “悠AI” 更多干货技巧行业动态