谷歌发布了Magika 1.0,这是其基于人工智能的文件类型检测工具的稳定版本,并采用 Rust 语言重写了整个引擎,以提升速度和内存安全性。该系统现在可以识别超过 200 种文件类型(此前约为 100 种),并且能够更好地区分 JSON 与 JSONL、TSV 与 CSV、C 与 C++ 以及 JavaScript 与 TypeScript 等外观相似的格式。
谷歌团队使用了一个 3TB 的训练数据集,甚至借助 Gemini 为罕见文件类型生成合成样本,从而使 Magika 能够处理那些没有大型公开语料库的文件格式。该工具支持 Python 和 TypeScript 集成,并提供原生 Rust 命令行客户端。
谷歌开源博客
via 君宇 方
🍀在花频道 🍵茶馆 📮投稿新鲜事
via 科技圈🎗在花频道📮 - Telegram Channel