谷歌发布Magika 1.0

谷歌发布了Magika 1.0,这是其基于人工智能的文件类型检测工具的稳定版本,并采用 Rust 语言重写了整个引擎,以提升速度和内存安全性。该系统现在可以识别超过 200 种文件类型(此前约为 100 种),并且能够更好地区分 JSON 与 JSONL、TSV 与 CSV、C 与 C++ 以及 JavaScript 与 TypeScript 等外观相似的格式。

谷歌团队使用了一个 3TB 的训练数据集,甚至借助 Gemini 为罕见文件类型生成合成样本,从而使 Magika 能够处理那些没有大型公开语料库的文件格式。该工具支持 Python 和 TypeScript 集成,并提供原生 Rust 命令行客户端。

谷歌开源博客

via 君宇 方

🍀在花频道 🍵茶馆 📮投稿新鲜事

via 科技圈🎗在花频道📮 - Telegram Channel
 
 
Back to Top
Copyright © 2025 BESTAI. All rights reserved.
BEST AI API中转 - OpenAI DeepSeek Claude Gemini Grok MidJourney API 2.8折起
[email protected]