Hugging Face 开源“世界最大”AI 训练合成数据集 Cosmopedia

Hugging Face 近日开源了一款名为“Cosmopedia”的 AI 训练数据集,号称是目前世界上最大的合成数据集。该数据集内容均由 Mixtral 7b 模型汇总生成,其中包含大量教科书、博客文章、故事小说、WikiHow 教程,共计 250 亿个 Token。

Hugging Face 表示,这次开源的数据集为 0.1 版本,未来团队还将持续更新该数据集,推进业界 AI 训练发展。

项目地址:huggingface.co
消息来源:ithome

线索:@ZaiHuabot
投稿:@TNSubmbot
频道:@TestFlightCN

via 软件新闻投稿频道📮在花 - Telegram Channel
 
 
Back to Top
Copyright © 2025 BESTAI. All rights reserved.
BEST AI API中转 - OpenAI DeepSeek Claude Gemini Grok MidJourney 2.8折起
[email protected]