京东推出 JoyAI-LLM-Flash 大模型,推动 AI 技术革新
京东于 2 月 14 日在 Hugging Face 平台上正式开源了其最新的大模型 ——JoyAI-LLM-Flash。该模型总参数达到 48 亿,其中激活参数为 3 亿,经过 20 万亿文本 Token 的预训练,展现出卓越的前沿知识理解、推理能力和编程技能。
JoyAI-LLM-Flash 采用全新 FiberPO 优化框架,将纤维丛理论引入强化学习,并结合 Muon 优化器及稠密多 Token 预测技术,成功解决了传统模型规模扩展时的不稳定问题。与非 MTP 版本相比,其吞吐量提升了 1.3 倍至 1.7 倍,极大增强了模型的训练效率和应用潜力。
这款模型的架构为混合专家模型(MoE),层数达到 40 层,支持 128K 的上下文长度和 129K 的词表大小,标志着京东在 AI 领域的重要进展。
via AI新闻资讯 (author: AI Base)
京东于 2 月 14 日在 Hugging Face 平台上正式开源了其最新的大模型 ——JoyAI-LLM-Flash。该模型总参数达到 48 亿,其中激活参数为 3 亿,经过 20 万亿文本 Token 的预训练,展现出卓越的前沿知识理解、推理能力和编程技能。
JoyAI-LLM-Flash 采用全新 FiberPO 优化框架,将纤维丛理论引入强化学习,并结合 Muon 优化器及稠密多 Token 预测技术,成功解决了传统模型规模扩展时的不稳定问题。与非 MTP 版本相比,其吞吐量提升了 1.3 倍至 1.7 倍,极大增强了模型的训练效率和应用潜力。
这款模型的架构为混合专家模型(MoE),层数达到 40 层,支持 128K 的上下文长度和 129K 的词表大小,标志着京东在 AI 领域的重要进展。
via AI新闻资讯 (author: AI Base)