苹果发布 Apple Intelligence 基础模型技术报告

报告公布两款多语言、多模态基础模型:一款约 3 B 参数的 本地模型(针对 Apple Silicon 优化),和一款基于 Parallel‑Track Mixture‑of‑Experts(PT‑MoE) 的 服务器模型,部署于 Private Cloud Compute。
本地模型通过 KV‑Cache Sharing 把 37.5 % 的层去掉 KV 投影并与前层共享缓存,令 TTFT 缩短约 37 %。
服务器模型将解码器拆分为并行“轨道”,每 N 层同步一次,最多可削减 87.5 % 同步开销;再叠加 MoE 层提高稀疏计算效率。
数据来自 Applebot 负责任抓取、授权语料与高质量合成内容,规模达 14 T tokens;视觉分支预训练于 6 B+ 图文对后与 LLM 联合训练,可处理图像‑文本混合输入。

性能上, 在 MMLU / MMMLU / MGSM 基准上,本地 3 B 模型 (67.9 / 60.6 / 74.9) 超过 Qwen‑2.5‑3B 与 Gemma‑3‑4B,同级最优;服务器版 (80.2 / 74.6 / 87.1) 与 LLaMA 4 Scout 接近,但落后更大的 Qwen‑3‑235B 与 GPT‑4o。
压缩后,本地模型权重仅 2 bit、服务器侧 3.56 bit,质量几乎无损,且推理速率与 DRAM 占用显著下降
新框架提供 Guided Generation(约束解码)、结构化 Tool Calling 与 LoRA 适配微调,一行 Swift 代码即可接入本地模型;底层采用受控解码与推测解码保证格式正确并提升速度。
提供 Python 工具链训练 rank‑32 LoRA 适配器,并支持草稿模型以启用设备端 speculative decoding。



via LoopDNS资讯播报 - Telegram Channel
 
 
Back to Top
Copyright © 2025 BESTAI. All rights reserved.
BEST AI API中转 - OpenAI DeepSeek Claude Gemini Grok MidJourney 2.8折起
[email protected]