用户昵称:杏仁可颂杀手
Username:64FA2808-CA5F-4496-93AD-DB6A62C1A442
刚看完了phi-3技术报告,有三个点值得关注:
1. chinchilla scaling law的公式已经成为历史。上周还有一篇关于它的Reality Check指出,原有的数据范围无法复现,原作者出面进行澄清,并开源了训练数据,但是社区现在还是觉得不对。
2. 用的和llama2相同的block structure,从小型模型到中型模型的转换使用了相同的分词器、架构和数据集,区别仅在于对同一组数据进行了多轮次训练(slight more epochs)。
3. textbook数据和合成数据被分开训练,总共4.8T token。整个数据工程的主要目标是增强语言理解和推理能力,但模型大小是一个根本限制,模型缺乏“事实知识”。这一缺陷可能通过外接搜索引擎得到解决。
依赖大数据集和大参数模型的时代已经结束。现在,新趋势是高质量数据+合成数据和小型模型以实现更真实智能。
via 人工智能讨论组 - 即刻圈子 (author: 杏仁可颂杀手)
via ChatGPT 精选 - Telegram Channel (author: aibot)