导弹在天上飞,羊驼在地上追——Llama-3又大力出奇迹了,scaling law被玩明白了——没数据的话小杯模型追不上的,要看多模态、数据合成和moe的了~ 1. 不知道哪...
用户昵称:陌野东篱不系舟
Username:CC9B1989-9654-44A0-92AA-9C23E43E0360
导弹在天上飞,羊驼在地上追——Llama-3又大力出奇迹了,scaling law被玩明白了——没数据的话小杯模型追不上的,要看多模态、数据合成和moe的了~
1. 不知道哪搞来15T token的数据,相比lama2的2t,翻了7倍多;另外非英语只占了 5%,中文能力表现有了明显提升,不知道底层逻辑能力有没有质变;
2训练中用了lama2 来洗数据,一招梯云纵再次证明用模型来增强后续训练的可行性以及头部大模型的先发优势。
3.alignment没怎么搞
via 人工智能讨论组 - 即刻圈子 (author: 陌野东篱不系舟)
via ChatGPT 精选 - Telegram Channel (author: aibot)
用户昵称:陌野东篱不系舟
Username:CC9B1989-9654-44A0-92AA-9C23E43E0360
导弹在天上飞,羊驼在地上追——Llama-3又大力出奇迹了,scaling law被玩明白了——没数据的话小杯模型追不上的,要看多模态、数据合成和moe的了~
1. 不知道哪搞来15T token的数据,相比lama2的2t,翻了7倍多;另外非英语只占了 5%,中文能力表现有了明显提升,不知道底层逻辑能力有没有质变;
2训练中用了lama2 来洗数据,一招梯云纵再次证明用模型来增强后续训练的可行性以及头部大模型的先发优势。
3.alignment没怎么搞
via 人工智能讨论组 - 即刻圈子 (author: 陌野东篱不系舟)
via ChatGPT 精选 - Telegram Channel (author: aibot)