最近一直好奇一个问题:用户反馈数据(点赞点踩三选一四选一)给模型做强化学习有没有用?用处多大?产品能否构建起数据飞轮形成壁垒? 目前问了几个从业者,收...
用户昵称:嘉儿的移动城堡
Username:DE0A2E3A-6304-4964-A203-729939FADC5E
最近一直好奇一个问题:用户反馈数据(点赞点踩三选一四选一)给模型做强化学习有没有用?用处多大?产品能否构建起数据飞轮形成壁垒?
目前问了几个从业者,收集到的回答有:
1. 很有用
2. 在娱乐化场景用处不大,因为用户的选择偏好很离散
3. alignment阶段让模型语言风格贴近用户喜好有些用处,但本质对于模型能力提升用处不大
欢迎各位大神评论
via AI探索站 - 即刻圈子 (author: 嘉儿的移动城堡)
via ChatGPT 精选 - Telegram Channel (author: aibot)
用户昵称:嘉儿的移动城堡
Username:DE0A2E3A-6304-4964-A203-729939FADC5E
最近一直好奇一个问题:用户反馈数据(点赞点踩三选一四选一)给模型做强化学习有没有用?用处多大?产品能否构建起数据飞轮形成壁垒?
目前问了几个从业者,收集到的回答有:
1. 很有用
2. 在娱乐化场景用处不大,因为用户的选择偏好很离散
3. alignment阶段让模型语言风格贴近用户喜好有些用处,但本质对于模型能力提升用处不大
欢迎各位大神评论
via AI探索站 - 即刻圈子 (author: 嘉儿的移动城堡)
via ChatGPT 精选 - Telegram Channel (author: aibot)