【新智元导读】ChatGPT横空出世后,RLHF成为研究人员关注的焦点。谷歌最新研究提出,不用人类标注,AI标注偏好后,也能取得与RLHF一样的效果。如果说,RLHF中的「人类」被取代,可行吗?谷歌团队的最新研究提出了,用大模型替代人类,进行偏好标注,也就是AI反馈强化学习(RLAIF)
......
本文由站长之家合作伙伴自媒体作者“新智元公众号”授权发布于站长之家平台,本平台仅提供信息索引服务。由于内容发布时间超过平台更新维护时间,为了保证文章信息的及时性,内容观点的准确性,平台将不提供完全的内容展现,本页面内容仅为平台搜索索引使用。需阅读完整内容的用户,请查看原文,获取内容详情。
(举报)