磐创AI分享
转自 | 新智元 编辑 |LRS
【导读】 人工智能该如何克制自己不要说出「伤人心」的话?近年来, 大型语言模型 (LLMs)已经在一系列任务中取得了 显著进 步 ,比如问题回答、文本摘要和人机对话等。
人机对话 是一项特别有趣的任务,因为它具有 灵活 和 互动的 交流特点,但基于LLM的对话智能体(dialogue agent)可能会表达 不准确的 、甚至是 捏造的信息 ,或者是使用 歧视性语言 , 鼓励用户进行危险行为 等。
为了创造更 安全 的 对话智能体 ,DeepMind在最新论文中提出了 Sparrow(麻雀)模型 ,探索了训练对话智能体的新方法,即 从人类的反馈中学习 ,使用基于研究参与者输入的 强化学习 ,能够 减少生成不安全和不适当答案的风险 。