DeepMind用「强化学习」训练「正能量」聊天机器人:再也不用担心AI乱说话了!

互联网2022-10-10 12:33:1699it.com.cn

磐创AI分享

转自 | 新智元 编辑 |LRS

【导读】 人工智能该如何克制自己不要说出「伤人心」的话?

近年来, 大型语言模型 (LLMs)已经在一系列任务中取得了 显著进 步 ,比如问题回答、文本摘要和人机对话等。

人机对话 是一项特别有趣的任务,因为它具有 灵活 和 互动的 交流特点,但基于LLM的对话智能体(dialogue agent)可能会表达 不准确的 、甚至是 捏造的信息 ,或者是使用 歧视性语言 , 鼓励用户进行危险行为 等。

为了创造更 安全 的 对话智能体 ,DeepMind在最新论文中提出了 Sparrow(麻雀)模型 ,探索了训练对话智能体的新方法,即 从人类的反馈中学习 ,使用基于研究参与者输入的 强化学习 ,能够 减少生成不安全和不适当答案的风险 。

相关推荐

猜你喜欢

大家正在看