新算法让“键盘侠”闭嘴，阻止不当言论的传播

分享到：

Sue Xiao • 2022-04-22 17:44:32　来源：前瞻网　E13160G0

近日，美国加州大学圣地亚哥分校的研究人员已经开发出算法，以消除在线机器人在社交媒体和其他地方产生的攻击性言论。

聊天机器人使用攻击性语言是一个持续的问题。最有名的例子可能是微软在2016年3月发布的Twitter聊天机器人Tay。在不到24小时内，Tay从Twitter上的对话中学习，开始重复一些在推特上发表的最令人反感的言论，包括种族主义和对女性不尊重的言论。

研究人员说：“作为研究人员，我们正在全面考虑语言模型的社会影响，并解决相关问题。”

研究人员和业界人士已经尝试了几种方法来清理机器人的语音，但都成效甚微。

加州大学圣地亚哥分校的计算机科学家团队首先将有攻击性的提示输入一个预先训练好的语言模型，让它产生有攻击性预言。然后，研究人员对该模型进行了训练，以预测该模型产生有攻击性内容的可能性。他们称此为“邪恶模型”。然后他们训练了一个“好人模型”，这个模型被教导要避免所有被“邪恶模型”高度录用的内容。

研究验证，“好人模型”将“有毒”内容清干净的成功率达到23%。他们在2022年3月在线举行的AAAI人工智能会议上展示了他们的工作。

该研究论文题为"Leashing the Inner Demons: Self-Detoxification for Language Models"，已发表在arXiv上。

前瞻经济学人APP资讯组

论文原文：https://arxiv.org/abs/2203.03072

本文来源前瞻网，转载请注明来源。本文内容仅代表作者个人观点，本站只提供参考并不构成任何投资及应用建议。（若存在内容、版权或其它问题，请联系：service@qianzhan.com）　品牌合作与广告投放请联系：0755-33069875 或 hezuo@qianzhan.com

标签：算法言论

品牌、内容合作请点这里：寻求合作 ››

前瞻经济学人微信二维码

专注于中国各行业市场分析、未来发展趋势等。扫一扫立即关注。

前瞻产业研究院微信二维码

如何抓准行业的下一个风口？未来5年10年行业趋势如何把握？扫一扫立即关注。

让您成为更懂趋势的人

想看更多前瞻的文章？扫描右侧二维码，还可以获得以下福利：

相关阅读RELEVANT