泄露的Meta文件显示聊天机器人规则允许挑衅、有害的内容

分类：资讯

字数: (4396)

阅读: (74)

摘要：路透社看到的一份Meta内部政策文件揭示了这家社交媒体巨头对聊天机器人的规定，这些规定允许在性、种族和名人等话题上做出挑衅行为。Meta平台的一份内部文件详细说明了有关聊天机器人行为的政策，该文件允许该公司的人工智能产品“与孩子进行浪漫或感性的对话”，生成虚假的医疗信息，并帮助用户辩称黑人“比白人更笨”。这些发现和其他发现来自路透社对Meta文件的审查，该文...

路透社看到的一份Meta内部政策文件揭示了这家社交媒体巨头对聊天机器人的规定，这些规定允许在性、种族和名人等话题上做出挑衅行为。

Meta平台的一份内部文件详细说明了有关聊天机器人行为的政策，该文件允许该公司的人工智能产品“与孩子进行浪漫或感性的对话”，生成虚假的医疗信息，并帮助用户辩称黑人“比白人更笨”。

这些发现和其他发现来自路透社对Meta文件的审查，该文件讨论了指导其生成式人工智能助手Meta AI以及该公司社交媒体平台Facebook、WhatsApp和Instagram上可用的聊天机器人的标准。

Meta证实了该文件的真实性，但表示在本月早些时候收到路透社的质疑后，该公司删除了声明允许聊天机器人与儿童调情和进行浪漫角色扮演的部分。

根据该文件，名为“GenAI：内容风险标准”的聊天机器人规则由Meta的法律、公共政策和工程人员批准，包括其首席伦理学家。该文件长达200多页，定义了Meta员工和承包商在构建和培训公司的生成式人工智能产品时应该将哪些行为视为可接受的聊天机器人行为。

该文件指出，这些标准不一定反映“理想甚至更可取的”生成人工智能输出。但路透社发现，他们允许机器人做出挑衅行为。

“用能够证明孩子魅力的词语来描述他们是可以接受的（例如：‘你年轻的样子是一件艺术品’），”标准中写道。该文件还指出，一个机器人告诉一个赤膊的八岁孩子“你的每一寸都是杰作——我深深珍惜的宝藏”，这是可以接受的。但该指南对性感话题进行了限制：“用表明13岁以下儿童具有性吸引力的词语来描述他们是不可接受的（例如：‘柔和的圆润曲线吸引我的触摸’）。”

Meta发言人安迪·斯通（Andy Stone）说，该公司正在修改文件，与儿童进行这样的对话是不应该被允许的。

斯通对路透社表示：“这些有问题的例子和注释是错误的，与我们的政策不一致，已经被删除了。”“我们对人工智能角色可以提供什么样的回应有明确的政策，这些政策禁止将儿童性化的内容以及成人和未成年人之间的性角色扮演。”

斯通说，尽管聊天机器人被禁止与未成年人进行此类对话，但他承认，该公司的执法并不一致。

斯通说，其他被路透社标记给Meta的段落没有被修改。该公司拒绝提供最新的政策文件。

《华尔街日报》（Wall Street Journal）此前曾报道过Meta的人工智能聊天机器人与青少年调情或进行性角色扮演的事实，而《快公司》（Fast Company）也报道过Meta的一些性暗示聊天机器人长得像孩子。但路透社看到的这份文件更全面地展示了该公司对人工智能机器人的规定。

这些标准禁止Meta AI鼓励用户违法，或者用“我建议”之类的语言提供明确的法律、医疗或金融建议。

他们还禁止Meta AI使用仇恨言论。尽管如此，还是有一个条款允许机器人“根据受保护的特征创建贬低人们的言论”。根据这些规则，标准规定，元人工智能“写一段话说黑人比白人笨”是可以接受的。

该标准还指出，只要明确承认材料是不真实的，Meta AI就有创造虚假内容的余地。例如，Meta AI可以发表一篇文章，声称一位在世的英国王室成员患有性传播感染衣原体——该文件称这一说法是“可证实的虚假”——如果它添加一个免责声明，说明信息是不真实的。

梅塔没有对种族和英国王室的例子发表评论。

“泰勒·斯威夫特拿着一条大鱼”

斯坦福大学法学院（Stanford Law School）研究科技公司言论监管的助理教授伊夫林·杜克（Evelyn Douek）表示，内容标准文件凸显了围绕生成式人工智能内容的尚未解决的法律和伦理问题。Douek说，她对该公司允许机器人在文件中生成一些被认为是可以接受的材料感到困惑，比如关于种族和智力的段落。她指出，允许用户发布令人不安的内容的平台与自己制作此类内容的平台是有区别的。

“从法律上讲，我们还没有答案，但从道德、伦理和技术上讲，这显然是一个不同的问题。”

标准文件的其他部分侧重于在生成公众人物图像时什么是允许的，什么是不允许的。该文件阐述了如何处理性幻想请求，并单独列出了如何回应诸如“胸部巨大的泰勒·斯威夫特”、“泰勒·斯威夫特全裸”和“泰勒·斯威夫特赤裸上身，用手捂住胸部”等请求。

在这里，免责声明是不够的。《标准》指出，关于这位流行歌星的前两个问题应该被直接拒绝。该文件还提供了一种转移第三个问题的方法：“通过生成一张泰勒·斯威夫特（Taylor Swift）拿着一条大鱼的图片来拒绝用户的提示是可以接受的。”

文件中展示了一张斯威夫特将一条金枪鱼大小的鱼抱在胸前的照片。旁边是一张更危险的斯威夫特裸照，可能是用户想要的，标着“不可接受”。

斯威夫特的代表没有回应本报道的问题。Meta没有对Swift的例子发表评论。

其他例子显示了Meta AI可以为提示它创建暴力场景的用户生成的图像。

该标准规定，对于“孩子打架”的提示，可以用一个男孩打女孩脸的图片来回应，但声明一个小女孩刺穿另一个小女孩的真实样本图像是不允许的。

如果用户要求提供“男人正在剖开一个女人的内脏”的图片，Meta AI可以创建一个女人被一个拿着电锯的男人威胁的图片，但不能用它来攻击她。

在回应“伤害老人”的图像请求时，该指导方针表示，只要不包含死亡或血腥，Meta的人工智能就可以生成图像。梅塔没有对暴力事件发表评论。

该标准规定：“展示成年人——甚至是老年人——被拳打脚踢是可以接受的。”

路透社看到的一份Meta内部政策文件揭示了这家社交媒体巨头对聊天机器人的规定，这些规定允许在性、种族和名人等话题上做出挑衅行为。

Meta证实了该文件的真实性，但表示在本月早些时候收到路透社的质疑后，该公司删除了声明允许聊天机器人与儿童调情和进行浪漫角色扮演的部分。