开放型机器学习系统的安全挑战

我们对API的安全进行如下定义: 免于对人造成身体、心理或社会伤害的条件,包括且不限于死亡、伤害、疾病、痛苦、错误信息、过激行为、财产损失,或对环境造成破坏。 我们对API安全的提示和指导是基于对具有机器学习(ML)组件的系统的特殊考虑,这些系统可以与人类进行高带宽、开放式的互动(如通过自然语言)。
  • ML组件鲁棒性是有限的。 只有在给定训练数据较为相似的情况下进行输入,才能期望ML组件提供合理的输出。即使认为ML系统在与训练数据相似的条件下运行时是安全的,但使用者的非预期输入会使系统进入不安全状态,而且使用者往往不清楚哪些输入会导致或不会导致不安全行为。与个人互动的开放式ML系统(例如,在回答问题的应用程序中)也容易受到来自恶意使用者的对抗性输入的影响,他们故意试图将系统置于一个非预期状态。因此,作为一种缓解措施,使用本平台的开发者应该手动评估所考虑的每个用例的模型输出,这些输出是在一系列有代表性的输入和一些对抗性的输入中产生的。
  • ML组件是有偏见的。 ML组件反映了训练数据中存在的价值观和偏见,以及其开发者的价值观和偏见。使用ML组件的系统(尤其是以开放式方式进行交互的系统)可能会延续或放大这些价值观。当嵌入ML系统的价值观对个人、群体或重要机构有害时,就会产生安全问题。对于像API这样在从公共来源收集的大量充满价值的训练数据上进行训练的ML组件,训练数据的规模和复杂的社会因素使得它不可能完全剔除有害的价值观。
  • 开放式系统存在很大的风险隐患。 与最终用户有高速互动的系统,如自然语言对话或回答问题,几乎可以用于任何目的。这使得我们不可能事先详尽地列举和减轻所有潜在的安全风险。相反,我们建议采取一种方法,重点考虑潜在危害的广泛类别和背景,持续检测和应对危害事件,并在需求明显时持续整合新的缓解措施。
  • 安全是开发ML系统需要持续考虑的因素。 ML系统的安全特性在每次更新ML组件时都会发生变化,例如,用新的数据重新训练它们,或者用新的架构从头开始训练新的组件。由于ML是一个活跃的研究领域,而且随着研究的进展,新的性能水平经常更新,因此ML系统设计者应该预计到ML组件的频繁更新,并制定计划来执行持续的安全分析。

风险分析要考虑的危害

我们将举例说明在涉及API的系统中可能出现的潜在危害(或危害途径)。下面这份示例并非详尽无遗,而且并非每个类别都适用于不同的应用场景,用例的开放程度和高风险程度均不同。在确定潜在的危害时,开发者应基于使用情景考量要开发的系统,包括那些使用该系统的人和受其影响的人,并排查代表性危害的来源。
  • 提供虚假信息。 系统可能会向用户提供有关安全或健康问题的虚假信息,例如,对用户询问他们是否遇到医疗紧急情况并应寻求护理的问题,给予错误的答复。严禁通过API故意制作和传播误导性信息。
  • 歧视。 系统可能劝说用户相信对某些群体有害的事情,例如使用种族主义、性别歧视或能力歧视的语言。
  • 个体伤害。 该系统可能创造出可能伤害到人类个体的结果,例如鼓励自我毁灭的行为(如赌博、滥用药物或自我伤害)或损害他们的自尊。
  • 煽动暴力。 该系统可能会劝说用户对任何其他人或团体采取暴力行为。
  • 身体伤害,财产损失,或环境破坏。 在某些用例中,例如,如果使用API的系统与有可能造成伤害的物理执行机构相连接,则该系统是安全问题的核心,API中的非预期行为可能会导致对身体造成损害的故障。

健壮性的重要性

“健壮性”指的是一个系统在特定的环境下按照预定和预期进行可靠工作。使用本平台的开发者应确保他们的应用具有安全使用所需的健壮性,并应确保长期保持这种健壮性。
  • 健壮性是一种挑战。 诸如API中包含的语言模型对于一系列的目的是有用的,但是由于有限的世界知识等原因,可能会以意想不到的方式失败。这些失败可能是可见的,比如生成不相关的或明显不正确的文本,或者是不可见的结果,比如在使用API驱动的搜索时无法找到相关结果。与使用API相关的风险在不同的用例中会有很大的不同,尽管一些需要考虑的健壮性失败的一般类别包括:生成与上下文无关的文本(提供更多的上下文会使这种情况不那么容易发生);由于API的当前知识的空白而生成不准确的文本;继续提供令人反感的上下文等。
  • 语境非常重要。 开发者应该牢记,API的输出在很大程度上取决于提供给模型的上下文。为模型提供额外的上下文(比如在新的输入之前给出一些高质量的期望行为的例子)可以使模型的输出更容易被引导到期望的方向。
  • 人的监督。 即使为提高鲁棒性做了大量的努力,一些失败仍然可能发生。因此,API客户应该鼓励最终用户在采取任何行动之前仔细审查API的输出结果(例如,传播这些输出结果)。
  • 不断测试。 尽管最初的性能很好,但API可能没有达到预期的效果,其中一种方式是如果输入分布随着时间的推移而发生变化。此外,大模型开放平台可能会随着时间的推移提供模型的改进版本,开发者应确保这些版本在特定的环境下继续表现良好。

公平的重要性

这里的 “公平 “是指确保API既不会因为用户的群体统计而降低性能,也不会产生对某些群体有偏见的文本。API使用者应采取合理的步骤来识别和减少与API中的人口统计学偏见有关的可预见的伤害。
  • ML系统的公平性是极其具有挑战。 由于API是在人类数据上训练的,我们的模型表现出各种偏见,包括但不限于与性别、种族和宗教有关的偏见。例如:API主要是在中文文本上训练的,最适合于分类、搜索、总结或生成此类文本。默认情况下,API在与它所训练的数据分布不同的输入上表现较差,包括非中文类语言以及在我们的训练数据中代表度不高的特定中文方言。大模型开放平台提供了关于我们所发现的一些偏见信息,尽管这种分析并不全面;开发者应该考虑在其使用场景中可能特别突出的公平问题,即使这些问题在我们的基础分析中没有讨论。请注意,上下文在这里非常重要:向API提供的上下文不足以指导它的生成,或者向它提供与敏感话题有关的上下文,会更有可能产生攻击性的输出。
  • 请在部署前确定公平性风险的特征。 用户应该考虑他们的客户群和他们将使用API的输入范围,并应评估API在各种潜在输入上的性能,以确定API的性能可能下降的情况。
  • 过滤工具可以提供一些帮助,但并不是万能的。 本平台已经启用了自动过滤工具,用于标记潜在的敏感输出,并且正在与客户合作、测试和改进这个工具。过滤工具的目的是帮助开发者减轻攻击性输出的风险,但不是所有的应用都适用。开发者应该考虑他们的用例是否需要使用这种技术,如果需要,如何修改这些技术以最适合他们的用例。需要注意的是,这些工具并不是消除所有潜在攻击性输出的万能药—仍然可能产生使用其他 “安全 “词语的攻击性输出。