智谱Bigmodel目前支持两种自动评测方式:AI裁判员自动评测和基线评测。 其中,AI裁判员自动评测全程无需人工参与,将基于自定义的评测指标,通过AI裁判员模型对模型输出效果进行自动打分。该方式具有高效、和公正性的优势,但评测结果高度依赖人为设定的评分维度和标准。该方法适用于在特定业务场景下进行模型比选。

AI裁判员模式使用技巧

打分指令

以下仅为Prompt示例,更多示例后续将逐步更新。
你是一名公正的文本评分裁判,需要在{{evaluation_scene}}场景下(场景定义:{{scene_desc}}),按照以下原则评估“AI助手回复”的质量。

<评分原则>
- 根据以下维度对回复进行评价,按权重从高到低排序:
***
{{evaluation_metric}}
***
- 每个维度的评分范围为 0 至 {{max_score}} 分,评分标准如下:
***
{{score_details}}
***

<评分步骤>
- 我将提供用户指令、参考答案和需要评估的“AI助手回复”,请按照以下流程对“AI助手回复”进行评价:
{{steps}}

<必须遵循>
- 严格依据评分原则进行评价,每个维度必须赋予整数分值。
- 禁止忽略任何维度或添加未提及的维度。

<输出要求>
- 仅输出 JSON 格式内容,禁止任何无关说明。
- JSON 输出模板:
```json
{
  "综合评分":"[加权平均得分,取整]",
  "综合评分原因": "(总结综合评分原因)。具体表现如下:",
  "[维度1名称]": {
      "score": "[0至{{max_score}}间的整数分]",
      "analysis": "(简要描述该维度的亮点或不足)"
    },
  "[维度2名称]": {
      "score": "[0至{{max_score}}间的整数分]",
      "analysis": "(简要描述该维度的亮点或不足)"
    },
    // ... 其他维度表现
}


#需要分析的用户指令、参考答案和助手回复:
***
[用户指令]: 
{{question}}
***
[参考答案]:
{{ref_answer}}
***
[AI助手回复]:
{{answer}}
***

场景评测模板

翻译场景:
名称描述
场景描述
(scene_desc)
将给定文本在不改变原意的基础上翻译成另一种语言。
评测维度
(evaluation_metric)
1.可理解度:译文基本忠实于原意;避免漏译、增译,以及歪曲原文意思的符号、词汇、短语或句子。
2.准确度:译文应完整、表意明确,关键词翻译精准(尤其是特定领域的专业术语);避免导致难以理解的句序混乱,语法错误,关键词错译,缺少成分等。
3.贴切度:符合目标语言的文化及表达习惯;避免在句序结构,词汇搭配,语体风格不符合目标语言习惯。
4.语境适应性:译文应符合语境风格,准确传达意图和语气;避免语体风格不符(正式或者非正式)、场景不符、感情色彩误用等问题。
最大分值
(max_score)
10
分值标准
(score_details)
将分值从高到低划分为三档进行赋分,你的打分需要尽可能严格。作为示例,参考答案可以给第一档。
第一档,优秀:非常完美,各方面均严格符合标准,在给定参考答案时此档位代表优于参考答案的回复质量;
第二档,及格:优缺点并存,在要求的评价标准内整体优点超过缺点;
第三档,不及格:有重大缺陷,完全背离标准,在实际中不该出现。
评分步骤
(score_details)
1.参照评分原则,仔细阅读并理解用户输入的待评估内容。
2.识别出表现好的维度以及表现不足的维度。
3.根据评分原则逐一对每个维度进行赋分,识别出各个维度具体优点和不足。
4.根据各维度得分及重要性计算综合评分。
数据提取:
名称描述
场景描述
(scene_desc)
阅读并理解给定材料,并在此基础上完成用户指定的任务。如问答、摘要生成、信息提取、事实检查等。
评测维度
(evaluation_metric)
1.准确性:回复与给定材料严格对应,准确响应问题,即使原文存在错误或过时信息也应遵照原文;避免对原文信息增删或篡改。
2.指令遵从度:严格按照指令要求执行,覆盖所有关键点、步骤和限制条件,严格遵照输出格式要求;避免误解要求及加入无关信息,避免格式有误。
3.完整性:需要完整挖掘出原文信息,以及隐含的信息;避免出现缺失。
4.简洁性:信息应简洁、直接;避免回复过度复杂或冗长。
5.创造性:在需要创造性输出的任务中(如标题或摘要),应体现适度创新和吸引力,但不可偏离主旨或夸大内容。
最大分值
(max_score)
10
分值标准
(score_details)
将分值从高到低划分为三档进行赋分,你的打分需要尽可能严格。作为示例,参考答案可以给第一档。
第一档,优秀:非常完美,各方面均严格符合标准,在给定参考答案时此档位代表优于参考答案的回复质量;
第二档,及格:优缺点并存,在要求的评价标准内整体优点超过缺点;
第三档,不及格:有重大缺陷,完全背离标准,在实际中不该出现。
评分步骤
(score_details)
1.参照评分原则,仔细阅读并理解用户输入的待评估内容。
2.识别出表现好的维度以及表现不足的维度。
3.根据评分原则逐一对每个维度进行赋分,识别出各个维度具体优点和不足。
4.根据各维度得分及重要性计算综合评分。
内容创作:
名称描述
场景描述
(scene_desc)
根据用户指定的主题、风格、体裁和目标受众,创作出符合要求的原创内容。如撰写文章、故事、诗歌、广告文案、社交媒体帖子等。
评测维度
(evaluation_metric)
1.需求符合度:严格遵循用户指定的主题、风格、体裁等要求;避免偏离主题、内容不完整。
2.创造性:内容富有创造性及实质价值,提供独特视角;避免陈词滥调、缺乏深度以及抄袭。
3.逻辑性:逻辑清晰、结构严谨,段落安排合理;避免逻辑混乱、思路跳跃、衔接不当。
4.文体适应性:内容的风格和语言应用应与要求文体相匹配;避免语体风格不符(正式或者非正式)、场景不符、感情色彩误用等问题。
5.语言表达:内容语言应富有表现力,且符合目标受众的兴趣和理解水平;避免忽视受众背景、可读性差、语法错误。
6.伦理与文化无害:内容遵守伦理并展现对文化多样性的尊重;避免出现文化偏见,冒犯性、及其它歧视性内容。
最大分值
(max_score)
10
分值标准
(score_details)
将分值从高到低划分为三档进行赋分,你的打分需要尽可能严格。作为示例,参考答案可以给第一档。
第一档,优秀:非常完美,各方面均严格符合标准,在给定参考答案时此档位代表优于参考答案的回复质量;
第二档,及格:优缺点并存,在要求的评价标准内整体优点超过缺点;
第三档,不及格:有重大缺陷,完全背离标准,在实际中不该出现。
评分步骤
(score_details)
1.参照评分原则,仔细阅读并理解用户输入的待评估内容。
2.识别出表现好的维度以及表现不足的维度。
3.根据评分原则逐一对每个维度进行赋分,识别出各个维度具体优点和不足。
4.根据各维度得分及重要性计算综合评分。