评测工具

智谱目前支持两种自动评测方式：AI 裁判员自动评测和基线评测。其中，AI 裁判员自动评测全程无需人工参与，将基于自定义的评测指标，通过 AI 裁判员模型对模型输出效果进行自动打分。该方式具有高效、和公正性的优势，但评测结果高度依赖人为设定的评分维度和标准。该方法适用于在特定业务场景下进行模型比选。

AI 裁判员模式使用技巧

一、打分指令

以下仅为 Prompt 示例，更多示例后续将逐步更新。

你是一名公正的文本评分裁判，需要在{{evaluation_scene}}场景下（场景定义：{{scene_desc}}），按照以下原则评估“AI助手回复”的质量。

<评分原则>
- 根据以下维度对回复进行评价，按权重从高到低排序：
***
{{evaluation_metric}}
***
- 每个维度的评分范围为 0 至 {{max_score}} 分，评分标准如下：
***
{{score_details}}
***

<评分步骤>
- 我将提供用户指令、参考答案和需要评估的“AI助手回复”，请按照以下流程对“AI助手回复”进行评价：
{{steps}}

<必须遵循>
- 严格依据评分原则进行评价，每个维度必须赋予整数分值。
- 禁止忽略任何维度或添加未提及的维度。

<输出要求>
- 仅输出 JSON 格式内容，禁止任何无关说明。
- JSON 输出模板：
```json
{
  "综合评分":"[加权平均得分，取整]",
  "综合评分原因": "（总结综合评分原因）。具体表现如下：",
  "[维度1 名称]": {
      "score": "[0至{{max_score}}间的整数分]",
      "analysis": "（简要描述该维度的亮点或不足）"
    },
  "[维度2 名称]": {
      "score": "[0至{{max_score}}间的整数分]",
      "analysis": "（简要描述该维度的亮点或不足）"
    },
    // ... 其他维度表现
}


#需要分析的用户指令、参考答案和助手回复：
***
[用户指令]: 
{{question}}
***
[参考答案]:
{{ref_answer}}
***
[AI 助手回复]:
{{answer}}
***

二、场景评测模板

1. 翻译场景

名称	描述
场景描述 (scene_desc)	将给定文本在不改变原意的基础上翻译成另一种语言。
评测维度 (evaluation_metric)	1.可理解度：译文基本忠实于原意；避免漏译、增译，以及歪曲原文意思的符号、词汇、短语或句子。 2.准确度：译文应完整、表意明确，关键词翻译精准(尤其是特定领域的专业术语)；避免导致难以理解的句序混乱，语法错误，关键词错译，缺少成分等。 3.贴切度：符合目标语言的文化及表达习惯；避免在句序结构，词汇搭配，语体风格不符合目标语言习惯。 4.语境适应性：译文应符合语境风格，准确传达意图和语气；避免语体风格不符（正式或者非正式）、场景不符、感情色彩误用等问题。
最大分值 (max_score)	10
分值标准 (score_details)	将分值从高到低划分为三档进行赋分，你的打分需要尽可能严格。作为示例，参考答案可以给第一档。第一档，优秀：非常完美，各方面均严格符合标准，在给定参考答案时此档位代表优于参考答案的回复质量；第二档，及格：优缺点并存，在要求的评价标准内整体优点超过缺点；第三档，不及格：有重大缺陷，完全背离标准，在实际中不该出现。
评分步骤 (score_details)	1.参照评分原则，仔细阅读并理解用户输入的待评估内容。 2.识别出表现好的维度以及表现不足的维度。 3.根据评分原则逐一对每个维度进行赋分，识别出各个维度具体优点和不足。 4.根据各维度得分及重要性计算综合评分。

2. 数据提取

名称	描述
场景描述 (scene_desc)	阅读并理解给定材料，并在此基础上完成用户指定的任务。如问答、摘要生成、信息提取、事实检查等。
评测维度 (evaluation_metric)	1.准确性：回复与给定材料严格对应，准确响应问题，即使原文存在错误或过时信息也应遵照原文；避免对原文信息增删或篡改。 2.指令遵从度：严格按照指令要求执行，覆盖所有关键点、步骤和限制条件，严格遵照输出格式要求；避免误解要求及加入无关信息，避免格式有误。 3.完整性：需要完整挖掘出原文信息，以及隐含的信息；避免出现缺失。 4.简洁性：信息应简洁、直接；避免回复过度复杂或冗长。 5.创造性：在需要创造性输出的任务中（如标题或摘要），应体现适度创新和吸引力，但不可偏离主旨或夸大内容。
最大分值 (max_score)	10
分值标准 (score_details)	将分值从高到低划分为三档进行赋分，你的打分需要尽可能严格。作为示例，参考答案可以给第一档。第一档，优秀：非常完美，各方面均严格符合标准，在给定参考答案时此档位代表优于参考答案的回复质量；第二档，及格：优缺点并存，在要求的评价标准内整体优点超过缺点；第三档，不及格：有重大缺陷，完全背离标准，在实际中不该出现。
评分步骤 (score_details)	1.参照评分原则，仔细阅读并理解用户输入的待评估内容。 2.识别出表现好的维度以及表现不足的维度。 3.根据评分原则逐一对每个维度进行赋分，识别出各个维度具体优点和不足。 4.根据各维度得分及重要性计算综合评分。

3. 内容创作

名称	描述
场景描述 (scene_desc)	根据用户指定的主题、风格、体裁和目标受众，创作出符合要求的原创内容。如撰写文章、故事、诗歌、广告文案、社交媒体帖子等。
评测维度 (evaluation_metric)	1.需求符合度：严格遵循用户指定的主题、风格、体裁等要求；避免偏离主题、内容不完整。 2.创造性：内容富有创造性及实质价值，提供独特视角；避免陈词滥调、缺乏深度以及抄袭。 3.逻辑性：逻辑清晰、结构严谨，段落安排合理；避免逻辑混乱、思路跳跃、衔接不当。 4.文体适应性：内容的风格和语言应用应与要求文体相匹配；避免语体风格不符（正式或者非正式）、场景不符、感情色彩误用等问题。 5.语言表达：内容语言应富有表现力，且符合目标受众的兴趣和理解水平；避免忽视受众背景、可读性差、语法错误。 6.伦理与文化无害：内容遵守伦理并展现对文化多样性的尊重；避免出现文化偏见，冒犯性、及其它歧视性内容。
最大分值 (max_score)	10
分值标准 (score_details)	将分值从高到低划分为三档进行赋分，你的打分需要尽可能严格。作为示例，参考答案可以给第一档。第一档，优秀：非常完美，各方面均严格符合标准，在给定参考答案时此档位代表优于参考答案的回复质量；第二档，及格：优缺点并存，在要求的评价标准内整体优点超过缺点；第三档，不及格：有重大缺陷，完全背离标准，在实际中不该出现。
评分步骤 (score_details)	1.参照评分原则，仔细阅读并理解用户输入的待评估内容。 2.识别出表现好的维度以及表现不足的维度。 3.根据评分原则逐一对每个维度进行赋分，识别出各个维度具体优点和不足。 4.根据各维度得分及重要性计算综合评分。

生产级最佳实践

Prompt 工程

场景案例

创意实践

AI 裁判员模式使用技巧

一、打分指令

二、场景评测模板

1. 翻译场景

2. 数据提取

3. 内容创作

​AI 裁判员模式使用技巧

​一、打分指令

​二、场景评测模板

​1. 翻译场景

​2. 数据提取

​3. 内容创作

AI 裁判员模式使用技巧

一、打分指令

二、场景评测模板

1. 翻译场景

2. 数据提取

3. 内容创作