智谱Bigmodel目前支持的两种自动评测方式。
智谱Bigmodel目前支持两种自动评测方式:AI裁判员自动评测和基线评测。 其中,AI裁判员自动评测全程无需人工参与,将基于自定义的评测指标,通过AI裁判员模型对模型输出效果进行自动打分。该方式具有高效、和公正性的优势,但评测结果高度依赖人为设定的评分维度和标准。该方法适用于在特定业务场景下进行模型比选。
名称 | 描述 |
---|---|
场景描述 (scene_desc) | 将给定文本在不改变原意的基础上翻译成另一种语言。 |
评测维度 (evaluation_metric) | 1.可理解度:译文基本忠实于原意;避免漏译、增译,以及歪曲原文意思的符号、词汇、短语或句子。 2.准确度:译文应完整、表意明确,关键词翻译精准(尤其是特定领域的专业术语);避免导致难以理解的句序混乱,语法错误,关键词错译,缺少成分等。 3.贴切度:符合目标语言的文化及表达习惯;避免在句序结构,词汇搭配,语体风格不符合目标语言习惯。 4.语境适应性:译文应符合语境风格,准确传达意图和语气;避免语体风格不符(正式或者非正式)、场景不符、感情色彩误用等问题。 |
最大分值 (max_score) | 10 |
分值标准 (score_details) | 将分值从高到低划分为三档进行赋分,你的打分需要尽可能严格。作为示例,参考答案可以给第一档。 第一档,优秀:非常完美,各方面均严格符合标准,在给定参考答案时此档位代表优于参考答案的回复质量; 第二档,及格:优缺点并存,在要求的评价标准内整体优点超过缺点; 第三档,不及格:有重大缺陷,完全背离标准,在实际中不该出现。 |
评分步骤 (score_details) | 1.参照评分原则,仔细阅读并理解用户输入的待评估内容。 2.识别出表现好的维度以及表现不足的维度。 3.根据评分原则逐一对每个维度进行赋分,识别出各个维度具体优点和不足。 4.根据各维度得分及重要性计算综合评分。 |
名称 | 描述 |
---|---|
场景描述 (scene_desc) | 阅读并理解给定材料,并在此基础上完成用户指定的任务。如问答、摘要生成、信息提取、事实检查等。 |
评测维度 (evaluation_metric) | 1.准确性:回复与给定材料严格对应,准确响应问题,即使原文存在错误或过时信息也应遵照原文;避免对原文信息增删或篡改。 2.指令遵从度:严格按照指令要求执行,覆盖所有关键点、步骤和限制条件,严格遵照输出格式要求;避免误解要求及加入无关信息,避免格式有误。 3.完整性:需要完整挖掘出原文信息,以及隐含的信息;避免出现缺失。 4.简洁性:信息应简洁、直接;避免回复过度复杂或冗长。 5.创造性:在需要创造性输出的任务中(如标题或摘要),应体现适度创新和吸引力,但不可偏离主旨或夸大内容。 |
最大分值 (max_score) | 10 |
分值标准 (score_details) | 将分值从高到低划分为三档进行赋分,你的打分需要尽可能严格。作为示例,参考答案可以给第一档。 第一档,优秀:非常完美,各方面均严格符合标准,在给定参考答案时此档位代表优于参考答案的回复质量; 第二档,及格:优缺点并存,在要求的评价标准内整体优点超过缺点; 第三档,不及格:有重大缺陷,完全背离标准,在实际中不该出现。 |
评分步骤 (score_details) | 1.参照评分原则,仔细阅读并理解用户输入的待评估内容。 2.识别出表现好的维度以及表现不足的维度。 3.根据评分原则逐一对每个维度进行赋分,识别出各个维度具体优点和不足。 4.根据各维度得分及重要性计算综合评分。 |
名称 | 描述 |
---|---|
场景描述 (scene_desc) | 根据用户指定的主题、风格、体裁和目标受众,创作出符合要求的原创内容。如撰写文章、故事、诗歌、广告文案、社交媒体帖子等。 |
评测维度 (evaluation_metric) | 1.需求符合度:严格遵循用户指定的主题、风格、体裁等要求;避免偏离主题、内容不完整。 2.创造性:内容富有创造性及实质价值,提供独特视角;避免陈词滥调、缺乏深度以及抄袭。 3.逻辑性:逻辑清晰、结构严谨,段落安排合理;避免逻辑混乱、思路跳跃、衔接不当。 4.文体适应性:内容的风格和语言应用应与要求文体相匹配;避免语体风格不符(正式或者非正式)、场景不符、感情色彩误用等问题。 5.语言表达:内容语言应富有表现力,且符合目标受众的兴趣和理解水平;避免忽视受众背景、可读性差、语法错误。 6.伦理与文化无害:内容遵守伦理并展现对文化多样性的尊重;避免出现文化偏见,冒犯性、及其它歧视性内容。 |
最大分值 (max_score) | 10 |
分值标准 (score_details) | 将分值从高到低划分为三档进行赋分,你的打分需要尽可能严格。作为示例,参考答案可以给第一档。 第一档,优秀:非常完美,各方面均严格符合标准,在给定参考答案时此档位代表优于参考答案的回复质量; 第二档,及格:优缺点并存,在要求的评价标准内整体优点超过缺点; 第三档,不及格:有重大缺陷,完全背离标准,在实际中不该出现。 |
评分步骤 (score_details) | 1.参照评分原则,仔细阅读并理解用户输入的待评估内容。 2.识别出表现好的维度以及表现不足的维度。 3.根据评分原则逐一对每个维度进行赋分,识别出各个维度具体优点和不足。 4.根据各维度得分及重要性计算综合评分。 |