内置评分器
🌐 Built-in Scorers
Mastra 提供了一套全面的内置评分器,用于评估 AI 输出。这些评分器针对常见的评估场景进行了优化,可直接在你的代理和工作流程中使用。
🌐 Mastra provides a comprehensive set of built-in scorers for evaluating AI outputs. These scorers are optimized for common evaluation scenarios and are ready to use in your agents and workflows.
要创建你自己的评分器,请参阅 自定义评分器 指南。
🌐 To create your own scorers, see the Custom Scorers guide.
可用得分手Direct link to 可用得分手
🌐 Available scorers
准确性和可靠性Direct link to 准确性和可靠性
🌐 Accuracy and reliability
这些评分者会评估你的代理回答的正确性、真实性和完整性:
🌐 These scorers evaluate how correct, truthful, and complete your agent's answers are:
answer-relevancy:评估响应对输入查询的对应程度(0-1,数值越高越好)answer-similarity:使用语义分析比较代理输出与真实答案,以进行 CI/CD 测试(0-1,值越高越好)faithfulness:衡量回答与提供的上下文(0-1,值越高越好)的一致准确性hallucination:检测事实矛盾和无支持的主张(0-1,数值越低越好)completeness:检查回答是否包含所有必要信息(0-1,数值越高越好)content-similarity:使用字符级匹配测量文本相似度(0-1,值越高越好)textual-difference:衡量字符串之间的文本差异(0-1,数值越高表示越相似)tool-call-accuracy:评估大型语言模型是否从可用选项中选择正确的工具(0-1,数值越高越好)prompt-alignment:衡量代理响应与用户提示意图、要求、完整性和格式的匹配程度(0-1,数值越高越好)
上下文质量Direct link to 上下文质量
🌐 Context quality
这些评分者会评估在生成回答时所使用的上下文的质量和相关性:
🌐 These scorers evaluate the quality and relevance of context used in generating responses:
context-precision:使用平均精度均值评估上下文相关性和排序,奖励将相关上下文(0-1,值越高越好)放在前面context-relevance:通过细微的相关性等级、使用追踪以及缺失上下文检测来衡量上下文效用(0-1,越高越好)
提示 上下文评分器选择
- 当上下文排序很重要且你需要标准的信息检索指标时,使用 上下文精确度(Context Precision)(非常适合 RAG 排名评估)
- 当你需要详细的相关性评估,并希望跟踪上下文使用情况及识别空白时,使用 上下文相关性(Context Relevance)
两种上下文评分器都支持:
- 静态上下文:预定义的上下文数组
- 动态上下文提取:使用自定义函数从运行中提取上下文(非常适合 RAG 系统、向量数据库等)
输出质量Direct link to 输出质量
🌐 Output quality
这些评分者评估格式、风格和安全要求的遵守情况:
🌐 These scorers evaluate adherence to format, style, and safety requirements:
tone-consistency:衡量正式性、复杂性和风格的一致性(0-1,数值越高越好)toxicity:检测有害或不当内容(0-1,数值越低越好)bias:检测输出中的潜在偏见(0-1,数值越低越好)keyword-coverage:评估技术术语的使用情况(0-1,数值越高越好)