本文档详细介绍了Screenshot-to-Code应用程序中用于比较不同AI模型代码生成结果的评估工具。这些工具是更广泛的评估系统(请参阅评估系统)的一部分,能够对模型输出进行定量和定性评估。
模型比较工具提供了一个系统化的框架,用于评估和比较不同LLM模型生成的代码的质量。这些工具允许开发者和研究人员
来源: frontend/src/components/evals/AllEvalsPage.tsx3-58
来源
模型比较工具由四个主要组件组成
| 组件 | 目的 | 文件路径 |
|---|---|---|
| 单模型评估 | 对单个模型输出进行详细评估 | frontend/src/components/evals/EvalsPage.tsx |
| 成对比较 | 两个模型的并排比较 | frontend/src/components/evals/PairwiseEvalsPage.tsx |
| N项最佳比较 | 同时比较多个模型 | frontend/src/components/evals/BestOfNEvalsPage.tsx |
| 评估仪表盘 | 访问所有评估工具的中心枢纽 | frontend/src/components/evals/AllEvalsPage.tsx |
来源: frontend/src/components/evals/AllEvalsPage.tsx3-58
来源
单模型评估工具(EvalsPage)提供对单个模型在多个标准下的输出的详细评估。
该工具根据五个关键标准评估输出
每个标准都使用RatingPicker组件以1-5的等级进行评分。
来源
界面显示
来源: frontend/src/components/evals/EvalsPage.tsx134-260
成对比较工具(PairwiseEvalsPage)允许对两个不同模型对同一输入的输出进行直接比较。
来源
该工具跟踪
来源: frontend/src/components/evals/PairwiseEvalsPage.tsx34-47
N项最佳比较工具(BestOfNEvalsPage)将比较扩展到同时处理多个模型。
来源
界面特性
来源: frontend/src/components/evals/BestOfNEvalsPage.tsx104-247
所有比较工具都使用相似的数据结构
比较工具与后端API端点进行交互
/evals - 用于单模型评估/pairwise-evals - 用于成对模型比较/best-of-n-evals - 用于多模型比较这些端点将文件夹路径作为查询参数,并返回结构化的评估数据。
来源
所有工具都需要指定下载文件夹中评估数据的存储位置。标准格式为
来源