分享
评测
输入“/”快速插入内容
评测
用户1272
用户1272
用户639
用户639
用户3625
用户3625
2025年6月25日修改
演示视频:
在企业场景中,往往需要在测试集上批量运行结果,以评估应用配置调整后的效果是否有所提升。为了实现大模型应用效果的端到端评估,毕昇「评测」模块帮助用户评估其技能或助手的回答效果。具体评估流程和逻辑如下:
1.
用户操作流程
:
◦
用户通过系统界面上的「评测」入口,进入评测模块。
◦
在「新建任务」页,用户选择需要评测的技能或助手,并上传包含测试集数据的 CSV 文件。
◦
用户可以选择默认的评测模型(在模型管理中指定),并根据需要调整评测 Prompt。
2.
系统处理流程
:
◦
任务建立
:
▪
系统接收用户上传的测试集 CSV 文件,并开始执行评测任务。
▪
对于测试集中的每一个
question
,调用用户选择的技能或助手生成相应的
answer
。
▪
将每个
question
、
answer
和
ground_truth
输入到 LLM 裁判中,LLM 分别对
answer
和
ground_truth
抽取要点
。
◦
评测指标计算
:
▪
召回率 (Recall)
▪
准确率 (Precision)
▪
F1 值
💡
举例:
•
question:金融行业的增值税涉及哪些类型
•
ground_truth:
金融行业涉及的增值税涉税服务主要是金融服务,具体包括四个大类:贷款服务 、直接收费金融服务 、保险服务 、金融商品转让 。
•
answer:金融行业的增值税主要涉及以下类型:1. 贷款服务:以提供贷款服务取得的全部利息及利息性质的收入为销售额。2. 直接收费金融服务:以提供直接收费金融服务收取的手续费、佣金、酬金、管理费、服务费、经手费、开户费、过户费、结算费、转托管费等各类费用为销售额。3. 金融商品转让:按照卖出价扣除买入价后的余额为销售额。转让金融商品出现的正负差,按盈亏相抵后的余额为销售额。若相抵后出现负差,可结转下一纳税期与下期转让金融商品销售额相抵,但年末时仍出现负差的,不得转入下年。金融商品的买入价,可以选择按照加权平均法或者移动加权平均法进行核算,选择后36个月内不得变更。
•
ground_truth
要点
抽取结果 = ["贷款服务","直接收费金融服务","保险服务","金融商品转让"]
•
Answer 要点抽取结果 = ["贷款服务",
1
"直接收费金融服务","金融商品转让"]
•
ground_truth与Answer重合要点= ["贷款服务","直接收费金融服务","金融商品转让"]
•
评测指标计算
◦
Recall = 3/4 =75%
◦
Precision = 3/3 100%
◦
F1 = 2*0.75/1.75 = 85.71%
◦
结果生成
:
▪
系统生成包含评测结果的
result.csv
文件,用户可以通过界面上的「下载」按钮获取。
▪
在评测模块首页,用户可以查看任务列表,包括任务 ID、测试集文件名、技能或助手名称、评测分数、创建日期、任务状态和操作(下载、删除)等信息。
下载下来的
result.csv
文件如下图所示: