依星源码资源网,依星资源网

 找回密码
 立即注册

QQ登录

只需一步,快速开始

【好消息,好消息,好消息】VIP会员可以发表文章赚积分啦 !
查看: 26|回复: 0

大模型 SQL 能力测评系统 一个测评大模型 SQL 能力的脚本工具和排行榜列表,旨在评估大型语言模型 (LLM) 在 SQL 相关任务方面的能力

[复制链接] 主动推送

1万

主题

1万

帖子

1万

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
18113
发表于 4 天前 | 显示全部楼层 |阅读模式
大模型 SQL 能力测评系统 一个测评大模型 SQL 能力的脚本工具和排行榜列表,旨在评估大型语言模型 (LLM) 在 SQL 相关任务方面的能力
一个测评大模型 SQL 能力的脚本工具和排行榜列表,旨在评估大型语言模型 (LLM) 在 SQL 相关任务方面的能力。它支持对 LLM 的 SQL 理解、方言转换和 SQL 优化能力进行深入测评,并最终生成详细的测评报告,通过前端界面直观展示
特性
  • 多维度评估: 支持 SQL 理解、方言转换和 SQL 优化三大核心能力。
  • 灵活的数据集: 允许用户自定义和扩展测评数据集。
  • 可配置的 LLM: 支持集成多种大模型作为被测对象和裁判模型。
  • 自动化报告生成: 自动生成详细的测评报告,包括总分、案例详情和交互日志。
  • 直观的前端展示: 提供排行榜列表和详细报告页面,方便用户查看和分析结果。
  • 可扩展架构: 易于添加新的 LLM 接口、HTTP 接口和测试用例。
项目结构
本项目分为 LLM 测评脚本 (evaluator) 和排行榜 UI (leaderboard) 两部分。
LLM 测评脚本 (evaluator)
LLM 测评脚本负责核心的测评逻辑、数据处理和报告生成。
  1. evaluator/
  2. ├── application.py          # HTTP 接口,用于支持其他应用的测评(如 SQLFlash SQL 优化)
  3. ├── evaluator.py            # 核心测评逻辑
  4. ├── llm_interface.py        # LLM 接口定义,用于集成不同的大模型 API
  5. ├── main.py                 # 测评脚本主入口,运行测评脚本
  6. ├── utils.py                # 辅助工具函数
  7. ├── config/
  8. │   ├── dataset_config.py   # 数据集配置,包含提示词和指标/案例权重
  9. │   └── llm_config.py       # LLM 配置,用于设置目标模型和裁判模型
  10. ├── dataset/                # 测评数据集
  11. │   ├── dialect_conversion/ # 方言转换能力数据集
  12. │   │   ├── logical_equivalence.jsonl
  13. │   │   └── syntax_error_detection.jsonl
  14. │   ├── sql_optimization/   # SQL 优化能力数据集
  15. │   │   ├── logical_equivalence.jsonl
  16. │   │   ├── optimization_depth.jsonl
  17. │   │   └── syntax_error_detection.jsonl
  18. │   └── sql_understanding/  # SQL 理解能力数据集
  19. │       ├── execution_accuracy.jsonl
  20. │       ├── explain_detection.jsonl
  21. │       ├── sql_identification.jsonl
  22. │       └── syntax_error_detection.jsonl
  23. ├── outputs/                # 测评结果输出目录
  24. │   ├── eval_reports/       # 测评模型得分报告 (排行榜列表数据)
  25. │   ├── evaluation_case_reports/ # 模型对每个测试案例的详细测评结果
  26. │   └── evaluation_process_detail_logs/ # 测评流程日志,包含与模型的每次对话
  27. └── reports/                # 报告生成模块
  28.     ├── case_reporting.py
  29.     ├── process_log_reporting.py
  30.     └── reporting.py
复制代码
排行榜 UI (leaderboard)
排行榜 UI 负责展示测评报告、排行榜和详细信息。
  1. leaderboard/
  2. ├── components/             # React 组件
  3. │   ├── BarChart.tsx
  4. │   ├── constants.ts
  5. │   ├── Footer.tsx
  6. │   ├── LanguageSelector.tsx
  7. │   ├── MatrixRain.tsx
  8. │   └── RadarChart.tsx
  9. ├── lib/
  10. │   └── i18n.ts             # 国际化配置
  11. ├── pages/                  # Next.js 页面
  12. │   ├── _app.tsx
  13. │   ├── _document.tsx
  14. │   ├── models/[date]/[id].tsx # 模型详细报告页面
  15. │   └── ranking/[month].tsx # 排行榜页面
  16. ├── public/                 # 静态资源和数据
  17. │   ├── data/               # 测评报告数据 (默认读取报告的路径)
  18. │   │   ├── eval_reports/
  19. │   │   ├── evaluation_case_reports/
  20. │   │   └── evaluation_process_detail_logs/
  21. │   ├── locales/            # 国际化语言文件
  22. │   │   ├── en/
  23. │   │   └── zh/
  24. │   ├── logos/              # 模型 Logo
  25. │   └── favicon.ico
  26. ├── styles/                 # CSS 样式
  27. │   ├── Container.module.css
  28. │   └── globals.css
  29. ├── next-env.d.ts
  30. ├── next.config.js
  31. ├── package.json            # 项目依赖
  32. └── pnpm-lock.yaml
复制代码
评估方法与得分计算评估方式说明
  • 客观测评 (Objective Evaluation): 基于预定义答案的自动化验证。适用于有明确标准答案的场景。
  • 主观测评 (Subjective Evaluation): 集成 LLM-as-a-judge 评估模式。在没有唯一标准答案的案例中,通过裁判模型根据多条带有权重的规则命中情况来计算分数。
  • 混合评估 (Hybrid Evaluation): 结合客观测评和 LLM-as-a-judge 验证。
得分计算说明
能力得分 = (∑(指标得分 × 指标权重) / 理论最大总分) × 100
能力得分计算逻辑:
  • 基础元素:
    • 每个能力包含多个评估指标 (例如:SQL 理解能力包含执行准确性、解释检测等)。
    • 每个指标包含多个测试用例 (case)。
    • 每个用例有难度等级 (1-3 级)。
  • 权重设置:
    • 指标权重: 反映指标的重要性 (值越高越重要)。
    • 难度权重: 反映题目难度 (1 级 = 1 分, 2 级 = 2 分, 3 级 = 3 分)。
  • 得分计算:
    • 用例得分 = 难度权重 × 正确与否 (正确 = 1, 错误 = 0)。
    • 指标得分 = 该指标下所有用例得分之和。
    • 能力总分 = ∑(指标得分 × 指标权重)。
    • 理论满分 = ∑(指标下所有用例的难度权重之和 × 指标权重)。
    • 最终能力得分 = (能力总分 ÷ 理论满分) × 100。
  • 特殊情况:
    • 若能力下无测试用例,得分为 0。
    • 若某指标权重未配置,该指标不计分。
  • 示例:
    • 指标 A (权重 4): 3 个用例 (难度 1/2/3 各 1 个) 全正确 → 指标得分 = (1×1) + (2×1) + (3×1) = 6
    • 指标 B (权重 2): 2 个用例 (难度 2/3 各 1 个) 全正确 → 指标得分 = (2×1) + (3×1) = 5
    • 能力总分 = (6 × 4) + (5 × 2) = 24 + 10 = 34
    • 理论满分 = (1+2+3) × 4 + (2+3) × 2 = 6 × 4 + 5 × 2 = 24 + 10 = 34
    • 最终得分 = (34 ÷ 34) × 100 = 100 分

扩展性
本项目设计为高度可扩展,方便用户根据需求进行定制。
注意事项
  • API 密钥安全: 确保您的 API 密钥安全,不要直接提交到版本控制系统中。强烈建议使用环境变量或其他密钥管理方法来存储和访问敏感信息。
  • 报告输出路径: 排行榜默认从 leaderboard/public/data/ 读取测评报告。如果您修改了 evaluator 报告的输出路径,请确保 leaderboard 也相应更新。


链接: https://pan.baidu.com/s/1fUL5jzLIKLQTaTw2SxLung

提取码下载:
文件名称:提取码下载.txt 
下载次数:0  文件大小:16 Bytes  售价:29金钱 [记录]
下载权限: 不限 [购买VIP]   [充值]   [在线充值]   【VIP会员6折;永久VIP4折】
安全检测,请放心下载





相关帖子

扫码关注微信公众号,及时获取最新资源信息!下载附件优惠VIP会员6折;永久VIP4折
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

免责声明:
1、本站提供的所有资源仅供参考学习使用,版权归原著所有,禁止下载本站资源参与商业和非法行为,请在24小时之内自行删除!
2、本站所有内容均由互联网收集整理、网友上传,并且以计算机技术研究交流为目的,仅供大家参考、学习,请勿任何商业目的与商业用途。
3、若您需要商业运营或用于其他商业活动,请您购买正版授权并合法使用。
4、论坛的所有内容都不保证其准确性,完整性,有效性,由于源码具有复制性,一经售出,概不退换。阅读本站内容因误导等因素而造成的损失本站不承担连带责任。
5、用户使用本网站必须遵守适用的法律法规,对于用户违法使用本站非法运营而引起的一切责任,由用户自行承担
6、本站所有资源来自互联网转载,版权归原著所有,用户访问和使用本站的条件是必须接受本站“免责声明”,如果不遵守,请勿访问或使用本网站
7、本站使用者因为违反本声明的规定而触犯中华人民共和国法律的,一切后果自己负责,本站不承担任何责任。
8、凡以任何方式登陆本网站或直接、间接使用本网站资料者,视为自愿接受本网站声明的约束。
9、本站以《2013 中华人民共和国计算机软件保护条例》第二章 “软件著作权” 第十七条为原则:为了学习和研究软件内含的设计思想和原理,通过安装、显示、传输或者存储软件等方式使用软件的,可以不经软件著作权人许可,不向其支付报酬。若有学员需要商用本站资源,请务必联系版权方购买正版授权!
10、本网站如无意中侵犯了某个企业或个人的知识产权,请来信【站长信箱312337667@qq.com】告之,本站将立即删除。
郑重声明:
本站所有资源仅供用户本地电脑学习源代码的内含设计思想和原理,禁止任何其他用途!
本站所有资源、教程来自互联网转载,仅供学习交流,不得商业运营资源,不确保资源完整性,图片和资源仅供参考,不提供任何技术服务。
本站资源仅供本地编辑研究学习参考,禁止未经资源商正版授权参与任何商业行为,违法行为!如需商业请购买各资源商正版授权
本站仅收集资源,提供用户自学研究使用,本站不存在私自接受协助用户架设游戏或资源,非法运营资源行为。
 
在线客服
点击这里给我发消息 点击这里给我发消息 点击这里给我发消息
售前咨询热线
312337667

微信扫一扫,私享最新原创实用干货

QQ|免责声明|小黑屋|依星资源网 ( 鲁ICP备2021043233号-3 )|网站地图

GMT+8, 2025-6-25 22:00

Powered by Net188.com X3.4

邮箱:312337667@qq.com 客服QQ:312337667(工作时间:9:00~21:00)

快速回复 返回顶部 返回列表