面向人工智能领域的测试基准工具,工具配套LLM的精度&性能评测组件,用于全流程大模型评测以及生成式大模型结果多维分析。基于 OpenCompass 构建的模型评测工具,兼容 OpenCompass 的配置体系、数据集结构与模型后端实现,并在此基础上扩展了对服务化模型的支持能力。
当前,AISBench 支持两大类推理任务的评测场景:
精度测评:支持对服务化模型和本地模型在各类问答、推理基准数据集上的精度验证。
性能测评:支持对服务化模型的延迟与吞吐率评估,并可进行压测场景下的极限性能测试。
环境要求 Python 版本:仅支持 Python 3.10 或 3.11 不支持 Python 3.9 及以下,也不兼容 3.12 及以上版本 推荐使用 Conda 管理环境,以避免依赖冲突 - conda create --name bench python=3.10 -y
- conda activate bench
复制代码 安装方式(源码安装) 前仅提供源码安装方式,请确保安装环境联网: - cd bench/
- pip3 install -e ./ --use-pep517
复制代码提取码下载:
|