opencompass大模型评测|电子爱好者

admin管理员组
文章数量:1533913

准备工作

1、确定显卡支持的CUDA版本并下载

在命令行里面输入dxdiag查看NVIDIA版本，可以看到芯片是NVS 510，随即去查找对应版本的CUDA（CUDA 12.5 Release Notes (nvidia)），安装的是CUDA11.4下载CUDA Toolkit 11.4 Downloads | NVIDIA Developer。

2、准备好CUDA版本对应的vs2019,Visual Studio 较旧的下载 - 2019、2017、2015 和以前的版本 (microsoft)，下载好后选择C++桌面开发模块，点击下载安装。

CUDA安装包下载好后，双击安装，然后点击OK和下一步即可，选项选择自定义，自定义里面的CUDA-vs溴铵想取消勾选，默认安装在C盘，安装完成后，会提示Nsight Visual studio的整合情况，这里提示安装了vs2019版的，正是我们前面安装的VS版本，这样就能在vs2019里面做GPU方面的开发。

3、进入管理员的cmd，输入命令：nvcc -V ，有结果说明安装成功。

接下来进入C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.4\extras\demo_suite，查询本机的gpu设备info：deviceQuery

测试带宽：bandwidthTest ，结果都是PASS，说明一切运行正常。

4、创建pytorch的环境：（CUDA 10.1 支持 Python 3.5 - 3.8，而 CUDA 11.0 则支持 Python 3.5 - 3.9）

conda create -n pytorch-gpu python==3.9

到官网下载pytorch:PyTorch，复制命令激活刚才的虚拟环境运行，

pip3 install torch torchvision torchaudio --index-url https://download.pytorch/whl/cu118

测试是否可用：

import torch
print(torch.__version__)
print(torch.version.cuda)
print(torch.cuda.is_available())  #输出为True，则安装无误

5、若安装失败就去清华大学开源软件镜像：Index of /anaconda/cloud/pytorch/ | 清华大学开源软件镜像站 | Tsinghua Open Source Mirror

找到对应的pytorch、torchvision、torchaudio的版本下载，自身python里面的版本是：

去对应目录下载即可(pytorch版本尽量最新，cuda等版本尽量找与主机相近的版本)：

------------------------------------------------------------------

1.准备 OpenCompass 运行环境：（不可跳过）

面向开源GPU测试环境：需要在此环境下安装pytorch,命令上面。

conda create --name opencompass python=3.10 pytorch torchvision pytorch-cuda -c nvidia -c pytorch -y
conda activate opencompass

面向基于API的开源CPU测试环境：

conda create -n opencompass python=3.10 pytorch torchvision torchaudio cpuonly -c pytorch -y
conda activate opencompass
# 如果需要使用各个API模型，请 `pip install -r requirements/api.txt` 安装API模型的相关依赖

如果你自定义 PyTorch 版本或相关的 CUDA 版本，请参考官方文档准备 PyTorch 环境。需要注意的是，OpenCompass 要求 pytorch>=1.13。

2.安装 OpenCompass（首先进入你想要安装opencompass的文件夹，重启一个cmd，我直接放在桌面）：

cd C:\Users\ainvest\Desktop
conda activate opencompass
git clone https://github/open-compass/opencompass.git
cd opencompass
pip install -e .

遇上git不下来直接开个vpn即可，或者你直接去项目上dow一下（https://github/open-compass/opencompass）

3、安装完成后开始准备数据集，OpenCompass 支持的数据集主要包括两个部分：

Huggingface 数据集： Huggingface Dataset 提供了大量的数据集，这部分数据集运行时会自动下载。
自建以及第三方数据集：OpenCompass 还提供了一些第三方数据集及自建中文数据集。运行以下命令手动下载解压。

在 OpenCompass 项目根目录下运行下面命令，将数据集准备至 ${OpenCompass}/data 目录下：

wget https://github/open-compass/opencompass/releases/download/0.2.2.rc1/OpenCompassData-core-20240207.zip
unzip OpenCompassData-core-20240207.zip

如果需要使用 OpenCompass 提供的更加完整的数据集 (~500M)，可以使用下述命令进行下载和解压：

wget https://github/open-compass/opencompass/releases/download/0.2.2.rc1/OpenCompassData-complete-20240207.zip
unzip OpenCompassData-complete-20240207.zip
cd ./data
find . -name "*.zip" -exec unzip "{}" \;

一般需要VPN下载，如果不需要全量下载仅是测试，可以从下渠道下载对应模型的评测数据：

OpenCompass司南 - 数据集社区

4、评测原理：

首先，常见的大模型评测模式可以大致总结为以下三种：

a、做题打分。主要是收集各种各样的评测数据集，然后把数据集分为不同的维度能力。通过设计一些prompt让大模型去做这些数据集的任务，与标准答案进行对照计算分数。典型的如openCompass，huggingface的openLLM leaderboard等。

b、让GPT-4做裁判。还是会收集评测用的数据集（一些不是公开开源的、不带标准答案的数据集也会包含在内），然后让GPT-4给大模型的生成结果进行评判。评判这块又有很多工作衍生出来，例如有直接让打分的，也有设计一些维度（例如事实性、准确性、安全合规性等），然后更细粒度地进行评测的。

c、竞技场模式。类似于竞技游戏里面的竞技场。每次拉两个大模型选手PK，由用户来评测哪个模型更好，赢的大模型有加分，输的大模型有减分。当执行了足够多的PK轮次后，就会有一个大模型的得分排行榜，这个榜单相对来说还是比较公正的，能够较为客观得体现模型的能力强弱。典型的例子如UC伯克利发布的Chatbot Arena Leaderboard。

当然，除去上述模式外，还有很多针对单项能力的评测，例如针对数学能力、针对代码能力、针对推理能力等，评测这些能力一个是可以判断一个大模型是否真的具备类似人类得思考能力，另一方面其评测结果也是能够直接帮助在特定领域场合中选择大模型（例如代码助手）。

openCompass评测机制

评测工具openCompass属于第一种模式，他是书生大模型（internLM）的研发团队开源出来的大模型评测工具，也是当前市面上极少有的代码级开源评测项目。它包含了数据集处理、模型加载与生成、结果的评测与指标计算等流程，构成了一个完整的评测生命周期：

另外，它最大的一个特点就是囊括了非常多的数据集以及对应数据集的预处理加工脚本。传统的NLP数据集在输入大模型之前，要经过数据预处理加工，转换成instruction+input+output的文本生成任务格式。不同数据集的原始格式不尽相同，不同类型的任务如信息抽取与文本分类、语义理解与文本生成之间的区别较大，即使是同类型任务的不同数据集格式也有很大差异。因此要开发不同的预处理脚本，工作量非常大。而openCompass已经预置了相当多的国内外数据集处理脚本，即使不用openCompass，我们也可以参考其中的处理方式，快速移植到我们自己的项目中，以下是agieval数据集的加载和预处理示例(有本身的注册器，也可以自定义)：

数据加载

数据预处理（确保数据在所在文件夹）

运行机制

从宏观整体的维度说明openCompass的评测工作流程，下图为一个简易的流程图：

整个项目基于的是MMEngine框架，在此框架下，Partitioner模块会接收数据集与参数配置模块，并根据模型生成、结果评测等类型将整个评测任务拆分多个最小粒度的task元素。参数配置模块包括数据集的配置和模型的配置。数据集配置包括数据集的加载、预处理等配置，模型的配置包括模型的加载、预测生成等配置。最后我们有一个Runner模块负责管理和有序执行所有的task，完成最终的评测任务。下面详细的分析各个模块的原理。

openCompass的项目结构还是比较清晰的，主要由以下核心模块组成：

（1）MMEngine

作为组成openCompass的基本框架，MMEngine由openMMLab实验室发布出来的一个基于pytorch的深度学习基础库，框架比较复杂，封装得比较深，要了解其原理的话建议参考官方文档：OpenMMLab：从 MMCV 到 MMEngine，架构升级，体验升级！。由于openCompass并没有涉及到模型训练等复杂功能，因此它只是借助于MMEngine的部分特性构建了一个评测平台，用于管理数据、模型和评测任务。下面讲到的模块都用到了其中的基础功能。

（2）配置模块

openCompass中主要包含数据集配置(dataset configs)与模型配置(model configs)，见项目中的configs/。数据集配置（见configs/datasets/,以及opencompass/datasets/）主要包含了以下内容：

a.数据集加载方式。不同数据集的文件格式、字段名称都不同，因此需要针对性配置对应的文件读取方式。这个配置主要见opencompass/datasets/下。

上图中可以看到有个register_module(),这个就是MMEngine的一个基础特性。MMEngine 实现的注册器可以看作一个映射表和模块构建方法（build function）的组合。映射表维护了一个字符串到类或者函数的映射，使得用户可以借助字符串查找到相应的类或函数。上图中是已经创建了一个注册器LOAD_DATASET，通过注册将cmmlu的加载模块加入到注册器中。这样，后面，我们只需要通过类似

LOAD_DATASET.build(dict(type=“agievalDataset”))

的方式就能以配置的形式调用对应的方法。在openCompass中，调用的脚本可见：opencompass/utils/build.py中的build_dataset_from_cfg:

调用注册器中的对应模块

openCompass中除了数据集的注册器外，还预置了其他核心模块的注册器，如模型、任务等，可见opencompass/registry.py。其中的注册器代表了项目中所需要用到的核心要素。

b.数据预处理。这里的预处理主要是将数据集原始格式转化为大模型能够支持的输入格式，即构造instruction+input+output的prompt数据，配置数据字段与prompt模版中需要填充的槽位对应关系：

本文标签：模型 opencompass

版权声明：本文标题：opencompass大模型评测内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/xitong/1726173199a1058829.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

电子爱好者 - 最新技术资讯及电子产品介绍！

opencompass大模型评测

准备工作

openCompass评测机制

更多相关文章

大模型时代，程序员如何实现自我成长？——一名普通开发者的 ChatGPT 2周年记

ChatYuan元语AI: 类似ChatGPT功能型对话大模型 部署实践

一建部署自己的AI集合平台，无缝切换ChatGPT、Claude、Google Gemini、Mistral、LLaMA2等主流AI大模型

生成模型之VAE与VQ-VAE

【AMD GPU】使用A卡进行ai模型训练

国产ChatGPT科大星火大模型v3.5使用教程

Chatgpt之后Sora又给了人类一个震撼，OpenAi的Sora模型申请内测！能成功吗？

大语言模型背景下，NLP从业者前景如何？要换个方向么？

每日一看大模型新闻（2024.1.2-1.3）同花顺：问财大模型内测申请开启；高情商的NPC来了，刚伸出手，它就做好了要配合下一步动作的准备；ChatGPT文明模拟器再上线，一键穿越回火山爆发当天的庞

【网安AIGC专题11.1】12 CODEIE用于NER和RE：顶刊OpenAI API调用、CodeX比chatgpt更好：提示工程设计+控制变量对比实验（格式一致性、模型忠实度、细粒度性能）

一文读懂“大语言模型”

面向 “大模型” 的未来服务架构设计

AI日报：当前最强国产Sora大模型Vidu发布；Kimi Chat移动端升级；通义千问开源首个千亿参数模型；苹果计划与 OpenAI 合作

智能语言大模型简介

基于Transformer的翻译模型（英-＞中）

【自我提升】Yolov5使用云端GPU训练模型（谷歌免费版和AutoDL收费版对比）

【自然语言处理】【ChatGPT系列】Chain of Thought：从大模型中引导出推理能力

谈谈NLP中 大语言模型LLM的 思维链 Chain-of-Thought(CoT)

探秘 Skeleton-of-Thought：提升大型语言模型并行解码的新纪元

大模型思维链（Chain-of-Thought）技术原理

发表评论

推荐文章

基于Linux系统部署新世纪版五笔输入法

MSF+APK注入绕过手机防护上线远控及安全防护建议

关于家里的宽带和无线wifi路由器的一些选择和配置

Adobe出现正版验证提示如何解决？Adobe正版校验关闭教程

almost unreal歌词翻译_综英1第八单元答案

热门文章

android会中病毒吗,安卓手机浏览网页中病毒几率多大

致力成为NAND闪存技术市场领导者！解析存储新巨头Solidigm

前后端分离项目

windows系统维护工具箱

搜狗输入法状态栏闪烁解决办法

戴尔win10开机后，在桌面点右键一直转圈，但任务栏又能正常点击

网页端可以在线使用的PS工具推荐

PS美容磨皮滤镜插件Portraiture2023中文版

@Validated+循环依赖报错分析解决

【Chain-of-Thought】开创 AI 模型推理新纪元

最新文章

ThoughtWorks面试体验

ThoughtWorks咨询师们的博客

maven的pom 提示错误 Failure to transfer com.thoughtworks.xstream:xstream:jar:

探索ThoughtWorks Each：优雅的Scala Monadic编程库

JMeter导入jmx运行脚本时出现这样的错误jmeter.save.SaveService: Conversion error com.thoughtworks.xstream.converters...

Chain of Thought (CoT) 系列论文：大模型思维链，提升 LLM 的推理能力

Tree-of-Thought Puzzle Solver 学习资料汇总 - 一个使用LLM求解复杂推理任务的框架

Thoughtworks2019校园招聘来啦～～内推福利篇 了解一下

Maven错误问题解决 Failure to transfer com.thoughtworks.xstream:xstream:jar:1.3.1 from https:repo.maven

“Chain of Thought Reasoning“ 和 “Chain Prompts“ 是什么

Failure to transfer com.thoughtworks.xstream:xstream:jar:1.3.1 from http:repo1.maven.orgmaven2 wa

论文笔记(2)：Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

Challenging BIG-Bench tasks and whether chain-of-thought can solve them阅读笔记

C# 生成二维码 两种方式ThoughtWorks.QRCodeZXing

深度思考（Deep Thought）：智能部署的未来之选

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

ChatYuan元语AI: 类似ChatGPT功能型对话大模型部署实践

谈谈NLP中大语言模型LLM的思维链 Chain-of-Thought(CoT)

Thoughtworks2019校园招聘来啦～～内推福利篇了解一下

C# 生成二维码两种方式ThoughtWorks.QRCodeZXing

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载