admin管理员组

文章数量:1530873

LLMs:ColossalChat相关的开源训练数据集简介(SFT指令微调数据集+奖励模型排序数据集+RLHF数据集)、RLHF算法实现的三个阶段(监督指令微调→训练奖励模型→RLHF训练模型→推理量化和服务)
 

目录

ColossalChat的使用方法

1、ColossalChat相关的开源训练数据集

(1)、SFT指令微调数据集

(2)、奖励模型排序数据集

rm-static数据集

HuggingFace上下载parquet数据集方式

hh-rlhf数据集

(3)、人类反馈强化学习数据集

2、RLHF算法实现的三个阶段

2.0、底座语言模型下载

2.1、RLHF训练阶段1 - 监督指令微调

2.2、RLHF训练阶段2 - 训练奖励模型

(1)、定义LogSigLoss函数

(2)、定义RewardModel函数

4-GPU 训练

2.3、RLHF训练阶段3 - 使用人类反馈进行强化学习训练模型

使用8-GPU进行训练

PPO部分和PTX部分

3、推理量化和服务 - 训练后

8位量化推理

低成本4位量化推理


ColossalChat的使用方法

1、ColossalChat相关的开源训练数据集

监督式数据集收集:我们收集了10.4万条中英文双语数据集,并且您可以在这个InstructionWild存储库中找到这些数据集。以下是我们如何

本文标签: 数据模型指令开源算法