- Model Hub 使用示例合集(训练)
- 1. [New] 示例 : GRPO 微调Qwen 2.5 模型
- 1.1 在任务管理菜单中点创建任务Create Job,选择任务类型GRPO,微调方法full
- 1.2 数据集设置
- 1.3 训练设置
- 1.3.1 GRPO 训练流程
- 1.3.2 Trainer 设置(针对Policy model)
- 1.3.3 Worker 设置(针对Reference model, 这个模型会用vllm部署进行推理,不做训练)
- 1.3.4 训练实例设置
- 1.3.5 训练完成
- 2. 示例 1: Lora微调Mistral-7B-v0.3-Chat模型:
- 2.1.1 在任务管理菜单中点创建任务Create Job
- 2.1.2 基本信息
- 2.1.3 数据集准备
- 2.1.4 训练实例准备
- 2.1.5 设置batch size轮数,点击create之后启动训练
- 2.1.6 观察训练日志
- 2.1.7 部署模型
- 2.1.8 总结
- 3. 示例 2: Full微调LLaMA3-8B-Chat模型
- 3.1.1 基本信息
- 3.1.2 训练实例准备
- 3.1.3 剩下步骤与示例1相同不再赘述
- 4. 示例 3: Full微调多模态模型Qwen2-VL
- 1.3.1 数据集准备
- 4.1.1 在modelhub中创建一个训练任务
- 4.1.2 等待训练完成,部署模型
- 4.1.3 同时再部署一个未经过微调的模型用作对比
- 4.1.4 测试-原始模型
- 4.1.5 测试微调后的模型
- 4.1.6 总结
- 5. 示例 4: 从已有的模型文件或者Checkpoint开始训练
- 5.1.1 从已有的模型文件开始训练
- 5.1.2 也可以从其他training job的checkpoint文件开始训练。
- 6. 示例 5. RLHF训练
Model Hub 使用示例合集(训练)
Model Hub 使用示例合集(训练)
4月29日修改
1.
[New] 示例 : GRPO 微调Qwen 2.5 模型
1.1
在任务管理菜单中点创建任务Create Job,选择任务类型GRPO,微调方法full
加载失败,