ADVEI — SFT-GRPO-WGAN 三阶段训练
2026 LLM SFT GRPO WGAN
项目背景
ADVEI 论文修订阶段,需补充三阶段训练实验以回应审稿人意见。
训练 Pipeline
- SFT(监督微调):在领域数据上做冷启动对齐
- GRPO(群体相对策略优化):强化学习阶段,优化偏好信号
- WGAN(Wasserstein GAN):对抗训练阶段,提升生成分布质量
关键信息
- 论文截止日:2026-06-16
- 实时监控面板:advei-training-monitor.zhuyizhang0.workers.dev
- 训练集群:AutoDL 5090(北京 B 区)+ 本地 4090