ADVEI — SFT-GRPO-WGAN 三阶段训练

2026 LLM SFT GRPO WGAN

项目背景

ADVEI 论文修订阶段,需补充三阶段训练实验以回应审稿人意见。

训练 Pipeline

  1. SFT(监督微调):在领域数据上做冷启动对齐
  2. GRPO(群体相对策略优化):强化学习阶段,优化偏好信号
  3. WGAN(Wasserstein GAN):对抗训练阶段,提升生成分布质量

关键信息