ADVEI — SFT-GRPO-WGAN 三阶段训练

2026 LLM SFT GRPO WGAN

项目背景

ADVEI 论文修订阶段，需补充三阶段训练实验以回应审稿人意见。

训练 Pipeline

SFT（监督微调）：在领域数据上做冷启动对齐
GRPO（群体相对策略优化）：强化学习阶段，优化偏好信号
WGAN（Wasserstein GAN）：对抗训练阶段，提升生成分布质量

关键信息

论文截止日：2026-06-16
实时监控面板：advei-training-monitor.zhuyizhang0.workers.dev
训练集群：AutoDL 5090（北京 B 区）+ 本地 4090

← 返回项目列表