训练与评估脚本接口#
本页聚焦两类高频入口:scripts/train.sh 与 scripts/eval.sh。
用途#
scripts/train.sh:启动分布式训练,封装torchrun。scripts/eval.sh:启动分布式评估,封装torchrun。
训练入口(scripts/train.sh)#
命令格式#
bash scripts/train.sh [CONFIG] [WORK_DIR] [额外参数...]
位置参数#
参数 |
位置 |
默认值 |
说明 |
|---|---|---|---|
|
|
|
训练配置文件路径 |
|
|
|
日志与 checkpoint 输出目录 |
额外参数 |
|
无 |
透传给 |
分布式环境变量#
环境变量 |
说明 |
|---|---|
|
每个节点使用的 GPU 数量 |
|
节点总数 |
|
当前节点 rank |
|
主节点地址 |
|
主节点端口 |
常用额外参数#
参数 |
类型 |
说明 |
|---|---|---|
|
|
覆盖配置项 |
|
|
训练后自动评估 |
|
路径 |
从 checkpoint 恢复 |
评估入口(scripts/eval.sh)#
命令格式#
bash scripts/eval.sh [CONFIG] [CKPT_PATH] [额外参数...]
位置参数#
参数 |
位置 |
说明 |
|---|---|---|
|
|
评估配置文件路径 |
|
|
checkpoint 文件路径 |
额外参数 |
|
透传给 |
常用额外参数#
参数 |
类型 |
说明 |
|---|---|---|
|
|
覆盖评估配置项 |
最小可运行示例#
# 训练
export MLP_WORKER_GPU=8
export MLP_WORKER_NUM=1
export MLP_ROLE_INDEX=0
export MLP_WORKER_0_HOST=localhost
export MLP_WORKER_0_PORT=29500
bash scripts/train.sh \
configs/pi05/pi05_paligemma_libero10_full_finetune.py \
work_dirs/pi05_paligemma_libero10_full_finetune
# 评估
bash scripts/eval.sh \
configs/pi05/pi05_paligemma_libero10_full_finetune.py \
work_dirs/pi05_paligemma_libero10_full_finetune/checkpoint_step_10000.pt
关联文档#
训练指南:
../start/vla.md评估指南:
../start/vla-eval.md常见问题:
../faq.md