训练与评估脚本接口#

本页聚焦两类高频入口：scripts/train.sh 与 scripts/eval.sh。

用途#

scripts/train.sh：启动分布式训练，封装 torchrun。
scripts/eval.sh：启动分布式评估，封装 torchrun。

训练入口（`scripts/train.sh`）#

命令格式#

bash scripts/train.sh [CONFIG] [WORK_DIR] [额外参数...]

位置参数#

参数	位置	默认值	说明
`CONFIG`	`$1`	`configs/pi05/pi05_paligemma_libero10_full_finetune.py`	训练配置文件路径
`WORK_DIR`	`$2`	`work_dirs/pi05_paligemma_libero10_full_finetune`	日志与 checkpoint 输出目录
额外参数	`$3+`	无	透传给 `train.py`

分布式环境变量#

环境变量	说明
`MLP_WORKER_GPU`	每个节点使用的 GPU 数量
`MLP_WORKER_NUM`	节点总数
`MLP_ROLE_INDEX`	当前节点 rank
`MLP_WORKER_0_HOST`	主节点地址
`MLP_WORKER_0_PORT`	主节点端口

常用额外参数#

参数	类型	说明
`--cfg-options`	`key=value` 对	覆盖配置项
`--eval-after-train`	`flag`	训练后自动评估
`--resume-from`	路径	从 checkpoint 恢复

评估入口（`scripts/eval.sh`）#

命令格式#

bash scripts/eval.sh [CONFIG] [CKPT_PATH] [额外参数...]

位置参数#

参数	位置	说明
`CONFIG`	`$1`	评估配置文件路径
`CKPT_PATH`	`$2`	checkpoint 文件路径
额外参数	`$3+`	透传给 `eval.py`

常用额外参数#

参数	类型	说明
`--cfg-options`	`key=value` 对	覆盖评估配置项

最小可运行示例#

# 训练
export MLP_WORKER_GPU=8
export MLP_WORKER_NUM=1
export MLP_ROLE_INDEX=0
export MLP_WORKER_0_HOST=localhost
export MLP_WORKER_0_PORT=29500

bash scripts/train.sh \
  configs/pi05/pi05_paligemma_libero10_full_finetune.py \
  work_dirs/pi05_paligemma_libero10_full_finetune

# 评估
bash scripts/eval.sh \
  configs/pi05/pi05_paligemma_libero10_full_finetune.py \
  work_dirs/pi05_paligemma_libero10_full_finetune/checkpoint_step_10000.pt

关联文档#

训练指南：../start/vla.md
评估指南：../start/vla-eval.md
常见问题：../faq.md