训练与评估脚本接口#

本页聚焦两类高频入口:scripts/train.shscripts/eval.sh

用途#

  • scripts/train.sh:启动分布式训练,封装 torchrun

  • scripts/eval.sh:启动分布式评估,封装 torchrun

训练入口(scripts/train.sh#

命令格式#

bash scripts/train.sh [CONFIG] [WORK_DIR] [额外参数...]

位置参数#

参数

位置

默认值

说明

CONFIG

$1

configs/pi05/pi05_paligemma_libero10_full_finetune.py

训练配置文件路径

WORK_DIR

$2

work_dirs/pi05_paligemma_libero10_full_finetune

日志与 checkpoint 输出目录

额外参数

$3+

透传给 train.py

分布式环境变量#

环境变量

说明

MLP_WORKER_GPU

每个节点使用的 GPU 数量

MLP_WORKER_NUM

节点总数

MLP_ROLE_INDEX

当前节点 rank

MLP_WORKER_0_HOST

主节点地址

MLP_WORKER_0_PORT

主节点端口

常用额外参数#

参数

类型

说明

--cfg-options

key=value

覆盖配置项

--eval-after-train

flag

训练后自动评估

--resume-from

路径

从 checkpoint 恢复

评估入口(scripts/eval.sh#

命令格式#

bash scripts/eval.sh [CONFIG] [CKPT_PATH] [额外参数...]

位置参数#

参数

位置

说明

CONFIG

$1

评估配置文件路径

CKPT_PATH

$2

checkpoint 文件路径

额外参数

$3+

透传给 eval.py

常用额外参数#

参数

类型

说明

--cfg-options

key=value

覆盖评估配置项

最小可运行示例#

# 训练
export MLP_WORKER_GPU=8
export MLP_WORKER_NUM=1
export MLP_ROLE_INDEX=0
export MLP_WORKER_0_HOST=localhost
export MLP_WORKER_0_PORT=29500

bash scripts/train.sh \
  configs/pi05/pi05_paligemma_libero10_full_finetune.py \
  work_dirs/pi05_paligemma_libero10_full_finetune

# 评估
bash scripts/eval.sh \
  configs/pi05/pi05_paligemma_libero10_full_finetune.py \
  work_dirs/pi05_paligemma_libero10_full_finetune/checkpoint_step_10000.pt

关联文档#