模型接口#

本页整理 FluxVLA 模型相关接口,聚焦“如何在配置中使用已有模型组件”。

用途#

模型接口用于定义与组装 VLA 的核心子模块:

  • 顶层 VLA(VLAS

  • VLM Backbone(VLM_BACKBONES

  • Vision Backbone(VISION_BACKBONES

  • LLM Backbone(LLM_BACKBONES

  • Projector(PROJECTORS

  • VLA Head(HEADS

核心参数(配置层)#

常见字段(位于 modelinference_model):

字段

说明

type

顶层 VLA 类型名称

pretrained_name_or_path

预训练权重路径或模型名

vlm_backbone

VLM 配置(含 typevlm_path 等)

vla_head

动作头配置(如 state_dimaction_dimori_action_dim

name_mapping

预训练权重键映射

freeze_vlm_backbone / freeze_projector

冻结策略

最小示例#

model = dict(
    type='LlavaVLA',
    pretrained_name_or_path='./checkpoints/GR00T-N1.5-3B',
    vlm_backbone=dict(
        type='EagleBackbone',
        vlm_path='fluxvla/models/third_party_models/eagle2_hg_model'),
    vla_head=dict(
        type='FlowMatchingHead',
        state_dim=64,
        action_dim=32,
        ori_action_dim=14),
    freeze_vlm_backbone=False,
    freeze_projector=False)

接口组织方式#

按教程说明,模型构建采用 Registry + type 引用方式:

  1. 组件通过装饰器注册。

  2. 配置通过 type 指定组件。

  3. Runner 在训练/推理阶段从配置构建模型。

关联教程#