FluxVLA Engine文档#

_images/fluxvla.png

欢迎来到 FluxVLA

FluxVLA Engine 是面向具身智能应用的全栈端到端工程平台,依托统一配置、标准化接口、模块解耦与可部署性等设计原则,打通从数据到真机部署的完整工程闭环,为产学研提供标准化底座,显著降低 VLA 研发工程门槛。

项目简介
VLA 模型
OpenVLA
LlavaVLA
GR00T
Pi0
Pi0.5
Backbone
LLaMA / Gemma / Qwen
DinoSigLIP
PaliGemma
QwenVL
Data
Parquet
RLDS
Multi-dataset Mixing
Training
FSDP / DDP
LoRA
AMP 混合精度
检查点恢复
自动后评估
评估与部署
多 GPU 评估
LIBERO 基准
Real-robot Inference
RTC Guidance

亮点速览

FluxVLA 的独特之处在于:

统一的模块化 VLA 主干: 所有 Model 均继承 BaseVLA——Vision Encoder、Language Encoder、向 LLM 嵌入空间的 Projection Layer 与 Action Prediction Head——因此可在 OpenVLA、LlavaVLA、GR00T、Pi0 与 Pi0.5 之间切换,而无需重写整套 Training 流程。

骨干网络覆盖

  • Language Model: LLaMA、Gemma、Qwen 等系列。

  • 视觉: DinoSigLIP(DINO + SigLIP)。

  • 视觉-语言: PaliGemma、QwenVL。

Data Format: 原生支持 Parquet 与 RLDS Pipeline,以及面向异构 Data 的 Multi-dataset Mixed Training

FluxVLA 在规模上做到周全:

Distributed Training: 面向大规模任务的 FSDP 与 DDP。

实用 Training Stack: LoRA、Mixed Precision(AMP)、Checkpoint Resume 与 Training 结束后的自动 Evaluation。

从 Benchmark 到 Real-robot: 多 GPU Evaluation、LIBERO(含无光线追踪环境,例如 A100)、Real-robot Inference Script,以及 跳过加载完整 Pretrained Weight 的 Inference Mode 以节省显存。

FluxVLA 灵活且易用:

清晰的项目结构: fluxvla/ 涵盖 Model(VLA、Backbone、Head、Projector)、Dataset、Transform、Tokenizer、Engine、Optimizer 与 Collator;configs/ 按 Model Family 组织(openvlallavagr00tpi0pi05);scripts/ 串联 Training、Evaluation 与 Real-robot Inference。

端到端 Data 与 Training Flow: 从 Parquet 或 RLDS Loading → Transform 与 Batch Assembly → Forward → Action Loss → Backward,配合可插拔 Runner(FSDP/DDP)以及 Standard Optimizer、Log 与 Checkpoint。

成熟工具链: PyTorch 2.6、Hugging Face Transformers 4.53.x、Flash Attention 2.5.x、用于 RLDS 的 TensorFlow,以及 LIBERO——适用于操作、多任务学习、迁移学习与 VLA 研究迭代。

路线图展望: 更多视觉/VLM 骨干与 VLA 方法、VLM 或思维链(CoT)数据训练、Isaac Sim 集成与更完善的日志能力。