MultiModal Dataset

多数据集训练

使用方法（InternVL已支持）

以internvl为例，在examples/internvl2.5/data_4B.json中，修改basic_parameters。

假设要训练dataset1和dataset2两个数据集，修改如下

    "basic_parameters": [{
        "data_path": "/path/dataset1_json_path",
        "data_folder": "/path/dataset1_root_path",
        "repeat_time": 1
    },
    {
        "data_path": "/path/dataset2_json_path",
        "data_folder": "/path/dataset2_root_path",
        "repeat_time": 1
    }]

理解模型数据模块添加流程

1.mindspeed_mm/data/data_utils/multimodal_image_video_preprocess.py

添加对应模型的图像和视频预处理逻辑

2.mindspeed_mm/data/datasets/multimodal_dataset.py

在get_item时，会通过_init_return_dict初始化返回的字典，return前通过_filter_return_dict_keys过滤多余的key。如果需要返回其余的key，需要在_init_return_dict方法中额外添加

def _init_return_dict():
    return {
        "pixel_values": None,
        "image_flags": None,
        "input_ids": None,
        "labels": None,
        "attention_mask": None,
        ...
    }

3.mindspeed_mm/data/data_utils/utils.py

添加对应模型的preprocess方法