MultiModal Dataset
多数据集训练
使用方法(InternVL已支持)
以internvl为例,在examples/internvl2.5/data_4B.json中,修改basic_parameters。
假设要训练dataset1和dataset2两个数据集,修改如下
"basic_parameters": [{
"data_path": "/path/dataset1_json_path",
"data_folder": "/path/dataset1_root_path",
"repeat_time": 1
},
{
"data_path": "/path/dataset2_json_path",
"data_folder": "/path/dataset2_root_path",
"repeat_time": 1
}]
理解模型数据模块添加流程
1.mindspeed_mm/data/data_utils/multimodal_image_video_preprocess.py
添加对应模型的图像和视频预处理逻辑
2.mindspeed_mm/data/datasets/multimodal_dataset.py
在get_item时,会通过_init_return_dict初始化返回的字典,return前通过_filter_return_dict_keys过滤多余的key。如果需要返回其余的key,需要在_init_return_dict方法中额外添加
def _init_return_dict():
return {
"pixel_values": None,
"image_flags": None,
"input_ids": None,
"labels": None,
"attention_mask": None,
...
}
3.mindspeed_mm/data/data_utils/utils.py
添加对应模型的preprocess方法