准备criteo_TB原始数据
首先从官网 下载24天的原始数据集,执行命令如下。所有文件保存下来大概需要365G。
curl -O https://storage.googleapis.com/criteo-cail-datasets/day_{seq -s “,” 0 23}.gz
然后将下载好的24个文件解压,解压后的文件需要占用1035G。
原始数据集转tfrecord
运行转换脚本:
python3.7 gen_ttf.py --train_data_dir train_dir --test_data_dir test_dir --tf_base_dir save_base_dir
参数说明:
- train_data_dir: 解压后训练集路径,该路径下存放day_0,day_1,...,day_22
- test_data_dir: 解压后测试集路径,该路径下存放day_23
- tf_base_dir:tfrecord存放路径,磁盘至少需要633G
安全说明
本样例使用了pickle模块进行加载,可能存在恶意构造带文件在反序列化时带来的安全风险,请确保加载的文件是可信的。