# BLOOM 配置文件 Data-Juicer-Hub 中的[文件夹](https://github.com/datajuicer/data-juicer-hub/tree/main/reproduced_bloom)包含的配置文件用于轻松复现 [ROOTS](https://github.com/bigscience-workshop/data-preparation) 的处理流程,该数据集由 BigScience 创建并用于训练 BLOOM 模型。 ## Oscar 原始文件可以参照 [BLOOM/Oscar](https://github.com/bigscience-workshop/data-preparation/tree/main/preprocessing/training/01b_oscar_cleaning_and_filtering) 下载,然后使用 [bloom-oscar.yaml](https://github.com/datajuicer/data-juicer-hub/blob/main/reproduced_bloom/bloom-oscar.yaml) 进行完整的处理流程。 对我们复现结果的分析将在稍后发布。