- 🎉 [2025-09-19] 我们的工作 [Data-Juicer 2.0: Cloud-Scale Adaptive Data Processing for and with Foundation Models](https://arxiv.org/abs/2501.14755) 已被接收为 **NeurIPS'25 Spotlight**(所有投稿的前 3.1%)! - 🎉 [2025-09-19] 我们关于数据混合/选择/合成的两项工作:[Diversity as a Reward: Fine-Tuning LLMs on a Mixture of Domain-Undetermined Data](https://arxiv.org/abs/2502.04380) 和 [MindGYM: What Matters in Question Synthesis for Thinking-Centric Fine-Tuning?](https://arxiv.org/abs/2503.09499) 已被 **NeurIPS'25** 接收! - 🛠️ [2025-06-04] 如何在"经验时代"处理反馈数据?我们提出了 [Trinity-RFT: A General-Purpose and Unified Framework for Reinforcement Fine-Tuning of LLMs](https://arxiv.org/abs/2505.17826),该框架利用 Data-Juicer 为 RFT 场景量身定制数据处理管道。 - 🎉 [2025-06-04] 我们的 [Data-Model Co-development Survey](https://ieeexplore.ieee.org/document/11027559) 已被 IEEE Transactions on Pattern Analysis and Machine Intelligence(**TPAMI**)接收!欢迎探索并贡献 [awesome-list](https://datajuicer.github.io/data-juicer/en/main/docs/awesome_llm_data.html)。 - 🔎 [2025-06-04] 我们推出了 [DetailMaster: Can Your Text-to-Image Model Handle Long Prompts?](https://www.arxiv.org/abs/2505.16915),一项合成基准测试,揭示了大模型虽擅长处理短描述,但在长提示下性能显著下降的问题。 - 🎉 [2025-05-06] 我们的工作 [Data-Juicer Sandbox](https://arxiv.org/abs/2407.11784) 已被接收为 **ICML'25 Spotlight**(所有投稿的前 2.6%)! - 💡 [2025-03-13] 我们提出 [MindGYM: What Matters in Question Synthesis for Thinking-Centric Fine-Tuning?](https://arxiv.org/abs/2503.09499)。一种新的数据合成方法,使大模型能够自我合成高质量、低方差的数据,实现高效微调(例如,在 [MathVision](https://mathllm.github.io/mathvision/#leaderboard) 上仅使用 *400 个样本* 即可获得 *16%* 的增益)。 - 🤝 [2025-02-28] DJ 已被集成到 [Ray 官方生态系统](https://docs.ray.io/en/latest/ray-overview/ray-libraries.html) 和 [示例库](https://docs.ray.io/en/latest/ray-more-libs/data_juicer_distributed_data_processing.html)。此外,我们在 DJ2.0 中的流式 JSON 读取器补丁已被 [Apache Arrow 官方集成](https://github.com/apache/arrow/pull/45084)。 - 🎉 [2025-02-27] 我们的对比数据合成工作 [ImgDiff](https://arxiv.org/pdf/2408.04594) 已被 **CVPR'25** 接收! - 💡 [2025-02-05] 我们提出了一种新的数据选择方法 [Diversity as a Reward: Fine-Tuning LLMs on a Mixture of Domain-Undetermined Data](https://www.arxiv.org/abs/2502.04380)。该方法基于理论指导,将数据多样性建模为奖励信号,在 7 个基准测试中,对 SOTA LLM 进行后训练时取得了更好的整体表现。 - 🎉 [2025-01-11] 我们发布了 2.0 版论文 [Data-Juicer 2.0: Cloud-Scale Adaptive Data Processing for and with Foundation Models](https://arxiv.org/abs/2501.14755)。DJ 现在可以使用阿里云集群中 50 个 Ray 节点上的 6400 个 CPU 核心在 2.1 小时内处理 700 亿数据样本,并使用 8 个 Ray 节点上的 1280 个 CPU 核心在 2.8 小时内对 5TB 数据进行去重。 - [2025-01-03] 我们通过 20+ 相关的新 [OP](https://github.com/datajuicer/data-juicer/releases/tag/v1.0.2) 以及与 LLaMA-Factory 和 ModelScope-Swift 兼容的统一 [数据集格式](https://github.com/datajuicer/data-juicer/releases/tag/v1.0.3) 更好地支持后训练场景。 - [2024-12-17] 我们提出了 *HumanVBench*,它包含 16 个以人为中心的任务,使用合成数据,从内在情感和外在表现的角度对 22 个视频 MLLM 的能力进行基准测试。请参阅我们的 [论文](https://arxiv.org/abs/2412.17574) 中的更多详细信息,并尝试使用它 [评估](https://github.com/datajuicer/data-juicer/tree/HumanVBench) 您的模型。 - [2024-11-22] 我们发布 DJ [v1.0.0](https://github.com/datajuicer/data-juicer/releases/tag/v1.0.0),其中我们重构了 Data-Juicer 的 *Operator*、*Dataset*、*Sandbox* 和许多其他模块以提高可用性,例如支持容错、FastAPI 和自适应资源管理。 - [2024-08-25] 我们在 KDD'2024 中提供了有关多模态 LLM 数据处理的[教程](https://datajuicer.github.io/data-juicer/_static/tutorial_kdd24.html)。 - [2024-08-09] 我们提出了 Img-Diff,它通过*对比数据合成*来增强多模态大型语言模型的性能,在 [MMVP benchmark](https://tsb0601.github.io/mmvp_blog/) 中比 GPT-4V 高出 12 个点。更多细节请参阅我们的 [论文](https://arxiv.org/abs/2408.04594),以及从 [huggingface](https://huggingface.co/datasets/datajuicer/Img-Diff) 和 [modelscope](https://modelscope.cn/datasets/Data-Juicer/Img-Diff) 下载这份数据集。 - [2024-07-24] "天池 Better Synth 多模态大模型数据合成赛"——我们的第四届以数据为中心的 LLM 竞赛已经正式启动!请访问竞赛的[官方网站](https://tianchi.aliyun.com/competition/entrance/532251)了解更多信息。 - [2024-07-17] 我们利用 Data-Juicer [沙盒实验室套件](https://datajuicer.github.io/data-juicer-sandbox/en/main/index.html) 通过数据与模型间的系统性协同开发工作流来优化数据和模型,在 [VBench](https://huggingface.co/spaces/Vchitect/VBench_Leaderboard) 文生视频排行榜取得了新的榜首。相关成果已经整理发表在[论文](http://arxiv.org/abs/2407.11784)中,并且模型已在 [ModelScope](https://modelscope.cn/models/Data-Juicer/Data-Juicer-T2V) 和 [HuggingFace](https://huggingface.co/datajuicer/Data-Juicer-T2V) 平台发布。 - [2024-07-12] 我们的 *MLLM-Data 精选列表*已经演化为一个从模型-数据协同开发角度的系统性[综述](https://arxiv.org/abs/2407.08583)。欢迎[浏览](docs/awesome_llm_data.md)或参与贡献! - [2024-06-01] ModelScope-Sora "数据导演"创意竞速——我们的第三届以数据为中心的 LLM 竞赛已经正式启动!请访问竞赛的[官方网站](https://tianchi.aliyun.com/competition/entrance/532219)了解更多信息。 - [2024-03-07] 我们现在发布了 **Data-Juicer [v0.2.0](https://github.com/datajuicer/data-juicer/releases/tag/v0.2.0)**!在这个新版本中,我们支持了更多的 **多模态数据(包括视频)** 相关特性。我们还启动了 **[DJ-SORA](docs/DJ_SORA_ZH.md)**,为 SORA-like 大模型构建开放的大规模高质量数据集! - [2024-02-20] 我们在积极维护一份关于 LLM-Data 的*精选列表*,欢迎[访问](docs/awesome_llm_data.md)并参与贡献! - [2024-02-05] 我们的论文被 SIGMOD'24 industrial track 接收! - [2024-01-10] 开启"数据混合"新视界——我们的第二届以数据为中心的 LLM 竞赛已经正式启动!请访问竞赛的[官方网站](https://tianchi.aliyun.com/competition/entrance/532174)了解更多信息。 - [2024-01-05] **Data-Juicer v0.1.3** 版本发布了。在这个新版本中,我们支持了**更多 Python 版本**(3.8-3.10),同时支持了**多模态**数据集的[转换](tools/fmt_conversion/multimodal/README_ZH.md)和[处理](docs/Operators.md)(包括文本、图像和音频。更多模态也将会在之后支持)!此外,我们的论文也更新到了[第三版](https://arxiv.org/abs/2309.02033)。 - [2023-10-13] 我们的第一届以数据为中心的 LLM 竞赛开始了!请访问竞赛的官方网站,FT-Data Ranker([1B 赛道](https://tianchi.aliyun.com/competition/entrance/532157)、[7B 赛道](https://tianchi.aliyun.com/competition/entrance/532158)),了解更多信息。