🎉 [2025-09-19] 我们的工作 Data-Juicer 2.0: Cloud-Scale Adaptive Data Processing for and with Foundation Models 已被接收为 NeurIPS’25 Spotlight(所有投稿的前 3.1%)!
🎉 [2025-09-19] 我们关于数据混合/选择/合成的两项工作:Diversity as a Reward: Fine-Tuning LLMs on a Mixture of Domain-Undetermined Data 和 MindGYM: What Matters in Question Synthesis for Thinking-Centric Fine-Tuning? 已被 NeurIPS’25 接收!
🛠️ [2025-06-04] 如何在”经验时代”处理反馈数据?我们提出了 Trinity-RFT: A General-Purpose and Unified Framework for Reinforcement Fine-Tuning of LLMs,该框架利用 Data-Juicer 为 RFT 场景量身定制数据处理管道。
🎉 [2025-06-04] 我们的 Data-Model Co-development Survey 已被 IEEE Transactions on Pattern Analysis and Machine Intelligence(TPAMI)接收!欢迎探索并贡献 awesome-list。
🔎 [2025-06-04] 我们推出了 DetailMaster: Can Your Text-to-Image Model Handle Long Prompts?,一项合成基准测试,揭示了大模型虽擅长处理短描述,但在长提示下性能显著下降的问题。
🎉 [2025-05-06] 我们的工作 Data-Juicer Sandbox 已被接收为 ICML’25 Spotlight(所有投稿的前 2.6%)!
💡 [2025-03-13] 我们提出 MindGYM: What Matters in Question Synthesis for Thinking-Centric Fine-Tuning?。一种新的数据合成方法,使大模型能够自我合成高质量、低方差的数据,实现高效微调(例如,在 MathVision 上仅使用 400 个样本 即可获得 16% 的增益)。
🤝 [2025-02-28] DJ 已被集成到 Ray 官方生态系统 和 示例库。此外,我们在 DJ2.0 中的流式 JSON 读取器补丁已被 Apache Arrow 官方集成。
🎉 [2025-02-27] 我们的对比数据合成工作 ImgDiff 已被 CVPR’25 接收!
💡 [2025-02-05] 我们提出了一种新的数据选择方法 Diversity as a Reward: Fine-Tuning LLMs on a Mixture of Domain-Undetermined Data。该方法基于理论指导,将数据多样性建模为奖励信号,在 7 个基准测试中,对 SOTA LLM 进行后训练时取得了更好的整体表现。
🎉 [2025-01-11] 我们发布了 2.0 版论文 Data-Juicer 2.0: Cloud-Scale Adaptive Data Processing for and with Foundation Models。DJ 现在可以使用阿里云集群中 50 个 Ray 节点上的 6400 个 CPU 核心在 2.1 小时内处理 700 亿数据样本,并使用 8 个 Ray 节点上的 1280 个 CPU 核心在 2.8 小时内对 5TB 数据进行去重。
[2025-01-03] 我们通过 20+ 相关的新 OP 以及与 LLaMA-Factory 和 ModelScope-Swift 兼容的统一 数据集格式 更好地支持后训练场景。
[2024-12-17] 我们提出了 HumanVBench,它包含 16 个以人为中心的任务,使用合成数据,从内在情感和外在表现的角度对 22 个视频 MLLM 的能力进行基准测试。请参阅我们的 论文 中的更多详细信息,并尝试使用它 评估 您的模型。
[2024-11-22] 我们发布 DJ v1.0.0,其中我们重构了 Data-Juicer 的 Operator、Dataset、Sandbox 和许多其他模块以提高可用性,例如支持容错、FastAPI 和自适应资源管理。
[2024-08-25] 我们在 KDD’2024 中提供了有关多模态 LLM 数据处理的教程。
[2024-08-09] 我们提出了 Img-Diff,它通过对比数据合成来增强多模态大型语言模型的性能,在 MMVP benchmark 中比 GPT-4V 高出 12 个点。更多细节请参阅我们的 论文,以及从 huggingface 和 modelscope 下载这份数据集。
[2024-07-24] “天池 Better Synth 多模态大模型数据合成赛”——我们的第四届以数据为中心的 LLM 竞赛已经正式启动!请访问竞赛的官方网站了解更多信息。
[2024-07-17] 我们利用 Data-Juicer 沙盒实验室套件 通过数据与模型间的系统性协同开发工作流来优化数据和模型,在 VBench 文生视频排行榜取得了新的榜首。相关成果已经整理发表在论文中,并且模型已在 ModelScope 和 HuggingFace 平台发布。
[2024-07-12] 我们的 MLLM-Data 精选列表已经演化为一个从模型-数据协同开发角度的系统性综述。欢迎浏览或参与贡献!
[2024-06-01] ModelScope-Sora “数据导演”创意竞速——我们的第三届以数据为中心的 LLM 竞赛已经正式启动!请访问竞赛的官方网站了解更多信息。
[2024-03-07] 我们现在发布了 Data-Juicer v0.2.0!在这个新版本中,我们支持了更多的 多模态数据(包括视频) 相关特性。我们还启动了 DJ-SORA,为 SORA-like 大模型构建开放的大规模高质量数据集!
[2024-02-20] 我们在积极维护一份关于 LLM-Data 的精选列表,欢迎访问并参与贡献!
[2024-02-05] 我们的论文被 SIGMOD’24 industrial track 接收!
[2024-01-10] 开启”数据混合”新视界——我们的第二届以数据为中心的 LLM 竞赛已经正式启动!请访问竞赛的官方网站了解更多信息。
[2024-01-05] Data-Juicer v0.1.3 版本发布了。在这个新版本中,我们支持了更多 Python 版本(3.8-3.10),同时支持了多模态数据集的转换和处理(包括文本、图像和音频。更多模态也将会在之后支持)!此外,我们的论文也更新到了第三版。
[2023-10-13] 我们的第一届以数据为中心的 LLM 竞赛开始了!请访问竞赛的官方网站,FT-Data Ranker(1B 赛道、7B 赛道),了解更多信息。