Data-Juicer: 基础模型时代的数据操作系统#

多模态 | 云原生 | AI就绪 | 大规模

Data-Juicer (DJ) 将原始数据转化为 AI 就绪的智能。它将数据处理视为可组合的基础设施——提供模块化构建块，在整个 AI 生命周期中清洗、合成和分析数据，释放每份数据的潜在价值。

无论您是在去重网络规模的预训练语料库、整理智能体交互轨迹，还是准备特定领域的 RAG 索引，DJ 都可以从您的笔记本电脑无缝扩展到数千节点的集群——无需编写胶水代码。

阿里云 PAI 已深度集成 Data-Juicer 到其数据处理产品中。请参阅 快速提交 DataJuicer 任务。

🚀 快速开始#

零安装探索：

安装并运行：

uv pip install py-data-juicer
dj-process --config demos/process_simple/process.yaml

或在 Python 中组合：

from data_juicer.core.data import NestedDataset
from data_juicer.ops.filter import TextLengthFilter
from data_juicer.ops.mapper import WhitespaceNormalizationMapper

ds = NestedDataset.from_dict({
    "text": ["Short", "This passes the filter.", "Text   with   spaces"]
})
res_ds = ds.process([
    TextLengthFilter(min_len=10),
    WhitespaceNormalizationMapper()
])

for s in res_ds:
    print(s)

✨ 为什么选择 Data-Juicer？#

1. 模块化与可扩展架构#

200+ 算子 涵盖文本、图像、音频、视频和多模态数据
配方优先：可复现的 YAML 管道，您可以像代码一样进行版本管理、共享和分叉
可组合：可插入单个算子、链接复杂工作流或编排完整管道
热重载：无需重启管道即可迭代算子

2. 全栈数据智能#

基础模型：预训练、微调、强化学习和评估级数据整理
智能体系统：清洗工具轨迹、结构化上下文、去标识化和质量把关
RAG与分析：提取、规范化、语义分块、去重和数据画像分析

3. 生产就绪的性能#

规模：在 50 个 Ray 节点（6400 核心）上 2 小时处理 700 亿样本
效率：使用 1280 核心在 2.8 小时内对 5TB 进行去重
优化：自动 OP 融合（2-10 倍加速）、自适应并行、CUDA 加速、鲁棒性
可观测性：内置追踪功能，用于调试、审计和迭代改进

⭐ 如果 Data-Juicer 为您节省了时间或改进了您的数据工作，请考虑为仓库加星。 它帮助更多人发现项目，并让您及时了解新发布和功能。

📰 动态#

[2026-03-17] Release v1.5.1: LaTeX 算子上线；压缩格式支持；算子健壮性修复

📄 新增两个面向 LaTeX 的 Mapper 算子，将 data-juicer 的文档处理能力延伸至 .tex 压缩包和图片上下文的提取与处理。
🗜️ 支持压缩数据集格式：现在可以直接加载 json[l].gz 文件，Ray 数据集也同步支持读取压缩 JSON 文件。
📚 新增文档，覆盖缓存、导出和执行追踪等工作流，帮助用户更好地理解和调试数据处理流水线。
🤖 对 data-juicer-agents 的重大重构与升级已经完成：项目架构及 CLI/会话能力经过全面重新设计，以提升可维护性与可扩展性。详情请参阅 date-juicer-agents.

[2026-02-12] Release v1.5.0: 分区Ray执行器，OP级环境隔离，以及更多具身算子

🚀 分布式执行框架升级 — 新增分区Ray执行器与OP级隔离环境，强化容错性、可扩展性及依赖冲突管理。
🤖 具身AI视频处理能力扩展 — 集成相机校准、视频去畸变、手部重建、位姿估计等专用操作符，提升多视角视频处理能力。
💪🏻 系统性能与开发体验优化 — 支持批处理推理、内存/日志精简、关键逻辑重构，并更新文档与问题模板。
🐳 关键问题修复与稳定性提升 — 修复重复项追踪、参数冲突、首页渲染等缺陷，增强系统可靠性。

[2026-02-02] Release v1.4.6: Copilot、视频字节 I/O 与 Ray 追踪

🤖 Q&A Copilot — 现已上线我们的文档站点 | 钉钉 | Discord。欢迎询问任何与 Data-Juicer 生态系统相关的问题！
- 查看 🤖 Data-Juicer Agents | 📃 部署就绪代码 | 🎬更多演示了解更多详情。
🎬 视频字节 I/O — 视频管道的直接字节处理
🫆 Ray 模式追踪器 — 在分布式处理中追踪变更的样本
🐳 增强与修复 — 刷新 Docker 镜像、小幅性能提升、GitHub Insights 流量工作流、Ray 兼容性更新以及 Bug/文档修复。

[2026-01-15] Release v1.4.5: 20+ 新 OP、Ray vLLM 管道与 Sphinx 文档升级

具身 AI OP：添加/增强了用于视频标题生成（VLM）、视频对象分割（YOLOE+SAM2）、视频深度估计（可视化 + 点云）、人体姿态（MMPose）、图像标签（VLM）、单图像 3D 人体网格恢复（SAM 3D Body）的映射器，以及 S3 上传/下载。
新管道 OP：将多个 OP 组合成一个管道；引入了用于 LLM/VLM 推理的 Ray + vLLM 管道。
文档升级：迁移到统一的基于 Sphinx 的文档构建/部署工作流，具有隔离的主题/架构仓库。
增强与修复：依赖更新、改进的 Ray 去重和 S3 加载、OpenAI Responses API 支持、追踪器一致性、Docker 基础更新为 CUDA 12.6.3 + Ubuntu 24.04 + Py3.11，以及多个 Bug 修复。

[2025-12-01] Release v1.4.4: NeurIPS'25 Spotlight、6 个新视频/多模态 OP 与 S3 I/O

Data-Juicer 2.0 获得 NeurIPS'25 Spotlight
仓库拆分：sandbox/recipes/agents 移至独立仓库
S3 I/O 添加到加载器/导出器
6 个新的视频和多模态 OP（角色检测、VGGT、全身姿态、手部重建）+ 文档/Ray/视频 I/O 改进和 Bug 修复

查看所有发布和动态归档

🔌 用户与生态系统#

以下列表重点关注面向开发者的集成和使用，按字母顺序排列。
缺少您的项目/名称？欢迎提交 PR 或联系我们。

Data-Juicer 可无缝集成到您现有的技术栈，并随着社区贡献而不断发展：

扩展#

data-juicer-agents — DJ Copilot 和智能体工作流
data-juicer-hub — 社区配方和最佳实践
data-juicer-sandbox — 带反馈循环的数据-模型协同开发

框架与平台#

阿里云 PAI · Delta Lake AgentScope · Apache Arrow · Apache HDFS · Apache Hudi · Apache Iceberg · Apache Paimon · DiffSynth-Studio · EasyAnimate · Eval-Scope · 华为昇腾 · Hugging Face · LanceDB · LLaMA-Factory · ModelScope · ModelScope Swift · NVIDIA NeMo · Ray · RM-Gallery · Trinity-RFT · 火山引擎

企业#

阿里巴巴集团、蚂蚁集团、比亚迪、字节跳动、袋鼠云、京东、NVIDIA、OPPO、小红书、小米、喜马拉雅等。

学术机构#

中科院、南京大学、北京大学、中国人民大学、清华大学、中科院大学、浙江大学等。

贡献与社区#

我们相信共同建设。无论您是修复拼写错误、开发新算子还是分享数据处理配方，每一次贡献都塑造着数据处理的未来。

我们欢迎各个层面的贡献：

Good First Issues — 添加算子、改进文档、报告问题或修复 Bug
开发者指南 — 优化引擎、添加功能或增强核心基础设施
DJ-Hub — 分享知识：配方、论文和最佳实践
联系：Slack · 钉钉 · Discord

Discord	钉钉

Data-Juicer 由用户和社区共同打造：

发起方：阿里巴巴通义实验室
联合开发：阿里云 PAI、Anyscale（Ray 团队）、中山大学、NVIDIA（NeMo 团队）以及全球贡献者
启发来源：Apache Arrow、Ray、Hugging Face Datasets、BLOOM、RedPajama-Data、...

文档#

详细文档请查看此处。

快速链接：

算子池 — 浏览 200+ 带示例的算子
data-juicer-hub — 社区驱动的配方和最佳实践
开发者指南 — 构建您自己的代码并为 DJ 贡献
data-juicer-cookbook — 资源归档
awesome_llm_data — 数据-模型协同开发的"Awesome List"

📄 许可证与致谢#

Data-Juicer 在 Apache License 2.0 下发布。
如果您项目中要致谢DataJuicer：请使用我们的Badge，或文本譬如 "本项目使用Data-Juicer: datajuicer"。

📖 引用#

如果您发现 Data-Juicer 帮助了您的项目，请考虑如下引用：

@inproceedings{djv1,
  title={Data-Juicer: A One-Stop Data Processing System for Large Language Models},
  author={Chen, Daoyuan and Huang, Yilun and Ma, Zhijian and Chen, Hesen and Pan, Xuchen and Ge, Ce and Gao, Dawei and Xie, Yuexiang and Liu, Zhaoyang and Gao, Jinyang and Li, Yaliang and Ding, Bolin and Zhou, Jingren},
  booktitle={SIGMOD},
  year={2024}
}

@article{djv2,
  title={Data-Juicer 2.0: Cloud-Scale Adaptive Data Processing for and with Foundation Models},
  author={Chen, Daoyuan and Huang, Yilun and Pan, Xuchen and Jiang, Nana and Wang, Haibin and Zhang, Yilei and Ge, Ce and Chen, Yushuo and Zhang, Wenhao and Ma, Zhijian and Huang, Jun and Lin, Wei and Li, Yaliang and Ding, Bolin and Zhou, Jingren},
  journal={NeurIPS},
  year={2025}
}

更多出版物（点击展开）

(ICML'25 Spotlight) Data-Juicer Sandbox: A Feedback-Driven Suite for Multimodal Data-Model Co-development
(CVPR'25) ImgDiff: Contrastive Data Synthesis for Vision Large Language Models
(TPAMI'25) The Synergy between Data and Multi-Modal Large Language Models: A Survey from Co-Development Perspective
(NeurIPS'25) Diversity as a Reward: Fine-Tuning LLMs on a Mixture of Domain-Undetermined Data
(NeurIPS'25) MindGYM: What Matters in Question Synthesis for Thinking-Centric Fine-Tuning?
(Benchmark Data) HumanVBench: Exploring Human-Centric Video Understanding Capabilities of MLLMs with Synthetic Benchmark Data
(Benchmark Data) DetailMaster: Can Your Text-to-Image Model Handle Long Prompts?
(Data Scaling) BiMix: A Bivariate Data Mixing Law for Language Model Pretraining