文档# 教程 DJ-Cookbook 资源合集 编写Data-Juicer (DJ) 代码 用例与数据菜谱 交互类示例 安装 前置条件 基础安装 场景化安装 常见安装模式 从源码安装 特定算子安装 使用 Docker 安装 注意事项和故障排除 快速上手 数据集配置 数据处理 分布式数据处理 数据分析 数据可视化 构建配置文件 沙盒实验室 预处理原始数据(可选) 对于 Docker 用户 帮助文档 Operator Schemas 算子提要 Overview 概览 aggregator deduplicator filter formatter grouper mapper pipeline selector Contributing 贡献 数据集配置指南 支持的数据集格式 其他功能 “坏”数据展览 目录 涉及算子 多模态数据集 纯文本数据集 缓存管理 概述 配置 缓存目录结构 缓存压缩 缓存控制 API 缓存与检查点 缓存禁用与临时目录 性能考虑 故障排除 DJ-SORA 动机 路线图 DJ_服务化 API服务化 MCP服务器 开发者指南 1. 快速构建你自己的算子 2. 构建你自己的数据菜谱和配置项 3. 依赖管理 4. 为开源社区贡献 Data-Juicer 分布式数据处理 概览 实现与优化 性能结果 快速开始 数据集导出 概述 配置 支持的格式 分片导出 并行导出 S3 导出 统计信息和哈希管理 WebDataset 导出(Ray 模式) API 参考 故障排除 作业管理 处理快照 资源感知分区 日志 API 参考 故障排除 分区处理与检查点 概述 目录结构 配置 使用方法 自动配置 作业管理工具 事件类型 性能考虑 故障排除 数据追踪 概述 配置 输出结构 追踪的算子类型 样本收集行为 trace_keys API 参考 性能考虑 故障排除 Awesome Data-Model Co-Development of MLLMs News Candidate Co-Development Tags Paper List Contribution to This Survey "Section - Mentioned Papers" Retrieval List demos 演示 用法 可用的演示 Agent 交互数据:Bad case 洞察 Overview Agent 对话形态:多段 assistant 与 tool 数据血缘字段(normalize 自动写入) Upstream 信号覆盖(第 9 步尽量吃满 pipeline) 第 10 步:agent_insight_llm_mapper(auto-analyst) 为何不强依赖「用户不满意」单一视角 深挖思路(按 model / pt) Pipeline 之后的分析脚本 jq 快速筛选 相关算子 Bad case 自助报告(简化入口) 一行命令 与 smoke / full 的关系 直接调 Python(可选) 仍是「进阶」的内容(刻意不收进报告页) Agent 流水线里 LLM 算子:加速与超参 1. 并行(多进程发 API) 2. 减少「每个算子」的工作量 3. 减少 token(更快、更便宜) 4. 迭代开发时的推荐组合 5. 与本仓库脚本的衔接 Bad case 流水线:一键运行与端到端指南 只想看报告(最少步骤) 前置条件 一键命令(推荐) 端到端两条路径 脚本目录说明 LLM 算子慢、想加速? 导出里的 meta 键名 常见问题 Agent quality & bad-case docs Agent 质检 / bad-case 文档索引 维护指南 Agent 流水线最小可运行配置(便于逐项调试) 环境与依赖(参考 docs/DeveloperGuide.md) 运行方式(在仓库根目录) 配置说明摘要 建议调试顺序 运行环境注意 Agent pipeline 后分析脚本 Python 脚本一览 手动分步示例 与端到端流程的对应关系 自动化评测:HELM 评测及可视化 什么是自动化评测 为什么要自动化评测 如何使用自动化评测:以 HELM 和 Megatron-LM 为例 Note for dataset path 为LLM构造角色扮演的system prompt 数据准备 执行 生成样例 工具 分布式模糊去重工具 使用方法 Auto Evaluation Toolkit 准备工作 用法 配置 GPT EVAL:使用 OpenAI API 评测大模型 快速上手 Evaluation Results Recorder 用法 配置 格式转换工具 多模态工具 绝对路径转相对路径 数据集格式转换 后微调工具 用法 Label Studio Service Utility Features Usage Connection File: label_studio_localhost_connection.json Enabling Legacy Token Authentication Label Studio Version Example Troubleshooting 视频生成测评工具 用法 指标介绍 VBench metrics Postprocess tools 用法 预处理工具 用法 第三方 大语言模型生态 安装 第三方模型库 EasyAnimate