文档# 教程 DJ-Cookbook 资源合集 编写Data-Juicer (DJ) 代码 用例与数据菜谱 交互类示例 安装 前置条件 基础安装 场景化安装 常见安装模式 特定算子安装 使用 Docker 安装 注意事项和故障排除 快速上手 数据集配置 数据处理 分布式数据处理 数据分析 数据可视化 构建配置文件 沙盒实验室 预处理原始数据(可选) 对于 Docker 用户 帮助文档 Operator Schemas 算子提要 Overview 概览 aggregator deduplicator filter formatter grouper mapper selector Contributing 贡献 数据集配置指南 支持的数据集格式 其他功能 “坏”数据展览 目录 涉及算子 多模态数据集 纯文本数据集 DJ-SORA 动机 路线图 DataJuicer-Agent DJ_服务化 API服务化 MCP服务器 开发者指南 1. 快速构建你自己的算子 2. 构建你自己的数据菜谱和配置项 3. 依赖管理 4. 为开源社区贡献 Data-Juicer 分布式数据处理 概览 实现与优化 性能结果 快速开始 数据菜谱Gallery 1. Data-Juicer最小示例菜谱 2. 复现开源文本数据集 3. 改良开源文本预训练数据集 4. 改良开源文本后处理数据集 5. 合成对比学习图文数据集 6. 改良开源图文数据集 7. 面向视频数据的基础实例菜谱 8. 合成以人为中心的视频评测集 9. 改良现有开源视频数据集 沙盒实验室 用户指南 开发者指南 Q&A Awesome Data-Model Co-Development of MLLMs News Candidate Co-Development Tags Paper List Contribution to This Survey "Section - Mentioned Papers" Retrieval List demos 演示 用法 可用的演示 自动化评测:HELM 评测及可视化 什么是自动化评测 为什么要自动化评测 如何使用自动化评测:以 HELM 和 Megatron-LM 为例 Note for dataset path 为LLM构造角色扮演的system prompt 数据准备 执行 生成样例 工具 分布式模糊去重工具 使用方法 Auto Evaluation Toolkit 准备工作 用法 配置 GPT EVAL:使用 OpenAI API 评测大模型 快速上手 Evaluation Results Recorder 用法 配置 格式转换工具 多模态工具 绝对路径转相对路径 数据集格式转换 后微调工具 用法 数据菜谱的自动化超参优化 基于3-Sigma原则进行Auto-HPO 基于WandB进行Auto-HPO Label Studio Service Utility Features Usage Connection File: label_studio_localhost_connection.json Enabling Legacy Token Authentication Label Studio Version Example Troubleshooting 视频生成测评工具 用法 指标介绍 VBench metrics Postprocess tools 用法 预处理工具 用法 给数据打分 数据打分能力 复现GPT3的质量分类器套件 第三方 大语言模型生态 安装 第三方模型库 EasyAnimate