Notebooks 教程#
欢迎来到 Data Juicer Hub 的 Notebooks 教程库!本分支包含了一系列 Jupyter notebooks,帮助你快速上手 Data Juicer。
🚀 快速开始#
除下述方法外,您也可以尝试 JupyterLab Playground with Tutorials。
方式一:Github Codespace#
启动 Codespace
点击本仓库的
Code按钮,选择Codespaces标签点击
Create codespace on notebook(+号) 启动环境稍等片刻,你将看到 VSCode Web 界面
选择并运行 Notebook
在左侧文件目录中找到
notebooks文件夹点击你感兴趣的 notebook 文件
点击右上角的内核选择器,选择
data-juicer-hub环境(位于.venv目录)开始运行!
方式二:Google Colab#
点击下方链接,即可在 Google Colab 中在线运行教程:
📝 教程内容概览#
01_Getting_Started - Data Juicer 核心概念与快速入门
02_Building_Recipes - 数据处理配方的设计与构建
03_Data_Formats_and_Loading - 数据格式支持与加载方法详解
04_DJ_Dataset_API - Dataset API 完整指南
05_Operators_Usage - 数据处理算子详解(YAML与Python两种模式)
06_Analysis_and_Visualization - 数据分析与可视化工具
07_Distributed_Processing_with_Ray - Ray 分布式处理框架集成
08_Preprocessing - 数据预处理脚本
09_Multimodal_Data_Processing - 多模态数据处理能力
10_Advanced_Dataset_Configuration - Dataset 高级配置选项
💡 推荐学习路径#
快速上手
01 → 02 → 05 → 06 → 07
适合:想快速了解与使用 Data Juicer 核心能力的学习者
数据对接
03 → 08、09、10
适合:已经了解 Data Juicer 核心能力,需要将自有数据接入处理流程的开发者
编程构建
01 → 03 → 04 → 05 → 07
适合:希望用代码灵活定制数据处理管道的工程师
📚 更多资源#
Happy Learning! 🎉