🔧 InteRecipe：交互式数据处理配方生成流程#

概述#

本演示展示了使用 Data-Juicer 算子池（Operator Pool）进行交互式、渐进式的数据处理配方生成工作流。该系统支持用户和智能体协同构建、编辑和验证数据处理配方，具有高度的灵活性与透明性。

在运行前，请设置以下环境变量：

export DASHSCOPE_API_KEY=your_dashscope_key

安装依赖项：

cd ..
uv pip install '.[interecipe]'
cd interactive_recipe

【可选】启动copilot服务器（将../qa-copilot/setup_server.sh中的DATA_JUICER_PATH变量替换为您的data-juicer仓库的绝对路径）：

cd ../qa-copilot
bash setup_server.sh

通过 Streamlit 启动演示：

streamlit run app.py

InteRecipe 主体功能与 Q&A Copilot (Ask AI组件) 相互独立，后者需单独部署但不影响前者运行。关于 Q&A Copilot 的详细配置，请参考 qa-copilot/README_ZH.md。

查看 ./playground.ipynb 文件。

算子池是一个类似有序字典的专用结构，用于存储所有候选的 Data-Juicer 算子（Operators），用于数据处理任务。

每个算子包含以下信息：

📊 可视化与交互

🛠️ 支持的操作

用户和 LLM 智能体可以执行以下操作：

每种不同的算子池配置都对应一个独特的数据处理配方。

❓ 为什么要使用算子池？

✅ 渐进式 & 交互式配方生成

数据配方的构建通常是多阶段的，例如：模态对齐、目标设定、数据分析、属性归因等。算子池允许在每个阶段进行精细控制和编辑，从而实现增量式、迭代式的开发过程。

✅ 鲁棒性 & 有效性

直接让 LLM 一次性生成完整的数据处理配方，往往会导致无效输出。而借助算子池，每次修改都会经过严格校验，确保配方的完整性，并在出现问题时提供反馈。