高级功能#

算子检索#

算子检索是 Agent 能否精准工作的核心。DJ 智能体实现了一个智能算子检索工具，通过独立的 LLM 查询环节从 Data-Juicer 的近200个算子中快速找到最相关的算子。这是数据处理智能体和代码开发智能体能够准确运行的关键组件。

我们没有采用单一方案，而是提供了三种模式，通过 -r 参数灵活选择：

LLM 检索 (默认)

向量检索 (vector)

自动模式 (auto)

通过 -r 或 --retrieval-mode 参数指定检索模式：

dj-agents --retrieval-mode vector

更多参数说明见 dj-agents --help

除了命令行，DataJuicer 还原生支持 MCP 服务，这是提升性能的重要手段。MCP 服务可直接通过原生接口获取算子信息、执行数据处理，易于迁移和集成，无需单独的 LLM 查询和命令行调用。

Data-Juicer 提供两类 MCP：

Recipe-Flow MCP（数据菜谱）

Granular-Operators MCP（细粒度算子）

这意味着，在某些场景下，Agent 的调用路径可以比手动写 YAML 更短、更快、更直接。

注意：Data-Juicer MCP 服务器目前处于早期开发阶段，功能和工具可能会随着持续开发而变化。

在 configs/mcp_config.json 中配置服务地址：

{
    "mcpServers": {
        "DJ_recipe_flow": {
            "url": "http://127.0.0.1:8080/sse"
        }
    }
}

启用 MCP 智能体替代数据处理智能体：

# 启用 MCP 智能体和开发智能体
dj-agents --agents dj_mcp dj_dev

# 或使用简写
dj-agents -a dj_mcp dj_dev