Data-Juicer Agents:迈向智能体驱动的数据处理#

基于 Data-Juicer (DJ)AgentScope 构建的 智能体数据处理 套件。

简体中文 | English

🏗️ 架构文档 • ⚡️ 快速开始 • >_ CLI 文档 • 🔧 工具文档 • 🎯 路线图

最新动态#

路线图#

DJ-Agents 的长期愿景是实现一个零开发的数据处理生命周期,让开发者能够把精力集中在 “做什么” 而不是 “怎么做” 上。

为实现这一愿景,我们正在解决两个核心问题:

  • 智能体:如何设计并构建在数据处理方面足够强大的智能体

  • 服务&工具:如何把这些智能体打包成即开即用、开箱即用的产品

我们会在这两个方向上持续迭代,路线图也会随着理解的加深与能力的提升而不断演进。


智能体#

  • Data-Juicer 数据处理智能体(DJ Process Agent & Data-Juicer 代码开发智能体(DJ Dev Agent)

  • 我们放弃了针对场景开发数据处理智能体,转而为通用智能体开发数据处理工具 (tools),随后

    • 通过工作流硬编排这些工具为能力 (capabilities),透出为djx命令行工具 (CLI)

    • 通过prompt软编排,打包为技能 (skills)

    • 依赖agent的自动编排,支持会话式数据处理


服务&工具#

  • Q&A Copilot: 围绕Data-Juicer生态系统的问答助手

  • InteRecipe:通过自然语言交互式的数据菜谱构建

    • [2026-03-11]: 当前./interactive_recipe下仅展示基于工作流的样例。目前dj-agents CLI入口已构建完成,支持在TUI中通过自然语言交互式构建数据菜谱,我们正在开发以此为基础构建更多功能的前端工具(studio)作为升级。


优先开发项#

  • DJ Skills: 通过prompt软编排,将工具 (tools)打包为技能 (skills)透出,供通用智能体使用。

  • InteRecipe Studio: 支持自然语言交互式的数据菜谱构建,提供多维度展示数据信息以及处理结果。

  • Plan工具:功能扩展以支持完整的Data-Juicer能力/基于DJ Hub中的recipe匹配模式/...

  • Dev工具:稳定性测试和优化

长期方向#

  • 持续构建工具/技能以支持更多场景的数据处理需求,从而支持更广泛、更灵活的数据处理应用。

    • RAG

    • 具身智能(Embodied Intelligence)

    • 数据湖仓(Data Lakehouse)架构

常见问题#

问:如何获取 DashScope 的 API key?
答:请访问 DashScope 官网 注册账户并申请 API key。

相关资源#

  • Data-Juicer 已在大量通义及阿里云内外部用户场景中落地实践,并支撑了多项研究工作;所有代码都在持续维护与增强中。

欢迎访问 GitHub,Star、Fork、提交 Issue,并加入社区交流!

贡献方式:欢迎通过 Issue 和 Pull Request 来改进 Data-Juicer Agents、Data-Juicer 以及 AgentScope。如果你在使用中遇到问题或有新功能建议,欢迎随时与我们联系。