跳转至主要内容
Ctrl+K

Data Juicer

  • 文档
  • API
  • Sandbox
  • Hub
  • Agents
  • GitHub
English 简体中文
main v1.4.4 v1.4.3 v1.4.2 v1.4.1 v1.4.0
  • 文档
  • API
  • Sandbox
  • Hub
  • Agents
  • GitHub
English 简体中文
main v1.4.4 v1.4.3 v1.4.2 v1.4.1 v1.4.0

章节导航

教程

  • DJ-Cookbook
  • 安装
  • 快速上手

帮助文档

  • Operator Schemas 算子提要
  • 数据集配置指南
  • “坏”数据展览
  • DJ-SORA
  • DJ_服务化
  • 开发者指南
  • Data-Juicer 分布式数据处理
  • Awesome Data-Model Co-Development of MLLMs

算子

  • Aggregator
  • Deduplicator
    • document_deduplicator
    • document_minhash_deduplicator
    • document_simhash_deduplicator
    • image_deduplicator
    • ray_bts_minhash_deduplicator
    • ray_document_deduplicator
    • ray_image_deduplicator
    • ray_video_deduplicator
    • video_deduplicator
  • Filter
  • Mapper
  • Formatter
  • Grouper
  • Selector
  • Op

demos

  • 演示
  • 自动化评测:HELM 评测及可视化
  • Note for dataset path
  • 为LLM构造角色扮演的system prompt

工具

  • 分布式模糊去重工具
  • Auto Evaluation Toolkit
  • GPT EVAL:使用 OpenAI API 评测大模型
  • Evaluation Results Recorder
  • 格式转换工具
  • 多模态工具
  • 后微调工具
  • Label Studio Service Utility
  • 视频生成测评工具
  • VBench metrics
  • Postprocess tools
  • 预处理工具

第三方

  • 大语言模型生态
  • 第三方模型库
  • 文档
  • Deduplicator

Deduplicator#

  • document_deduplicator
  • document_minhash_deduplicator
  • document_simhash_deduplicator
  • image_deduplicator
  • ray_bts_minhash_deduplicator
  • ray_document_deduplicator
  • ray_image_deduplicator
  • ray_video_deduplicator
  • video_deduplicator

上一页

nested_aggregator

下一页

document_deduplicator

本页

  • 显示源代码

© Copyright 2024, Data-Juicer Team.

由 Sphinx 8.2.3创建。

使用 PyData Sphinx Theme 0.16.1构建.