跳转至主要内容
Ctrl+K

Data Juicer

  • 文档
  • API
  • Sandbox
  • Hub
  • Agents
  • GitHub
English 简体中文
main v1.4.4 v1.4.3 v1.4.2 v1.4.1 v1.4.0
  • 文档
  • API
  • Sandbox
  • Hub
  • Agents
  • GitHub
English 简体中文
main v1.4.4 v1.4.3 v1.4.2 v1.4.1 v1.4.0

章节导航

  • data_juicer.core
  • data_juicer.ops
  • data_juicer.ops.filter
  • data_juicer.ops.mapper
  • data_juicer.ops.deduplicator
  • data_juicer.ops.selector
  • data_juicer.ops.common
  • data_juicer.analysis
  • data_juicer.config
  • data_juicer.format
  • API

API#

  • data_juicer.core
  • data_juicer.ops
  • data_juicer.ops.filter
  • data_juicer.ops.mapper
  • data_juicer.ops.deduplicator
    • DocumentDeduplicator
    • DocumentMinhashDeduplicator
    • DocumentMinhashDeduplicatorWithUid
    • DocumentSimhashDeduplicator
    • ImageDeduplicator
    • RayBasicDeduplicator
    • RayDocumentDeduplicator
    • RayImageDeduplicator
    • RayVideoDeduplicator
    • RayBTSMinhashDeduplicator
    • RayBTSMinhashDeduplicatorWithUid
    • VideoDeduplicator
  • data_juicer.ops.selector
  • data_juicer.ops.common
    • get_sentences_from_document()
    • get_words_from_document()
    • merge_on_whitespace_tab_newline()
    • split_on_newline_tab_whitespace()
    • split_on_whitespace()
    • strip()
    • words_augmentation()
    • words_refinement()
    • split_text_by_punctuation()
  • data_juicer.analysis
    • ColumnWiseAnalysis
    • CorrelationAnalysis
    • DiversityAnalysis
    • OverallAnalysis
  • data_juicer.config
    • init_configs()
    • get_init_configs()
    • export_config()
    • merge_config()
    • prepare_side_configs()
    • get_default_cfg()
    • prepare_cfgs_for_export()
    • update_op_attr()
  • data_juicer.format
    • JsonFormatter
    • LocalFormatter
    • RemoteFormatter
    • TextFormatter
    • ParquetFormatter
    • CsvFormatter
    • TsvFormatter
    • EmptyFormatter
    • RayEmptyFormatter

上一页

第三方模型库

下一页

data_juicer.core

本页

  • 显示源代码

© Copyright 2024, Data-Juicer Team.

由 Sphinx 8.2.3创建。

使用 PyData Sphinx Theme 0.16.1构建.