API#
- data_juicer.core
- data_juicer.ops
- data_juicer.ops.filter
- data_juicer.ops.mapper
- data_juicer.ops.deduplicator
DocumentDeduplicatorDocumentMinhashDeduplicatorDocumentMinhashDeduplicatorWithUidDocumentSimhashDeduplicatorImageDeduplicatorRayBasicDeduplicatorRayDocumentDeduplicatorRayImageDeduplicatorRayVideoDeduplicatorRayBTSMinhashDeduplicatorRayBTSMinhashDeduplicatorWithUidRayBTSMinhashCppDeduplicatorVideoDeduplicator
- data_juicer.ops.selector
- data_juicer.ops.common
- data_juicer.analysis
- data_juicer.config
- data_juicer.format