data_juicer.ops.deduplicator.video_deduplicator module#

class data_juicer.ops.deduplicator.video_deduplicator.VideoDeduplicator(consider_text: bool = False, *args, **kwargs)[源代码]#

Deduplicator to deduplicate samples at document-level using exact matching of videos between documents.

__init__(consider_text: bool = False, *args, **kwargs)[源代码]#

Initialization.

参数:

consider_text -- whether to consider text hash together with video hash when applying deduplication.
args -- extra args
kwargs -- extra args

compute_hash(sample, context=False)[源代码]#

Compute hash values for the sample.

process(dataset, show_num=0)[源代码]#

For doc-level, dataset --> dataset.

参数:

返回:

deduplicated dataset and the sampled duplicate pairs.