索引 _ | A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | Q | R | S | T | U | V | W | Z _ __init__() (data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis 方法) __init__() (data_juicer.analysis.ColumnWiseAnalysis 方法) __init__() (data_juicer.analysis.correlation_analysis.CorrelationAnalysis 方法) __init__() (data_juicer.analysis.CorrelationAnalysis 方法) __init__() (data_juicer.analysis.diversity_analysis.DiversityAnalysis 方法) __init__() (data_juicer.analysis.DiversityAnalysis 方法) __init__() (data_juicer.analysis.overall_analysis.OverallAnalysis 方法) __init__() (data_juicer.analysis.OverallAnalysis 方法) __init__() (data_juicer.download.downloader.DocumentDownloader 方法) __init__() (data_juicer.download.downloader.DocumentExtractor 方法) __init__() (data_juicer.download.downloader.DocumentIterator 方法) __init__() (data_juicer.download.wikipedia.WikipediaDownloader 方法) __init__() (data_juicer.download.wikipedia.WikipediaExtractor 方法) __init__() (data_juicer.download.wikipedia.WikipediaIterator 方法) __init__() (data_juicer.format.csv_formatter.CsvFormatter 方法) __init__() (data_juicer.format.CsvFormatter 方法) __init__() (data_juicer.format.empty_formatter.EmptyFormatter 方法) __init__() (data_juicer.format.empty_formatter.RayEmptyFormatter 方法) __init__() (data_juicer.format.EmptyFormatter 方法) __init__() (data_juicer.format.formatter.LocalFormatter 方法) __init__() (data_juicer.format.formatter.RemoteFormatter 方法) __init__() (data_juicer.format.json_formatter.JsonFormatter 方法) __init__() (data_juicer.format.JsonFormatter 方法) __init__() (data_juicer.format.LocalFormatter 方法) __init__() (data_juicer.format.parquet_formatter.ParquetFormatter 方法) __init__() (data_juicer.format.ParquetFormatter 方法) __init__() (data_juicer.format.RayEmptyFormatter 方法) __init__() (data_juicer.format.RemoteFormatter 方法) __init__() (data_juicer.format.text_formatter.TextFormatter 方法) __init__() (data_juicer.format.TextFormatter 方法) __init__() (data_juicer.format.tsv_formatter.TsvFormatter 方法) __init__() (data_juicer.format.TsvFormatter 方法) __init__() (data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator 方法) __init__() (data_juicer.ops.aggregator.EntityAttributeAggregator 方法) __init__() (data_juicer.ops.aggregator.meta_tags_aggregator.MetaTagsAggregator 方法) __init__() (data_juicer.ops.aggregator.MetaTagsAggregator 方法) __init__() (data_juicer.ops.aggregator.most_relevant_entities_aggregator.MostRelevantEntitiesAggregator 方法) __init__() (data_juicer.ops.aggregator.MostRelevantEntitiesAggregator 方法) __init__() (data_juicer.ops.aggregator.nested_aggregator.NestedAggregator 方法) __init__() (data_juicer.ops.aggregator.NestedAggregator 方法) __init__() (data_juicer.ops.base_op.Aggregator 方法) __init__() (data_juicer.ops.base_op.Deduplicator 方法) __init__() (data_juicer.ops.base_op.Filter 方法) __init__() (data_juicer.ops.base_op.Grouper 方法) __init__() (data_juicer.ops.base_op.Mapper 方法) __init__() (data_juicer.ops.base_op.OP 方法) __init__() (data_juicer.ops.base_op.Selector 方法) __init__() (data_juicer.ops.common.dwpose_func.DWposeDetector 方法) __init__() (data_juicer.ops.common.dwpose_func.Wholebody 方法) __init__() (data_juicer.ops.common.helper_func.UnionFind 方法) __init__() (data_juicer.ops.common.prompt2prompt_pipeline.AttentionControl 方法) __init__() (data_juicer.ops.common.prompt2prompt_pipeline.AttentionControlEdit 方法) __init__() (data_juicer.ops.common.prompt2prompt_pipeline.AttentionRefine 方法) __init__() (data_juicer.ops.common.prompt2prompt_pipeline.AttentionReplace 方法) __init__() (data_juicer.ops.common.prompt2prompt_pipeline.AttentionReweight 方法) __init__() (data_juicer.ops.common.prompt2prompt_pipeline.AttentionStore 方法) __init__() (data_juicer.ops.common.prompt2prompt_pipeline.LocalBlend 方法) __init__() (data_juicer.ops.common.prompt2prompt_pipeline.P2PCrossAttnProcessor 方法) __init__() (data_juicer.ops.common.prompt2prompt_pipeline.ScoreParams 方法) __init__() (data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator 方法) __init__() (data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator 方法) __init__() (data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator 方法) __init__() (data_juicer.ops.deduplicator.DocumentDeduplicator 方法) __init__() (data_juicer.ops.deduplicator.DocumentMinhashDeduplicator 方法) __init__() (data_juicer.ops.deduplicator.DocumentSimhashDeduplicator 方法) __init__() (data_juicer.ops.deduplicator.image_deduplicator.ImageDeduplicator 方法) __init__() (data_juicer.ops.deduplicator.ImageDeduplicator 方法) __init__() (data_juicer.ops.deduplicator.ray_basic_deduplicator.ActorBackend 方法) __init__() (data_juicer.ops.deduplicator.ray_basic_deduplicator.Backend 方法) __init__() (data_juicer.ops.deduplicator.ray_basic_deduplicator.DedupSet 方法) __init__() (data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator 方法) __init__() (data_juicer.ops.deduplicator.ray_basic_deduplicator.RedisBackend 方法) __init__() (data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.BTSUnionFind 方法) __init__() (data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.EdgeBuffer 方法) __init__() (data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.GPUMinHashActor 方法) __init__() (data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.IdGenerator 方法) __init__() (data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.RayBTSMinhashDeduplicator 方法) __init__() (data_juicer.ops.deduplicator.ray_document_deduplicator.RayDocumentDeduplicator 方法) __init__() (data_juicer.ops.deduplicator.ray_image_deduplicator.RayImageDeduplicator 方法) __init__() (data_juicer.ops.deduplicator.ray_video_deduplicator.RayVideoDeduplicator 方法) __init__() (data_juicer.ops.deduplicator.RayBasicDeduplicator 方法) __init__() (data_juicer.ops.deduplicator.RayBTSMinhashDeduplicator 方法) __init__() (data_juicer.ops.deduplicator.RayDocumentDeduplicator 方法) __init__() (data_juicer.ops.deduplicator.RayImageDeduplicator 方法) __init__() (data_juicer.ops.deduplicator.RayVideoDeduplicator 方法) __init__() (data_juicer.ops.deduplicator.video_deduplicator.VideoDeduplicator 方法) __init__() (data_juicer.ops.deduplicator.VideoDeduplicator 方法) __init__() (data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter 方法) __init__() (data_juicer.ops.filter.audio_duration_filter.AudioDurationFilter 方法) __init__() (data_juicer.ops.op_fusion.FusedFilter 方法) __init__() (data_juicer.ops.op_fusion.GeneralFusedOP 方法) __init__() (data_juicer.utils.cache_utils.DatasetCacheControl 方法) __init__() (data_juicer.utils.ckpt_utils.CheckpointManager 方法) __init__() (data_juicer.utils.compress.CacheCompressManager 方法) __init__() (data_juicer.utils.compress.CompressManager 方法) __init__() (data_juicer.utils.fingerprint_utils.Hasher 方法) __init__() (data_juicer.utils.lazy_loader.LazyLoader 方法) __init__() (data_juicer.utils.logger_utils.StreamToLoguru 方法) __init__() (data_juicer.utils.model_utils.ChatAPIModel 方法) __init__() (data_juicer.utils.model_utils.EmbeddingAPIModel 方法) __init__() (data_juicer.utils.registry.Registry 方法) __init__() (data_juicer.utils.video_utils.AVReader 方法) __init__() (data_juicer.utils.video_utils.Clip 方法) __init__() (data_juicer.utils.video_utils.DecordReader 方法) __init__() (data_juicer.utils.video_utils.FFmpegReader 方法) __init__() (data_juicer.utils.video_utils.Frames 方法) __init__() (data_juicer.utils.video_utils.VideoMetadata 方法) __init__() (data_juicer.utils.video_utils.VideoReader 方法) A ActorBackend(data_juicer.ops.deduplicator.ray_basic_deduplicator 中的类) add_key_value_pairs() (data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.BTSUnionFind 方法) add_parameters() (data_juicer.ops.base_op.OP 方法) add_suffix_to_filename()(在 data_juicer.utils.file_utils 模块中) add_suffixes()(在 data_juicer.format.formatter 模块中) Aggregator(data_juicer.ops.base_op 中的类) alnum_ratio(data_juicer.utils.constant.StatsKeysConstant 属性) alpha_token_ratio(data_juicer.utils.constant.StatsKeysConstant 属性) AlphanumericFilter(data_juicer.ops.filter.alphanumeric_filter 中的类) analyze() (data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis 方法) analyze() (data_juicer.analysis.ColumnWiseAnalysis 方法) analyze() (data_juicer.analysis.correlation_analysis.CorrelationAnalysis 方法) analyze() (data_juicer.analysis.CorrelationAnalysis 方法) analyze() (data_juicer.analysis.diversity_analysis.DiversityAnalysis 方法) analyze() (data_juicer.analysis.DiversityAnalysis 方法) analyze() (data_juicer.analysis.overall_analysis.OverallAnalysis 方法) analyze() (data_juicer.analysis.OverallAnalysis 方法) analyze_resource_util_list()(data_juicer.core.monitor.Monitor 静态方法) analyze_single_resource_util()(data_juicer.core.monitor.Monitor 静态方法) annotate_heatmap()(在 data_juicer.analysis.correlation_analysis 模块中) aspect_ratios(data_juicer.utils.constant.StatsKeysConstant 属性) AttentionControlEdit(data_juicer.ops.common.prompt2prompt_pipeline 中的类) AttentionControl(data_juicer.ops.common.prompt2prompt_pipeline 中的类) AttentionRefine(data_juicer.ops.common.prompt2prompt_pipeline 中的类) AttentionReplace(data_juicer.ops.common.prompt2prompt_pipeline 中的类) AttentionReweight(data_juicer.ops.common.prompt2prompt_pipeline 中的类) AttentionStore(data_juicer.ops.common.prompt2prompt_pipeline 中的类) attribute_descriptions(data_juicer.utils.constant.MetaKeys 属性) attribute_summary() (data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator 方法) attribute_summary() (data_juicer.ops.aggregator.EntityAttributeAggregator 方法) attribute_support_texts(data_juicer.utils.constant.MetaKeys 属性) attributes(data_juicer.utils.constant.MetaKeys 属性) audio_duration(data_juicer.utils.constant.StatsKeysConstant 属性) audio_nmf_snr(data_juicer.utils.constant.StatsKeysConstant 属性) audio_sizes(data_juicer.utils.constant.StatsKeysConstant 属性) AudioDurationFilter(data_juicer.ops.filter.audio_duration_filter 中的类) audio(data_juicer.utils.mm_utils.SpecialTokens 属性) AV_STREAM_THREAD_TYPE()(在 data_juicer.utils.mm_utils 模块中) available_gpu_memories()(在 data_juicer.utils.resource_utils 模块中) available_memories()(在 data_juicer.utils.resource_utils 模块中) avg_line_length(data_juicer.utils.constant.StatsKeysConstant 属性) avg_split_string_list_under_limit()(在 data_juicer.utils.common_utils 模块中) AVReader(data_juicer.utils.video_utils 中的类) B Backend(data_juicer.ops.deduplicator.ray_basic_deduplicator 中的类) balanced_union_find() (data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.BTSUnionFind 方法) band_minhash() (data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.RayBTSMinhashDeduplicator 方法) band_minhash() (data_juicer.ops.deduplicator.RayBTSMinhashDeduplicator 方法) BaseCompressor(data_juicer.utils.compress 中的类) BaseFormatter(data_juicer.format.formatter 中的类) batch_meta(data_juicer.utils.constant.Fields 属性) BatchMetaKeys(data_juicer.utils.constant 中的类) bbox_tag(data_juicer.utils.constant.MetaKeys 属性) bbox_xyxy2cs()(在 data_juicer.ops.common.dwpose_func 模块中) between_steps() (data_juicer.ops.common.prompt2prompt_pipeline.AttentionControl 方法) between_steps() (data_juicer.ops.common.prompt2prompt_pipeline.AttentionStore 方法) BTSUnionFind(data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator 中的类) byte_size_to_size_str()(在 data_juicer.utils.file_utils 模块中) C CacheCompressManager(data_juicer.utils.compress 中的类) calc_minhash() (data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.RayBTSMinhashDeduplicator 方法) calc_minhash() (data_juicer.ops.deduplicator.RayBTSMinhashDeduplicator 方法) calculate_hash() (data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator 方法) calculate_hash() (data_juicer.ops.deduplicator.ray_document_deduplicator.RayDocumentDeduplicator 方法) calculate_hash() (data_juicer.ops.deduplicator.ray_image_deduplicator.RayImageDeduplicator 方法) calculate_hash() (data_juicer.ops.deduplicator.ray_video_deduplicator.RayVideoDeduplicator 方法) calculate_hash() (data_juicer.ops.deduplicator.RayBasicDeduplicator 方法) calculate_hash() (data_juicer.ops.deduplicator.RayDocumentDeduplicator 方法) calculate_hash() (data_juicer.ops.deduplicator.RayImageDeduplicator 方法) calculate_hash() (data_juicer.ops.deduplicator.RayVideoDeduplicator 方法) calculate_np()(在 data_juicer.utils.process_utils 模块中) calculate_ray_np()(在 data_juicer.utils.process_utils 模块中) calculate_resized_dimensions()(在 data_juicer.utils.mm_utils 模块中) catch_map_batches_exception()(在 data_juicer.ops.base_op 模块中) catch_map_single_exception()(在 data_juicer.ops.base_op 模块中) category_to_hist()(data_juicer.analysis.measure.RelatedTTestMeasure 静态方法) char_rep_ratio(data_juicer.utils.constant.StatsKeysConstant 属性) ChatAPIModel(data_juicer.utils.model_utils 中的类) check_and_initialize_ray()(在 data_juicer.utils.ray_utils 模块中) check_ckpt() (data_juicer.utils.ckpt_utils.CheckpointManager 方法) check_inputs() (data_juicer.ops.common.prompt2prompt_pipeline.Prompt2PromptPipeline 方法) check_model()(在 data_juicer.utils.model_utils 模块中) check_model_home()(在 data_juicer.utils.model_utils 模块中) check_op_method_param()(在 data_juicer.utils.common_utils 模块中) check_ops_to_skip() (data_juicer.utils.ckpt_utils.CheckpointManager 方法) check_packages()(data_juicer.utils.lazy_loader.LazyLoader 类方法) check_time_span() (data_juicer.utils.video_utils.VideoReader 方法) CheckpointManager(data_juicer.utils.ckpt_utils 中的类) class_label_tag(data_juicer.utils.constant.MetaKeys 属性) clean_nltk_cache()(在 data_juicer.utils.nltk_utils 模块中) cleanup_cache_files() (data_juicer.utils.compress.CacheCompressManager 方法) cleanup_compressed_cache_files()(在 data_juicer.utils.compress 模块中) clear() (data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.EdgeBuffer 方法) Clip(data_juicer.utils.video_utils 中的类) close() (data_juicer.utils.video_utils.AVReader 方法) close() (data_juicer.utils.video_utils.DecordReader 方法) close() (data_juicer.utils.video_utils.FFmpegReader 方法) close() (data_juicer.utils.video_utils.VideoReader 方法) close_video()(在 data_juicer.utils.mm_utils 模块中) ColumnWiseAnalysis(data_juicer.analysis 中的类) ColumnWiseAnalysis(data_juicer.analysis.column_wise_analysis 中的类) communication() (data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.BTSUnionFind 方法) compress() (data_juicer.utils.compress.CacheCompressManager 方法) compress() (data_juicer.utils.compress.CompressManager 方法) compress()(data_juicer.utils.compress.BaseCompressor 静态方法) compress()(data_juicer.utils.compress.Compressor 类方法) compress()(data_juicer.utils.compress.GzipCompressor 静态方法) compress()(data_juicer.utils.compress.Lz4Compressor 静态方法) compress()(data_juicer.utils.compress.ZstdCompressor 静态方法) compress()(在 data_juicer.utils.compress 模块中) CompressionOff(data_juicer.utils.compress 中的类) CompressManager(data_juicer.utils.compress 中的类) compressors(data_juicer.utils.compress.Compressor 属性) Compressor(data_juicer.utils.compress 中的类) compute() (data_juicer.analysis.diversity_analysis.DiversityAnalysis 方法) compute() (data_juicer.analysis.DiversityAnalysis 方法) compute_hash() (data_juicer.ops.base_op.Deduplicator 方法) compute_hash() (data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator 方法) compute_hash() (data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator 方法) compute_hash() (data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator 方法) compute_hash() (data_juicer.ops.deduplicator.DocumentDeduplicator 方法) compute_hash() (data_juicer.ops.deduplicator.DocumentMinhashDeduplicator 方法) compute_hash() (data_juicer.ops.deduplicator.DocumentSimhashDeduplicator 方法) compute_hash() (data_juicer.ops.deduplicator.image_deduplicator.ImageDeduplicator 方法) compute_hash() (data_juicer.ops.deduplicator.ImageDeduplicator 方法) compute_hash() (data_juicer.ops.deduplicator.video_deduplicator.VideoDeduplicator 方法) compute_hash() (data_juicer.ops.deduplicator.VideoDeduplicator 方法) compute_minhash() (data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.GPUMinHashActor 方法) compute_stats_batched() (data_juicer.ops.base_op.Filter 方法) compute_stats_batched() (data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter 方法) compute_stats_batched() (data_juicer.ops.op_fusion.FusedFilter 方法) compute_stats_single() (data_juicer.ops.base_op.Filter 方法) compute_stats_single() (data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator 方法) compute_stats_single() (data_juicer.ops.deduplicator.RayBasicDeduplicator 方法) compute_stats_single() (data_juicer.ops.filter.audio_duration_filter.AudioDurationFilter 方法) config_backup()(在 data_juicer.config.config 模块中) context(data_juicer.utils.constant.Fields 属性) convert_arrow_to_python()(在 data_juicer.ops.base_op 模块中) convert_dict_list_to_list_dict()(在 data_juicer.ops.base_op 模块中) convert_list_dict_to_dict_list()(在 data_juicer.ops.base_op 模块中) copy_data()(在 data_juicer.utils.file_utils 模块中) CorrelationAnalysis(data_juicer.analysis 中的类) CorrelationAnalysis(data_juicer.analysis.correlation_analysis 中的类) cpu_count()(在 data_juicer.utils.resource_utils 模块中) create_controller()(在 data_juicer.ops.common.prompt2prompt_pipeline 模块中) create_directory_if_not_exists()(在 data_juicer.utils.file_utils 模块中) create_physical_resource_alias()(在 data_juicer.utils.nltk_utils 模块中) create_pyarrow_s3_filesystem()(在 data_juicer.utils.s3_utils 模块中) create_video_reader()(在 data_juicer.utils.video_utils 模块中) CrossEntropyMeasure(data_juicer.analysis.measure 中的类) CsvFormatter(data_juicer.format 中的类) CsvFormatter(data_juicer.format.csv_formatter 中的类) cuda_device_count()(在 data_juicer.utils.resource_utils 模块中) cut_video_by_seconds()(在 data_juicer.utils.mm_utils 模块中) D data_juicer module data_juicer.analysis module data_juicer.analysis.column_wise_analysis module data_juicer.analysis.correlation_analysis module data_juicer.analysis.diversity_analysis module data_juicer.analysis.measure module data_juicer.analysis.overall_analysis module data_juicer.config module data_juicer.config.config module data_juicer.core.monitor module data_juicer.download module data_juicer.download.commoncrawl module data_juicer.download.downloader module data_juicer.download.wikipedia module data_juicer.format module data_juicer.format.csv_formatter module data_juicer.format.empty_formatter module data_juicer.format.formatter module data_juicer.format.json_formatter module data_juicer.format.load module data_juicer.format.parquet_formatter module data_juicer.format.text_formatter module data_juicer.format.tsv_formatter module data_juicer.ops.aggregator module data_juicer.ops.aggregator.entity_attribute_aggregator module data_juicer.ops.aggregator.meta_tags_aggregator module data_juicer.ops.aggregator.most_relevant_entities_aggregator module data_juicer.ops.aggregator.nested_aggregator module data_juicer.ops.base_op module data_juicer.ops.common module data_juicer.ops.common.dwpose_func module data_juicer.ops.common.helper_func module data_juicer.ops.common.prompt2prompt_pipeline module data_juicer.ops.common.special_characters module data_juicer.ops.deduplicator module data_juicer.ops.deduplicator.document_deduplicator module data_juicer.ops.deduplicator.document_minhash_deduplicator module data_juicer.ops.deduplicator.document_simhash_deduplicator module data_juicer.ops.deduplicator.image_deduplicator module data_juicer.ops.deduplicator.ray_basic_deduplicator module data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator module data_juicer.ops.deduplicator.ray_document_deduplicator module data_juicer.ops.deduplicator.ray_image_deduplicator module data_juicer.ops.deduplicator.ray_video_deduplicator module data_juicer.ops.deduplicator.video_deduplicator module data_juicer.ops.filter.alphanumeric_filter module data_juicer.ops.filter.audio_duration_filter module data_juicer.ops.load module data_juicer.ops.op_fusion module data_juicer.tools module data_juicer.tools.hpo module data_juicer.tools.mcp_server module data_juicer.tools.quality_classifier module data_juicer.tools.quality_classifier.eval module data_juicer.tools.quality_classifier.predict module data_juicer.tools.quality_classifier.qc_utils module data_juicer.tools.quality_classifier.train module data_juicer.utils module data_juicer.utils.asset_utils module data_juicer.utils.availability_utils module data_juicer.utils.cache_utils module data_juicer.utils.ckpt_utils module data_juicer.utils.common_utils module data_juicer.utils.compress module data_juicer.utils.constant module data_juicer.utils.file_utils module data_juicer.utils.fingerprint_utils module data_juicer.utils.lazy_loader module data_juicer.utils.logger_utils module data_juicer.utils.mm_utils module data_juicer.utils.model_utils module data_juicer.utils.nltk_utils module data_juicer.utils.process_utils module data_juicer.utils.ray_utils module data_juicer.utils.registry module data_juicer.utils.resource_utils module data_juicer.utils.s3_utils module data_juicer.utils.sample module data_juicer.utils.video_utils module data_juicer.utils.webdataset_utils module dataset_cache_control()(在 data_juicer.utils.cache_utils 模块中) DatasetCacheControl(data_juicer.utils.cache_utils 中的类) decode()(在 data_juicer.ops.common.dwpose_func 模块中) decompress() (data_juicer.utils.compress.CacheCompressManager 方法) decompress() (data_juicer.utils.compress.CompressManager 方法) decompress()(在 data_juicer.utils.compress 模块中) DecordReader(data_juicer.utils.video_utils 中的类) Deduplicator(data_juicer.ops.base_op 中的类) DedupSet(data_juicer.ops.deduplicator.ray_basic_deduplicator 中的类) DEFAULT_EXAMPLE_PROMPT(data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator 属性) DEFAULT_EXAMPLE_PROMPT(data_juicer.ops.aggregator.EntityAttributeAggregator 属性) DEFAULT_INPUT_TEMPLATE(data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator 属性) DEFAULT_INPUT_TEMPLATE(data_juicer.ops.aggregator.EntityAttributeAggregator 属性) DEFAULT_INPUT_TEMPLATE(data_juicer.ops.aggregator.meta_tags_aggregator.MetaTagsAggregator 属性) DEFAULT_INPUT_TEMPLATE(data_juicer.ops.aggregator.MetaTagsAggregator 属性) DEFAULT_INPUT_TEMPLATE(data_juicer.ops.aggregator.most_relevant_entities_aggregator.MostRelevantEntitiesAggregator 属性) DEFAULT_INPUT_TEMPLATE(data_juicer.ops.aggregator.MostRelevantEntitiesAggregator 属性) DEFAULT_INPUT_TEMPLATE(data_juicer.ops.aggregator.nested_aggregator.NestedAggregator 属性) DEFAULT_INPUT_TEMPLATE(data_juicer.ops.aggregator.NestedAggregator 属性) DEFAULT_OUTPUT_PATTERN_TEMPLATE(data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator 属性) DEFAULT_OUTPUT_PATTERN_TEMPLATE(data_juicer.ops.aggregator.EntityAttributeAggregator 属性) DEFAULT_OUTPUT_PATTERN(data_juicer.ops.aggregator.meta_tags_aggregator.MetaTagsAggregator 属性) DEFAULT_OUTPUT_PATTERN(data_juicer.ops.aggregator.MetaTagsAggregator 属性) DEFAULT_OUTPUT_PATTERN(data_juicer.ops.aggregator.most_relevant_entities_aggregator.MostRelevantEntitiesAggregator 属性) DEFAULT_OUTPUT_PATTERN(data_juicer.ops.aggregator.MostRelevantEntitiesAggregator 属性) DEFAULT_SUB_DOC_TEMPLATE(data_juicer.ops.aggregator.nested_aggregator.NestedAggregator 属性) DEFAULT_SUB_DOC_TEMPLATE(data_juicer.ops.aggregator.NestedAggregator 属性) DEFAULT_SYSTEM_PROMPT(data_juicer.ops.aggregator.meta_tags_aggregator.MetaTagsAggregator 属性) DEFAULT_SYSTEM_PROMPT(data_juicer.ops.aggregator.MetaTagsAggregator 属性) DEFAULT_SYSTEM_PROMPT(data_juicer.ops.aggregator.nested_aggregator.NestedAggregator 属性) DEFAULT_SYSTEM_PROMPT(data_juicer.ops.aggregator.NestedAggregator 属性) DEFAULT_SYSTEM_TEMPLATE(data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator 属性) DEFAULT_SYSTEM_TEMPLATE(data_juicer.ops.aggregator.EntityAttributeAggregator 属性) DEFAULT_SYSTEM_TEMPLATE(data_juicer.ops.aggregator.most_relevant_entities_aggregator.MostRelevantEntitiesAggregator 属性) DEFAULT_SYSTEM_TEMPLATE(data_juicer.ops.aggregator.MostRelevantEntitiesAggregator 属性) DEFAULT_TAG_TEMPLATE(data_juicer.ops.aggregator.meta_tags_aggregator.MetaTagsAggregator 属性) DEFAULT_TAG_TEMPLATE(data_juicer.ops.aggregator.MetaTagsAggregator 属性) DEFAULT_TARGET_TAG_TEMPLATE(data_juicer.ops.aggregator.meta_tags_aggregator.MetaTagsAggregator 属性) DEFAULT_TARGET_TAG_TEMPLATE(data_juicer.ops.aggregator.MetaTagsAggregator 属性) demo_postprocess()(在 data_juicer.ops.common.dwpose_func 模块中) deprecated()(在 data_juicer.utils.common_utils 模块中) detect_faces()(在 data_juicer.utils.mm_utils 模块中) dialog_intent_labels_analysis(data_juicer.utils.constant.MetaKeys 属性) dialog_intent_labels(data_juicer.utils.constant.MetaKeys 属性) dialog_sentiment_intensity_analysis(data_juicer.utils.constant.MetaKeys 属性) dialog_sentiment_intensity(data_juicer.utils.constant.MetaKeys 属性) dialog_sentiment_labels_analysis(data_juicer.utils.constant.MetaKeys 属性) dialog_sentiment_labels(data_juicer.utils.constant.MetaKeys 属性) dialog_topic_labels_analysis(data_juicer.utils.constant.MetaKeys 属性) dialog_topic_labels(data_juicer.utils.constant.MetaKeys 属性) dict_to_hash()(在 data_juicer.utils.common_utils 模块中) dispatch(data_juicer.utils.fingerprint_utils.Hasher 属性) display_config()(在 data_juicer.config.config 模块中) distribute_edge() (data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.BTSUnionFind 方法) DiversityAnalysis(data_juicer.analysis 中的类) DiversityAnalysis(data_juicer.analysis.diversity_analysis 中的类) dj_configs(data_juicer.utils.constant.JobRequiredKeys 属性) DocumentDeduplicator(data_juicer.ops.deduplicator 中的类) DocumentDeduplicator(data_juicer.ops.deduplicator.document_deduplicator 中的类) DocumentDownloader(data_juicer.download.downloader 中的类) DocumentExtractor(data_juicer.download.downloader 中的类) DocumentIterator(data_juicer.download.downloader 中的类) DocumentMinhashDeduplicatorWithUid(data_juicer.ops.deduplicator 中的类) DocumentMinhashDeduplicatorWithUid(data_juicer.ops.deduplicator.document_minhash_deduplicator 中的类) DocumentMinhashDeduplicator(data_juicer.ops.deduplicator 中的类) DocumentMinhashDeduplicator(data_juicer.ops.deduplicator.document_minhash_deduplicator 中的类) DocumentSimhashDeduplicator(data_juicer.ops.deduplicator 中的类) DocumentSimhashDeduplicator(data_juicer.ops.deduplicator.document_simhash_deduplicator 中的类) download() (data_juicer.download.downloader.DocumentDownloader 方法) download() (data_juicer.download.wikipedia.WikipediaDownloader 方法) download_and_extract()(在 data_juicer.download.downloader 模块中) download_file()(在 data_juicer.utils.file_utils 模块中) download_wikipedia()(在 data_juicer.download.wikipedia 模块中) draw_bodypose()(在 data_juicer.ops.common.dwpose_func 模块中) draw_box() (data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis 方法) draw_box() (data_juicer.analysis.ColumnWiseAnalysis 方法) draw_facepose()(在 data_juicer.ops.common.dwpose_func 模块中) draw_handpose()(在 data_juicer.ops.common.dwpose_func 模块中) draw_heatmap()(在 data_juicer.analysis.correlation_analysis 模块中) draw_hist() (data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis 方法) draw_hist() (data_juicer.analysis.ColumnWiseAnalysis 方法) draw_pose()(在 data_juicer.ops.common.dwpose_func 模块中) draw_resource_util_graph()(data_juicer.core.monitor.Monitor 静态方法) draw_wordcloud() (data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis 方法) draw_wordcloud() (data_juicer.analysis.ColumnWiseAnalysis 方法) dup_idx() (data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.BTSUnionFind 方法) duration(data_juicer.utils.video_utils.VideoMetadata 属性) DWposeDetector(data_juicer.ops.common.dwpose_func 中的类) DYNAMIC_FIELDS(data_juicer.core.monitor.Monitor 属性) E edge_redistribution() (data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.BTSUnionFind 方法) EdgeBuffer(data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator 中的类) EmbeddingAPIModel(data_juicer.utils.model_utils 中的类) EMPTY_HASH_VALUE(data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator 属性) EMPTY_HASH_VALUE(data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.RayBTSMinhashDeduplicator 属性) EMPTY_HASH_VALUE(data_juicer.ops.deduplicator.RayBasicDeduplicator 属性) EMPTY_HASH_VALUE(data_juicer.ops.deduplicator.RayBTSMinhashDeduplicator 属性) empty_history() (data_juicer.ops.base_op.OP 方法) EmptyControl(data_juicer.ops.common.prompt2prompt_pipeline 中的类) EmptyFormatter(data_juicer.format 中的类) EmptyFormatter(data_juicer.format.empty_formatter 中的类) encoded_data(data_juicer.utils.video_utils.Clip 属性) ensure_nltk_resource()(在 data_juicer.utils.nltk_utils 模块中) entity_attribute(data_juicer.utils.constant.BatchMetaKeys 属性) entity_description(data_juicer.utils.constant.MetaKeys 属性) entity_name(data_juicer.utils.constant.MetaKeys 属性) entity_type(data_juicer.utils.constant.MetaKeys 属性) EntityAttributeAggregator(data_juicer.ops.aggregator 中的类) EntityAttributeAggregator(data_juicer.ops.aggregator.entity_attribute_aggregator 中的类) entity(data_juicer.utils.constant.MetaKeys 属性) EntropyMeasure(data_juicer.analysis.measure 中的类) eoc(data_juicer.utils.mm_utils.SpecialTokens 属性) eval()(在 data_juicer.tools.quality_classifier.qc_utils 模块中) event_description(data_juicer.utils.constant.MetaKeys 属性) expand_outdir_and_mkdir()(在 data_juicer.utils.file_utils 模块中) export_config()(在 data_juicer.config 模块中) export_config()(在 data_juicer.config.config 模块中) export_result()(在 data_juicer.tools.quality_classifier.qc_utils 模块中) extra_configs(data_juicer.utils.constant.JobRequiredKeys 属性) extract() (data_juicer.download.downloader.DocumentExtractor 方法) extract() (data_juicer.download.wikipedia.WikipediaExtractor 方法) extract()(data_juicer.utils.compress.Extractor 类方法) extract_audio_from_video()(在 data_juicer.utils.mm_utils 模块中) extract_clip() (data_juicer.utils.video_utils.AVReader 方法) extract_clip() (data_juicer.utils.video_utils.DecordReader 方法) extract_clip() (data_juicer.utils.video_utils.FFmpegReader 方法) extract_clip() (data_juicer.utils.video_utils.VideoReader 方法) extract_frames() (data_juicer.utils.video_utils.AVReader 方法) extract_frames() (data_juicer.utils.video_utils.DecordReader 方法) extract_frames() (data_juicer.utils.video_utils.FFmpegReader 方法) extract_frames() (data_juicer.utils.video_utils.VideoReader 方法) extract_key_frames()(在 data_juicer.utils.mm_utils 模块中) extract_key_frames_by_seconds()(在 data_juicer.utils.mm_utils 模块中) extract_keyframes() (data_juicer.utils.video_utils.AVReader 方法) extract_keyframes() (data_juicer.utils.video_utils.DecordReader 方法) extract_keyframes() (data_juicer.utils.video_utils.FFmpegReader 方法) extract_keyframes() (data_juicer.utils.video_utils.VideoReader 方法) extract_txt_from_docx()(在 data_juicer.format.text_formatter 模块中) extract_txt_from_pdf()(在 data_juicer.format.text_formatter 模块中) extract_video_frames_uniformly()(在 data_juicer.utils.mm_utils 模块中) extract_video_frames_uniformly_by_seconds()(在 data_juicer.utils.mm_utils 模块中) Extractor(data_juicer.utils.compress 中的类) F face_counts(data_juicer.utils.constant.StatsKeysConstant 属性) face_detections(data_juicer.utils.constant.StatsKeysConstant 属性) face_ratios(data_juicer.utils.constant.StatsKeysConstant 属性) faceDetect()(在 data_juicer.ops.common.dwpose_func 模块中) FFmpegReader(data_juicer.utils.video_utils 中的类) Fields(data_juicer.utils.constant 中的类) FileLock(data_juicer.utils.compress 中的类) fileno() (data_juicer.utils.logger_utils.StreamToLoguru 方法) filter_arguments()(在 data_juicer.utils.model_utils 模块中) filter_with_union_find() (data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.RayBTSMinhashDeduplicator 方法) filter_with_union_find() (data_juicer.ops.deduplicator.RayBTSMinhashDeduplicator 方法) Filter(data_juicer.ops.base_op 中的类) find() (data_juicer.ops.common.helper_func.UnionFind 方法) find() (data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.BTSUnionFind 方法) find_files_with_suffix()(在 data_juicer.utils.file_utils 模块中) find_root_verb_and_its_dobj()(在 data_juicer.analysis.diversity_analysis 模块中) find_root_verb_and_its_dobj_in_string()(在 data_juicer.analysis.diversity_analysis 模块中) flagged_words_ratio(data_juicer.utils.constant.StatsKeysConstant 属性) flush() (data_juicer.utils.logger_utils.StreamToLoguru 方法) flush_key_value_pairs() (data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.BTSUnionFind 方法) follow_read()(在 data_juicer.utils.file_utils 模块中) format_cache_file_name() (data_juicer.utils.compress.CacheCompressManager 方法) forward() (data_juicer.ops.common.prompt2prompt_pipeline.AttentionControl 方法) forward() (data_juicer.ops.common.prompt2prompt_pipeline.AttentionControlEdit 方法) forward() (data_juicer.ops.common.prompt2prompt_pipeline.AttentionStore 方法) forward() (data_juicer.ops.common.prompt2prompt_pipeline.EmptyControl 方法) fps(data_juicer.utils.video_utils.VideoMetadata 属性) Frames(data_juicer.utils.video_utils 中的类) frames(data_juicer.utils.video_utils.Clip 属性) frames(data_juicer.utils.video_utils.Frames 属性) free_models()(在 data_juicer.utils.model_utils 模块中) fuse_filter_group()(在 data_juicer.ops.op_fusion 模块中) fuse_operators()(在 data_juicer.ops.op_fusion 模块中) FusedFilter(data_juicer.ops.op_fusion 中的类) G general_field_filter_condition(data_juicer.utils.constant.StatsKeysConstant 属性) GeneralFusedOP(data_juicer.ops.op_fusion 中的类) generate_fingerprint()(在 data_juicer.utils.fingerprint_utils 模块中) get() (data_juicer.utils.registry.Registry 方法) get_access_log() (data_juicer.utils.constant.StatsKeysMeta 方法) get_aligned_sequences()(在 data_juicer.ops.common.prompt2prompt_pipeline 模块中) get_all_dependencies()(data_juicer.utils.lazy_loader.LazyLoader 类方法) get_all_files_paths_under()(在 data_juicer.utils.file_utils 模块中) get_arxiv_urls()(在 data_juicer.download.downloader 模块中) get_average_attention() (data_juicer.ops.common.prompt2prompt_pipeline.AttentionStore 方法) get_aws_credentials()(在 data_juicer.utils.s3_utils 模块中) get_backup_model_link()(在 data_juicer.utils.model_utils 模块中) get_caller_name()(在 data_juicer.utils.logger_utils 模块中) get_cpu_utilization()(在 data_juicer.utils.resource_utils 模块中) get_decoded_frames_from_video()(在 data_juicer.utils.mm_utils 模块中) get_default_cfg()(在 data_juicer.config 模块中) get_default_cfg()(在 data_juicer.config.config 模块中) get_diversity()(在 data_juicer.analysis.diversity_analysis 模块中) get_edges() (data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.EdgeBuffer 方法) get_empty_store()(data_juicer.ops.common.prompt2prompt_pipeline.AttentionStore 静态方法) get_equalizer()(在 data_juicer.ops.common.prompt2prompt_pipeline 模块中) get_file_size()(在 data_juicer.utils.mm_utils 模块中) get_hash_method()(在 data_juicer.ops.deduplicator.image_deduplicator 模块中) get_hash_method()(在 data_juicer.ops.deduplicator.ray_image_deduplicator 模块中) get_init_configs()(在 data_juicer.config 模块中) get_init_configs()(在 data_juicer.config.config 模块中) get_keep_boolean() (data_juicer.ops.base_op.Filter 方法) get_keep_method_udf()(在 data_juicer.tools.quality_classifier.qc_utils 模块中) get_key_frame_seconds()(在 data_juicer.utils.mm_utils 模块中) get_left_process_list() (data_juicer.utils.ckpt_utils.CheckpointManager 方法) get_log_file_path()(在 data_juicer.utils.logger_utils 模块中) get_mapper()(在 data_juicer.ops.common.prompt2prompt_pipeline 模块中) get_matrix()(在 data_juicer.ops.common.prompt2prompt_pipeline 模块中) get_metadata() (data_juicer.utils.video_utils.AVReader 方法) get_metadata() (data_juicer.utils.video_utils.DecordReader 方法) get_metadata() (data_juicer.utils.video_utils.FFmpegReader 方法) get_metadata() (data_juicer.utils.video_utils.VideoReader 方法) get_min_cuda_memory()(在 data_juicer.utils.process_utils 模块中) get_model()(在 data_juicer.utils.model_utils 模块中) get_next_id() (data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.IdGenerator 方法) get_package_name()(data_juicer.utils.lazy_loader.LazyLoader 类方法) get_ray_nodes_info()(在 data_juicer.utils.ray_utils 模块中) get_refinement_mapper()(在 data_juicer.ops.common.prompt2prompt_pipeline 模块中) get_remote_classes()(在 data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator 模块中) get_remote_dedup_set()(在 data_juicer.ops.deduplicator.ray_basic_deduplicator 模块中) get_replacement_mapper()(在 data_juicer.ops.common.prompt2prompt_pipeline 模块中) get_replacement_mapper_()(在 data_juicer.ops.common.prompt2prompt_pipeline 模块中) get_row_col()(在 data_juicer.analysis.column_wise_analysis 模块中) get_sentences_from_document()(在 data_juicer.ops.common 模块中) get_sentences_from_document()(在 data_juicer.ops.common.helper_func 模块中) get_simcc_maximum()(在 data_juicer.ops.common.dwpose_func 模块中) get_special_tokens()(在 data_juicer.utils.mm_utils 模块中) get_time_words_attention_alpha()(在 data_juicer.ops.common.prompt2prompt_pipeline 模块中) get_toml_file_path()(在 data_juicer.utils.lazy_loader 模块中) get_traceback_matrix()(在 data_juicer.ops.common.prompt2prompt_pipeline 模块中) get_uv_lock_path()(在 data_juicer.utils.lazy_loader 模块中) get_video_duration()(在 data_juicer.utils.mm_utils 模块中) get_warp_matrix()(在 data_juicer.ops.common.dwpose_func 模块中) get_wikipedia_urls()(在 data_juicer.download.downloader 模块中) get_word_inds()(在 data_juicer.ops.common.prompt2prompt_pipeline 模块中) get_words_from_document()(在 data_juicer.ops.common 模块中) get_words_from_document()(在 data_juicer.ops.common.helper_func 模块中) getvalue() (data_juicer.utils.logger_utils.StreamToLoguru 方法) GiB(data_juicer.utils.file_utils.Sizes 属性) global_align()(在 data_juicer.ops.common.prompt2prompt_pipeline 模块中) GPUMinHashActor(data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator 中的类) Grouper(data_juicer.ops.base_op 中的类) GzipCompressor(data_juicer.utils.compress 中的类) H hand_reconstruction_tags(data_juicer.utils.constant.MetaKeys 属性) handDetect()(在 data_juicer.ops.common.dwpose_func 模块中) hash()(data_juicer.utils.fingerprint_utils.Hasher 类方法) hash_bytes()(data_juicer.utils.fingerprint_utils.Hasher 类方法) hash_default()(data_juicer.utils.fingerprint_utils.Hasher 类方法) Hasher(data_juicer.utils.fingerprint_utils 中的类) HashKeys(data_juicer.utils.constant 中的类) hash(data_juicer.utils.constant.HashKeys 属性) height(data_juicer.utils.video_utils.VideoMetadata 属性) hexdigest() (data_juicer.utils.fingerprint_utils.Hasher 方法) HiddenPrints(data_juicer.utils.logger_utils 中的类) hook(data_juicer.utils.constant.JobRequiredKeys 属性) html_tables(data_juicer.utils.constant.MetaKeys 属性) I IdGenerator(data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator 中的类) id(data_juicer.utils.video_utils.Clip 属性) ifd_score(data_juicer.utils.constant.StatsKeysConstant 属性) image_aesthetics_scores(data_juicer.utils.constant.StatsKeysConstant 属性) image_byte_to_base64()(在 data_juicer.utils.mm_utils 模块中) image_height(data_juicer.utils.constant.StatsKeysConstant 属性) image_nsfw_score(data_juicer.utils.constant.StatsKeysConstant 属性) image_pair_similarity(data_juicer.utils.constant.StatsKeysConstant 属性) image_path_to_base64()(在 data_juicer.utils.mm_utils 模块中) image_sizes(data_juicer.utils.constant.StatsKeysConstant 属性) image_tags(data_juicer.utils.constant.MetaKeys 属性) image_text_matching_score(data_juicer.utils.constant.StatsKeysConstant 属性) image_text_similarity(data_juicer.utils.constant.StatsKeysConstant 属性) image_watermark_prob(data_juicer.utils.constant.StatsKeysConstant 属性) image_width(data_juicer.utils.constant.StatsKeysConstant 属性) ImageDeduplicator(data_juicer.ops.deduplicator 中的类) ImageDeduplicator(data_juicer.ops.deduplicator.image_deduplicator 中的类) imagehash(data_juicer.utils.constant.HashKeys 属性) image(data_juicer.utils.mm_utils.SpecialTokens 属性) in_context_influence(data_juicer.utils.constant.StatsKeysConstant 属性) indices(data_juicer.utils.video_utils.Frames 属性) inference()(在 data_juicer.ops.common.dwpose_func 模块中) inference_detector()(在 data_juicer.ops.common.dwpose_func 模块中) inference_pose()(在 data_juicer.ops.common.dwpose_func 模块中) init_configs()(在 data_juicer.config 模块中) init_configs()(在 data_juicer.config.config 模块中) init_setup_from_cfg()(在 data_juicer.config.config 模块中) init_spark()(在 data_juicer.tools.quality_classifier.qc_utils 模块中) initialize_ray()(在 data_juicer.utils.ray_utils 模块中) input(data_juicer.utils.constant.JobRequiredKeys 属性) insert_texts_after_placeholders()(在 data_juicer.utils.mm_utils 模块中) InterVars(data_juicer.utils.constant 中的类) iou()(在 data_juicer.utils.mm_utils 模块中) is_absolute_path()(在 data_juicer.utils.file_utils 模块中) is_available()(data_juicer.utils.video_utils.AVReader 类方法) is_available()(data_juicer.utils.video_utils.DecordReader 类方法) is_available()(data_juicer.utils.video_utils.FFmpegReader 类方法) is_available()(data_juicer.utils.video_utils.VideoReader 类方法) is_batched_op() (data_juicer.ops.base_op.OP 方法) is_cuda_available()(在 data_juicer.utils.resource_utils 模块中) is_float()(在 data_juicer.utils.common_utils 模块中) is_notebook()(在 data_juicer.utils.logger_utils 模块中) is_numeric_list_series()(在 data_juicer.analysis.correlation_analysis 模块中) is_ray_mode()(在 data_juicer.utils.ray_utils 模块中) is_remote_path()(在 data_juicer.utils.file_utils 模块中) is_string_list()(在 data_juicer.utils.common_utils 模块中) is_unique() (data_juicer.ops.deduplicator.ray_basic_deduplicator.ActorBackend 方法) is_unique() (data_juicer.ops.deduplicator.ray_basic_deduplicator.Backend 方法) is_unique() (data_juicer.ops.deduplicator.ray_basic_deduplicator.DedupSet 方法) is_unique() (data_juicer.ops.deduplicator.ray_basic_deduplicator.RedisBackend 方法) is_unique(data_juicer.utils.constant.HashKeys 属性) isatty() (data_juicer.utils.logger_utils.StreamToLoguru 方法) iterate() (data_juicer.download.downloader.DocumentIterator 方法) iterate() (data_juicer.download.wikipedia.WikipediaIterator 方法) J JobRequiredKeys(data_juicer.utils.constant 中的类) JSDivMeasure(data_juicer.analysis.measure 中的类) JsonFormatter(data_juicer.format 中的类) JsonFormatter(data_juicer.format.json_formatter 中的类) K keyword(data_juicer.utils.constant.MetaKeys 属性) KiB(data_juicer.utils.file_utils.Sizes 属性) KLDivMeasure(data_juicer.analysis.measure 中的类) L lang_score(data_juicer.utils.constant.StatsKeysConstant 属性) lang(data_juicer.utils.constant.StatsKeysConstant 属性) LazyLoader(data_juicer.utils.lazy_loader 中的类) lines(data_juicer.utils.constant.InterVars 属性) list() (data_juicer.utils.registry.Registry 方法) llm_analysis_record(data_juicer.utils.constant.StatsKeysConstant 属性) llm_analysis_score(data_juicer.utils.constant.StatsKeysConstant 属性) llm_difficulty_record(data_juicer.utils.constant.StatsKeysConstant 属性) llm_difficulty_score(data_juicer.utils.constant.StatsKeysConstant 属性) llm_perplexity(data_juicer.utils.constant.StatsKeysConstant 属性) llm_quality_record(data_juicer.utils.constant.StatsKeysConstant 属性) llm_quality_score(data_juicer.utils.constant.StatsKeysConstant 属性) llm_task_relevance_record(data_juicer.utils.constant.StatsKeysConstant 属性) llm_task_relevance(data_juicer.utils.constant.StatsKeysConstant 属性) load_audio()(在 data_juicer.utils.mm_utils 模块中) load_audios()(在 data_juicer.utils.mm_utils 模块中) load_ckpt() (data_juicer.utils.ckpt_utils.CheckpointManager 方法) load_custom_operators()(在 data_juicer.config.config 模块中) load_data_with_context()(在 data_juicer.utils.mm_utils 模块中) load_dataset() (data_juicer.format.empty_formatter.EmptyFormatter 方法) load_dataset() (data_juicer.format.empty_formatter.RayEmptyFormatter 方法) load_dataset() (data_juicer.format.EmptyFormatter 方法) load_dataset() (data_juicer.format.formatter.BaseFormatter 方法) load_dataset() (data_juicer.format.formatter.LocalFormatter 方法) load_dataset() (data_juicer.format.formatter.RemoteFormatter 方法) load_dataset() (data_juicer.format.LocalFormatter 方法) load_dataset() (data_juicer.format.RayEmptyFormatter 方法) load_dataset() (data_juicer.format.RemoteFormatter 方法) load_dataset() (data_juicer.format.text_formatter.TextFormatter 方法) load_dataset() (data_juicer.format.TextFormatter 方法) load_dataset()(在 data_juicer.tools.quality_classifier.qc_utils 模块中) load_datasets()(在 data_juicer.tools.quality_classifier.qc_utils 模块中) load_formatter()(在 data_juicer.format.load 模块中) load_image()(在 data_juicer.utils.mm_utils 模块中) load_image_byte()(在 data_juicer.utils.mm_utils 模块中) load_images()(在 data_juicer.utils.mm_utils 模块中) load_images_byte()(在 data_juicer.utils.mm_utils 模块中) load_mm_bytes_from_sample()(在 data_juicer.utils.mm_utils 模块中) load_ops()(在 data_juicer.ops.load 模块中) load_ops_with_stats_meta()(在 data_juicer.config.config 模块中) load_video()(在 data_juicer.utils.mm_utils 模块中) load_videos()(在 data_juicer.utils.mm_utils 模块中) load_words_asset()(在 data_juicer.utils.asset_utils 模块中) loaded_audios(data_juicer.utils.constant.InterVars 属性) loaded_images(data_juicer.utils.constant.InterVars 属性) loaded_videos(data_juicer.utils.constant.InterVars 属性) LocalBlend(data_juicer.ops.common.prompt2prompt_pipeline 中的类) LocalFormatter(data_juicer.format 中的类) LocalFormatter(data_juicer.format.formatter 中的类) local(data_juicer.utils.constant.JobRequiredKeys 属性) Lz4Compressor(data_juicer.utils.compress 中的类) M main()(在 data_juicer.tools.mcp_server 模块中) main()(在 data_juicer.tools.quality_classifier.eval 模块中) main()(在 data_juicer.tools.quality_classifier.train 模块中) main_entities(data_juicer.utils.constant.MetaKeys 属性) make_log_summarization()(在 data_juicer.utils.logger_utils 模块中) Mapper(data_juicer.ops.base_op 中的类) max_line_length(data_juicer.utils.constant.StatsKeysConstant 属性) measure() (data_juicer.analysis.measure.CrossEntropyMeasure 方法) measure() (data_juicer.analysis.measure.EntropyMeasure 方法) measure() (data_juicer.analysis.measure.JSDivMeasure 方法) measure() (data_juicer.analysis.measure.KLDivMeasure 方法) measure() (data_juicer.analysis.measure.Measure 方法) measure() (data_juicer.analysis.measure.RelatedTTestMeasure 方法) Measure(data_juicer.analysis.measure 中的类) merge() (data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.RayBTSMinhashDeduplicator 方法) merge() (data_juicer.ops.deduplicator.RayBTSMinhashDeduplicator 方法) merge_config()(在 data_juicer.config 模块中) merge_config()(在 data_juicer.config.config 模块中) merge_on_whitespace_tab_newline()(在 data_juicer.ops.common 模块中) merge_on_whitespace_tab_newline()(在 data_juicer.ops.common.helper_func 模块中) merge_op_batch() (data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.RayBTSMinhashDeduplicator 方法) merge_op_batch() (data_juicer.ops.deduplicator.RayBTSMinhashDeduplicator 方法) meta_map() (data_juicer.ops.aggregator.meta_tags_aggregator.MetaTagsAggregator 方法) meta_map() (data_juicer.ops.aggregator.MetaTagsAggregator 方法) meta_name(data_juicer.utils.constant.JobRequiredKeys 属性) metadata(data_juicer.utils.video_utils.VideoReader 属性) MetaKeys(data_juicer.utils.constant 中的类) MetaTagsAggregator(data_juicer.ops.aggregator 中的类) MetaTagsAggregator(data_juicer.ops.aggregator.meta_tags_aggregator 中的类) meta(data_juicer.utils.constant.Fields 属性) MiB(data_juicer.utils.file_utils.Sizes 属性) minhash(data_juicer.utils.constant.HashKeys 属性) mis_match_char() (data_juicer.ops.common.prompt2prompt_pipeline.ScoreParams 方法) module data_juicer data_juicer.analysis data_juicer.analysis.column_wise_analysis data_juicer.analysis.correlation_analysis data_juicer.analysis.diversity_analysis data_juicer.analysis.measure data_juicer.analysis.overall_analysis data_juicer.config data_juicer.config.config data_juicer.core.monitor data_juicer.download data_juicer.download.commoncrawl data_juicer.download.downloader data_juicer.download.wikipedia data_juicer.format data_juicer.format.csv_formatter data_juicer.format.empty_formatter data_juicer.format.formatter data_juicer.format.json_formatter data_juicer.format.load data_juicer.format.parquet_formatter data_juicer.format.text_formatter data_juicer.format.tsv_formatter data_juicer.ops.aggregator data_juicer.ops.aggregator.entity_attribute_aggregator data_juicer.ops.aggregator.meta_tags_aggregator data_juicer.ops.aggregator.most_relevant_entities_aggregator data_juicer.ops.aggregator.nested_aggregator data_juicer.ops.base_op data_juicer.ops.common data_juicer.ops.common.dwpose_func data_juicer.ops.common.helper_func data_juicer.ops.common.prompt2prompt_pipeline data_juicer.ops.common.special_characters data_juicer.ops.deduplicator data_juicer.ops.deduplicator.document_deduplicator data_juicer.ops.deduplicator.document_minhash_deduplicator data_juicer.ops.deduplicator.document_simhash_deduplicator data_juicer.ops.deduplicator.image_deduplicator data_juicer.ops.deduplicator.ray_basic_deduplicator data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator data_juicer.ops.deduplicator.ray_document_deduplicator data_juicer.ops.deduplicator.ray_image_deduplicator data_juicer.ops.deduplicator.ray_video_deduplicator data_juicer.ops.deduplicator.video_deduplicator data_juicer.ops.filter.alphanumeric_filter data_juicer.ops.filter.audio_duration_filter data_juicer.ops.load data_juicer.ops.op_fusion data_juicer.tools data_juicer.tools.hpo data_juicer.tools.mcp_server data_juicer.tools.quality_classifier data_juicer.tools.quality_classifier.eval data_juicer.tools.quality_classifier.predict data_juicer.tools.quality_classifier.qc_utils data_juicer.tools.quality_classifier.train data_juicer.utils data_juicer.utils.asset_utils data_juicer.utils.availability_utils data_juicer.utils.cache_utils data_juicer.utils.ckpt_utils data_juicer.utils.common_utils data_juicer.utils.compress data_juicer.utils.constant data_juicer.utils.file_utils data_juicer.utils.fingerprint_utils data_juicer.utils.lazy_loader data_juicer.utils.logger_utils data_juicer.utils.mm_utils data_juicer.utils.model_utils data_juicer.utils.nltk_utils data_juicer.utils.process_utils data_juicer.utils.ray_utils data_juicer.utils.registry data_juicer.utils.resource_utils data_juicer.utils.s3_utils data_juicer.utils.sample data_juicer.utils.video_utils data_juicer.utils.webdataset_utils modules(data_juicer.utils.registry.Registry 属性) monitor_current_resources()(data_juicer.core.monitor.Monitor 静态方法) monitor_func()(data_juicer.core.monitor.Monitor 静态方法) Monitor(data_juicer.core.monitor 中的类) most_relevant_entities(data_juicer.utils.constant.BatchMetaKeys 属性) MostRelevantEntitiesAggregator(data_juicer.ops.aggregator 中的类) MostRelevantEntitiesAggregator(data_juicer.ops.aggregator.most_relevant_entities_aggregator 中的类) multiclass_nms()(在 data_juicer.ops.common.dwpose_func 模块中) multimodal_data_output_dir(data_juicer.utils.constant.Fields 属性) N namespace_to_arg_list()(在 data_juicer.config.config 模块中) name(data_juicer.analysis.measure.CrossEntropyMeasure 属性) name(data_juicer.analysis.measure.EntropyMeasure 属性) name(data_juicer.analysis.measure.JSDivMeasure 属性) name(data_juicer.analysis.measure.KLDivMeasure 属性) name(data_juicer.analysis.measure.Measure 属性) name(data_juicer.analysis.measure.RelatedTTestMeasure 属性) name(data_juicer.utils.registry.Registry 属性) nested_access()(在 data_juicer.utils.common_utils 模块中) NestedAggregator(data_juicer.ops.aggregator 中的类) NestedAggregator(data_juicer.ops.aggregator.nested_aggregator 中的类) nickname(data_juicer.utils.constant.MetaKeys 属性) nms()(在 data_juicer.ops.common.dwpose_func 模块中) npmax()(在 data_juicer.ops.common.dwpose_func 模块中) null_value(data_juicer.format.empty_formatter.EmptyFormatter 属性) null_value(data_juicer.format.empty_formatter.RayEmptyFormatter 属性) null_value(data_juicer.format.EmptyFormatter 属性) null_value(data_juicer.format.RayEmptyFormatter 属性) num_action(data_juicer.utils.constant.StatsKeysConstant 属性) num_dependency_edges(data_juicer.utils.constant.StatsKeysConstant 属性) num_frames(data_juicer.utils.video_utils.VideoMetadata 属性) num_token(data_juicer.utils.constant.StatsKeysConstant 属性) num_uncond_att_layers(data_juicer.ops.common.prompt2prompt_pipeline.AttentionControl 属性) num_words(data_juicer.utils.constant.StatsKeysConstant 属性) O optimal_param()(在 data_juicer.ops.deduplicator.document_minhash_deduplicator 模块中) OP(data_juicer.ops.base_op 中的类) output(data_juicer.utils.constant.JobRequiredKeys 属性) OverallAnalysis(data_juicer.analysis 中的类) OverallAnalysis(data_juicer.analysis.overall_analysis 中的类) P P2PCrossAttnProcessor(data_juicer.ops.common.prompt2prompt_pipeline 中的类) padRightDownCorner()(在 data_juicer.ops.common.dwpose_func 模块中) ParquetFormatter(data_juicer.format 中的类) ParquetFormatter(data_juicer.format.parquet_formatter 中的类) parse_output() (data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator 方法) parse_output() (data_juicer.ops.aggregator.EntityAttributeAggregator 方法) parse_output() (data_juicer.ops.aggregator.meta_tags_aggregator.MetaTagsAggregator 方法) parse_output() (data_juicer.ops.aggregator.MetaTagsAggregator 方法) parse_output() (data_juicer.ops.aggregator.most_relevant_entities_aggregator.MostRelevantEntitiesAggregator 方法) parse_output() (data_juicer.ops.aggregator.MostRelevantEntitiesAggregator 方法) parse_output() (data_juicer.ops.aggregator.nested_aggregator.NestedAggregator 方法) parse_output() (data_juicer.ops.aggregator.NestedAggregator 方法) parse_string_to_roi()(在 data_juicer.utils.mm_utils 模块中) patch_nltk_pickle_security()(在 data_juicer.utils.nltk_utils 模块中) path(data_juicer.utils.video_utils.Clip 属性) perplexity(data_juicer.utils.constant.StatsKeysConstant 属性) phrase_grounding_recall(data_juicer.utils.constant.StatsKeysConstant 属性) pil_to_opencv()(在 data_juicer.utils.mm_utils 模块中) pose_estimation_tags(data_juicer.utils.constant.MetaKeys 属性) postprocess()(在 data_juicer.ops.common.dwpose_func 模块中) predict()(在 data_juicer.tools.quality_classifier.qc_utils 模块中) predict_score()(在 data_juicer.tools.quality_classifier.predict 模块中) prepare_api_model()(在 data_juicer.utils.model_utils 模块中) prepare_cfgs_for_export()(在 data_juicer.config 模块中) prepare_cfgs_for_export()(在 data_juicer.config.config 模块中) prepare_diffusion_model()(在 data_juicer.utils.model_utils 模块中) prepare_dwpose_model()(在 data_juicer.utils.model_utils 模块中) prepare_embedding_model()(在 data_juicer.utils.model_utils 模块中) prepare_fastsam_model()(在 data_juicer.utils.model_utils 模块中) prepare_fasttext_model()(在 data_juicer.utils.model_utils 模块中) prepare_huggingface_model()(在 data_juicer.utils.model_utils 模块中) prepare_kenlm_model()(在 data_juicer.utils.model_utils 模块中) prepare_model()(在 data_juicer.tools.quality_classifier.qc_utils 模块中) prepare_model()(在 data_juicer.utils.model_utils 模块中) prepare_nltk_model()(在 data_juicer.utils.model_utils 模块中) prepare_nltk_pos_tagger()(在 data_juicer.utils.model_utils 模块中) prepare_opencv_classifier()(在 data_juicer.utils.model_utils 模块中) prepare_qwen_vl_inputs_for_vllm()(在 data_juicer.utils.model_utils 模块中) prepare_recognizeAnything_model()(在 data_juicer.utils.model_utils 模块中) prepare_sdxl_prompt2prompt()(在 data_juicer.utils.model_utils 模块中) prepare_sentencepiece_for_lang()(在 data_juicer.utils.model_utils 模块中) prepare_sentencepiece_model()(在 data_juicer.utils.model_utils 模块中) prepare_side_configs()(在 data_juicer.config 模块中) prepare_side_configs()(在 data_juicer.config.config 模块中) prepare_simple_aesthetics_model()(在 data_juicer.utils.model_utils 模块中) prepare_spacy_model()(在 data_juicer.utils.model_utils 模块中) prepare_vggt_model()(在 data_juicer.utils.model_utils 模块中) prepare_video_blip_model()(在 data_juicer.utils.model_utils 模块中) prepare_video_depth_anything()(在 data_juicer.utils.model_utils 模块中) prepare_vllm_model()(在 data_juicer.utils.model_utils 模块中) prepare_wilor_model()(在 data_juicer.utils.model_utils 模块中) prepare_yolo_model()(在 data_juicer.utils.model_utils 模块中) preprocess_det()(在 data_juicer.ops.common.dwpose_func 模块中) preprocess_pose()(在 data_juicer.ops.common.dwpose_func 模块中) process() (data_juicer.ops.base_op.Deduplicator 方法) process() (data_juicer.ops.base_op.Grouper 方法) process() (data_juicer.ops.base_op.OP 方法) process() (data_juicer.ops.base_op.Selector 方法) process() (data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator 方法) process() (data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator 方法) process() (data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicatorWithUid 方法) process() (data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator 方法) process() (data_juicer.ops.deduplicator.DocumentDeduplicator 方法) process() (data_juicer.ops.deduplicator.DocumentMinhashDeduplicator 方法) process() (data_juicer.ops.deduplicator.DocumentMinhashDeduplicatorWithUid 方法) process() (data_juicer.ops.deduplicator.DocumentSimhashDeduplicator 方法) process() (data_juicer.ops.deduplicator.image_deduplicator.ImageDeduplicator 方法) process() (data_juicer.ops.deduplicator.ImageDeduplicator 方法) process() (data_juicer.ops.deduplicator.video_deduplicator.VideoDeduplicator 方法) process() (data_juicer.ops.deduplicator.VideoDeduplicator 方法) process_batched() (data_juicer.ops.base_op.Filter 方法) process_batched() (data_juicer.ops.base_op.Mapper 方法) process_batched() (data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter 方法) process_batched() (data_juicer.ops.op_fusion.FusedFilter 方法) process_batched() (data_juicer.ops.op_fusion.GeneralFusedOP 方法) process_each_frame()(在 data_juicer.utils.mm_utils 模块中) process_single() (data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator 方法) process_single() (data_juicer.ops.aggregator.EntityAttributeAggregator 方法) process_single() (data_juicer.ops.aggregator.meta_tags_aggregator.MetaTagsAggregator 方法) process_single() (data_juicer.ops.aggregator.MetaTagsAggregator 方法) process_single() (data_juicer.ops.aggregator.most_relevant_entities_aggregator.MostRelevantEntitiesAggregator 方法) process_single() (data_juicer.ops.aggregator.MostRelevantEntitiesAggregator 方法) process_single() (data_juicer.ops.aggregator.nested_aggregator.NestedAggregator 方法) process_single() (data_juicer.ops.aggregator.NestedAggregator 方法) process_single() (data_juicer.ops.base_op.Aggregator 方法) process_single() (data_juicer.ops.base_op.Filter 方法) process_single() (data_juicer.ops.base_op.Mapper 方法) process_single() (data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator 方法) process_single() (data_juicer.ops.deduplicator.RayBasicDeduplicator 方法) process_single() (data_juicer.ops.filter.audio_duration_filter.AudioDurationFilter 方法) Prompt2PromptPipeline(data_juicer.ops.common.prompt2prompt_pipeline 中的类) pts_time(data_juicer.utils.video_utils.Frames 属性) Q query_cuda_info()(在 data_juicer.utils.resource_utils 模块中) query_intent_label(data_juicer.utils.constant.MetaKeys 属性) query_intent_score(data_juicer.utils.constant.MetaKeys 属性) query_mem_info()(在 data_juicer.utils.resource_utils 模块中) query_most_relevant_entities() (data_juicer.ops.aggregator.most_relevant_entities_aggregator.MostRelevantEntitiesAggregator 方法) query_most_relevant_entities() (data_juicer.ops.aggregator.MostRelevantEntitiesAggregator 方法) query_sentiment_label(data_juicer.utils.constant.MetaKeys 属性) query_sentiment_score(data_juicer.utils.constant.MetaKeys 属性) query_topic_label(data_juicer.utils.constant.MetaKeys 属性) query_topic_score(data_juicer.utils.constant.MetaKeys 属性) R random_sample()(在 data_juicer.utils.sample 模块中) ray_available_gpu_memories()(在 data_juicer.utils.ray_utils 模块中) ray_available_memories()(在 data_juicer.utils.ray_utils 模块中) ray_cpu_count()(在 data_juicer.utils.ray_utils 模块中) ray_gpu_count()(在 data_juicer.utils.ray_utils 模块中) ray_gpu_memories()(在 data_juicer.utils.ray_utils 模块中) RayBasicDeduplicator(data_juicer.ops.deduplicator 中的类) RayBasicDeduplicator(data_juicer.ops.deduplicator.ray_basic_deduplicator 中的类) RayBTSMinhashDeduplicatorWithUid(data_juicer.ops.deduplicator 中的类) RayBTSMinhashDeduplicatorWithUid(data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator 中的类) RayBTSMinhashDeduplicator(data_juicer.ops.deduplicator 中的类) RayBTSMinhashDeduplicator(data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator 中的类) RayDocumentDeduplicator(data_juicer.ops.deduplicator 中的类) RayDocumentDeduplicator(data_juicer.ops.deduplicator.ray_document_deduplicator 中的类) RayEmptyFormatter(data_juicer.format 中的类) RayEmptyFormatter(data_juicer.format.empty_formatter 中的类) RayImageDeduplicator(data_juicer.ops.deduplicator 中的类) RayImageDeduplicator(data_juicer.ops.deduplicator.ray_image_deduplicator 中的类) RayVideoDeduplicator(data_juicer.ops.deduplicator 中的类) RayVideoDeduplicator(data_juicer.ops.deduplicator.ray_video_deduplicator 中的类) read_file_as_bytes()(在 data_juicer.utils.webdataset_utils 模块中) read_single_partition()(在 data_juicer.utils.file_utils 模块中) rebalancing() (data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.BTSUnionFind 方法) reconstruct_custom_webdataset_format()(在 data_juicer.utils.webdataset_utils 模块中) record() (data_juicer.utils.ckpt_utils.CheckpointManager 方法) recursive_summary() (data_juicer.ops.aggregator.nested_aggregator.NestedAggregator 方法) recursive_summary() (data_juicer.ops.aggregator.NestedAggregator 方法) redirect_sys_output()(在 data_juicer.utils.logger_utils 模块中) RedisBackend(data_juicer.ops.deduplicator.ray_basic_deduplicator 中的类) refine_single_column() (data_juicer.analysis.overall_analysis.OverallAnalysis 方法) refine_single_column() (data_juicer.analysis.OverallAnalysis 方法) refined_words(data_juicer.utils.constant.InterVars 属性) register_attention_control() (data_juicer.ops.common.prompt2prompt_pipeline.Prompt2PromptPipeline 方法) register_module() (data_juicer.utils.registry.Registry 方法) Registry(data_juicer.utils.registry 中的类) RelatedTTestMeasure(data_juicer.analysis.measure 中的类) relation_description(data_juicer.utils.constant.MetaKeys 属性) relation_keywords(data_juicer.utils.constant.MetaKeys 属性) relation_strength(data_juicer.utils.constant.MetaKeys 属性) relation(data_juicer.utils.constant.MetaKeys 属性) relevant_characters(data_juicer.utils.constant.MetaKeys 属性) RemoteFormatter(data_juicer.format 中的类) RemoteFormatter(data_juicer.format.formatter 中的类) remove_extra_parameters() (data_juicer.ops.base_op.OP 方法) remove_non_special_tokens()(在 data_juicer.utils.mm_utils 模块中) remove_special_tokens()(在 data_juicer.utils.mm_utils 模块中) replace_cross_attention() (data_juicer.ops.common.prompt2prompt_pipeline.AttentionControlEdit 方法) replace_cross_attention() (data_juicer.ops.common.prompt2prompt_pipeline.AttentionRefine 方法) replace_cross_attention() (data_juicer.ops.common.prompt2prompt_pipeline.AttentionReplace 方法) replace_cross_attention() (data_juicer.ops.common.prompt2prompt_pipeline.AttentionReweight 方法) replace_self_attention() (data_juicer.ops.common.prompt2prompt_pipeline.AttentionControlEdit 方法) rescale_noise_cfg()(在 data_juicer.ops.common.prompt2prompt_pipeline 模块中) reset() (data_juicer.ops.common.prompt2prompt_pipeline.AttentionControl 方法) reset() (data_juicer.ops.common.prompt2prompt_pipeline.AttentionStore 方法) reset_dependencies_cache()(data_juicer.utils.lazy_loader.LazyLoader 类方法) resource_monitor()(在 data_juicer.core.monitor 模块中) role_relation(data_juicer.utils.constant.MetaKeys 属性) run() (data_juicer.ops.base_op.Aggregator 方法) run() (data_juicer.ops.base_op.Deduplicator 方法) run() (data_juicer.ops.base_op.Filter 方法) run() (data_juicer.ops.base_op.Grouper 方法) run() (data_juicer.ops.base_op.Mapper 方法) run() (data_juicer.ops.base_op.OP 方法) run() (data_juicer.ops.base_op.Selector 方法) run() (data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.RayBTSMinhashDeduplicator 方法) run() (data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.RayBTSMinhashDeduplicatorWithUid 方法) run() (data_juicer.ops.deduplicator.RayBTSMinhashDeduplicator 方法) run() (data_juicer.ops.deduplicator.RayBTSMinhashDeduplicatorWithUid 方法) run() (data_juicer.ops.op_fusion.GeneralFusedOP 方法) runtime_np() (data_juicer.ops.base_op.OP 方法) S sampled_frames(data_juicer.utils.constant.InterVars 属性) save_ckpt() (data_juicer.utils.ckpt_utils.CheckpointManager 方法) ScoreParams(data_juicer.ops.common.prompt2prompt_pipeline 中的类) Selector(data_juicer.ops.base_op 中的类) set_edge_buffer() (data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.BTSUnionFind 方法) set_edges() (data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.EdgeBuffer 方法) setup_logger()(在 data_juicer.utils.logger_utils 模块中) setup_mp()(在 data_juicer.utils.process_utils 模块中) setup_resource_aliases()(在 data_juicer.utils.nltk_utils 模块中) sha1_hash32()(在 data_juicer.ops.deduplicator.document_minhash_deduplicator 模块中) shuffle()(在 data_juicer.tools.quality_classifier.qc_utils 模块中) simhash(data_juicer.utils.constant.HashKeys 属性) single_partition_write_with_filename()(在 data_juicer.utils.file_utils 模块中) size_to_bytes()(在 data_juicer.utils.mm_utils 模块中) Sizes(data_juicer.utils.file_utils 中的类) smart_resize()(在 data_juicer.ops.common.dwpose_func 模块中) smart_resize_k()(在 data_juicer.ops.common.dwpose_func 模块中) sort_op_by_types_and_names()(在 data_juicer.config.config 模块中) source_entity(data_juicer.utils.constant.MetaKeys 属性) source_file(data_juicer.utils.constant.Fields 属性) source_video(data_juicer.utils.video_utils.Clip 属性) span(data_juicer.utils.video_utils.Clip 属性) special_char_ratio(data_juicer.utils.constant.StatsKeysConstant 属性) SpecialTokens(data_juicer.utils.mm_utils 中的类) split_on_newline_tab_whitespace()(在 data_juicer.ops.common 模块中) split_on_newline_tab_whitespace()(在 data_juicer.ops.common.helper_func 模块中) split_on_whitespace()(在 data_juicer.ops.common 模块中) split_on_whitespace()(在 data_juicer.ops.common.helper_func 模块中) split_text_by_punctuation()(在 data_juicer.ops.common 模块中) split_text_by_punctuation()(在 data_juicer.ops.common.helper_func 模块中) squeeze() (data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.BTSUnionFind 方法) stats_to_hist()(data_juicer.analysis.measure.RelatedTTestMeasure 静态方法) stats_to_number()(在 data_juicer.utils.common_utils 模块中) StatsKeysConstant(data_juicer.utils.constant 中的类) StatsKeysMeta(data_juicer.utils.constant 中的类) StatsKeys(data_juicer.utils.constant 中的类) stats(data_juicer.utils.constant.Fields 属性) step_callback() (data_juicer.ops.common.prompt2prompt_pipeline.AttentionControl 方法) step_callback() (data_juicer.ops.common.prompt2prompt_pipeline.AttentionControlEdit 方法) stopwords_ratio(data_juicer.utils.constant.StatsKeysConstant 属性) StreamToLoguru(data_juicer.utils.logger_utils 中的类) strip()(在 data_juicer.ops.common 模块中) strip()(在 data_juicer.ops.common.helper_func 模块中) SUFFIXES(data_juicer.format.csv_formatter.CsvFormatter 属性) SUFFIXES(data_juicer.format.CsvFormatter 属性) SUFFIXES(data_juicer.format.empty_formatter.EmptyFormatter 属性) SUFFIXES(data_juicer.format.empty_formatter.RayEmptyFormatter 属性) SUFFIXES(data_juicer.format.EmptyFormatter 属性) SUFFIXES(data_juicer.format.json_formatter.JsonFormatter 属性) SUFFIXES(data_juicer.format.JsonFormatter 属性) SUFFIXES(data_juicer.format.parquet_formatter.ParquetFormatter 属性) SUFFIXES(data_juicer.format.ParquetFormatter 属性) SUFFIXES(data_juicer.format.RayEmptyFormatter 属性) SUFFIXES(data_juicer.format.text_formatter.TextFormatter 属性) SUFFIXES(data_juicer.format.TextFormatter 属性) SUFFIXES(data_juicer.format.tsv_formatter.TsvFormatter 属性) SUFFIXES(data_juicer.format.TsvFormatter 属性) suffix(data_juicer.utils.constant.Fields 属性) support_text(data_juicer.utils.constant.MetaKeys 属性) T target_entity(data_juicer.utils.constant.MetaKeys 属性) text_embd_similarity(data_juicer.utils.constant.StatsKeysConstant 属性) text_len(data_juicer.utils.constant.StatsKeysConstant 属性) text_pair_similarity(data_juicer.utils.constant.StatsKeysConstant 属性) text_tags(data_juicer.utils.constant.Fields 属性) TextFormatter(data_juicer.format 中的类) TextFormatter(data_juicer.format.text_formatter 中的类) TiB(data_juicer.utils.file_utils.Sizes 属性) timecode_string_to_seconds()(在 data_juicer.utils.mm_utils 模块中) timing_context()(在 data_juicer.config.config 模块中) tokenize_dataset()(在 data_juicer.tools.quality_classifier.qc_utils 模块中) top_down_affine()(在 data_juicer.ops.common.dwpose_func 模块中) train()(在 data_juicer.tools.quality_classifier.qc_utils 模块中) transfer()(在 data_juicer.ops.common.dwpose_func 模块中) transfer_data_dir()(在 data_juicer.utils.file_utils 模块中) transfer_filename()(在 data_juicer.utils.file_utils 模块中) TsvFormatter(data_juicer.format 中的类) TsvFormatter(data_juicer.format.tsv_formatter 中的类) U uid(data_juicer.utils.constant.HashKeys 属性) unify_format()(在 data_juicer.format.formatter 模块中) union() (data_juicer.ops.common.helper_func.UnionFind 方法) union() (data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.BTSUnionFind 方法) union_list() (data_juicer.ops.deduplicator.ray_bts_minhash_deduplicator.BTSUnionFind 方法) UnionFind(data_juicer.ops.common.helper_func 中的类) update() (data_juicer.utils.fingerprint_utils.Hasher 方法) update_alpha_time_word()(在 data_juicer.ops.common.prompt2prompt_pipeline 模块中) update_ds_cache_dir_and_related_vars()(在 data_juicer.config.config 模块中) update_fingerprint()(在 data_juicer.utils.fingerprint_utils 模块中) update_op_attr()(在 data_juicer.config 模块中) update_op_attr()(在 data_juicer.config.config 模块中) update_op_process()(在 data_juicer.config.config 模块中) update_sampling_params()(在 data_juicer.utils.model_utils 模块中) use_auto_proc() (data_juicer.ops.base_op.OP 方法) use_cuda() (data_juicer.ops.base_op.OP 方法) use_ray_actor() (data_juicer.ops.base_op.OP 方法) V validate_s3_path()(在 data_juicer.utils.s3_utils 模块中) validate_snapshot_format()(在 data_juicer.download.downloader 模块中) vggt_tags(data_juicer.utils.constant.MetaKeys 属性) video_aesthetic_score(data_juicer.utils.constant.StatsKeysConstant 属性) video_aspect_ratios(data_juicer.utils.constant.StatsKeysConstant 属性) video_audio_tags(data_juicer.utils.constant.MetaKeys 属性) video_depth_tags(data_juicer.utils.constant.MetaKeys 属性) video_duration(data_juicer.utils.constant.StatsKeysConstant 属性) video_frame_tags(data_juicer.utils.constant.MetaKeys 属性) video_frames_aesthetics_score(data_juicer.utils.constant.StatsKeysConstant 属性) video_frames_text_similarity(data_juicer.utils.constant.StatsKeysConstant 属性) video_frames(data_juicer.utils.constant.MetaKeys 属性) video_height(data_juicer.utils.constant.StatsKeysConstant 属性) video_motion_score(data_juicer.utils.constant.StatsKeysConstant 属性) video_nsfw_score(data_juicer.utils.constant.StatsKeysConstant 属性) video_object_segment_tags(data_juicer.utils.constant.MetaKeys 属性) video_ocr_area_ratio(data_juicer.utils.constant.StatsKeysConstant 属性) video_watermark_prob(data_juicer.utils.constant.StatsKeysConstant 属性) video_width(data_juicer.utils.constant.StatsKeysConstant 属性) VideoDeduplicator(data_juicer.ops.deduplicator 中的类) VideoDeduplicator(data_juicer.ops.deduplicator.video_deduplicator 中的类) videohash(data_juicer.utils.constant.HashKeys 属性) VideoMetadata(data_juicer.utils.video_utils 中的类) VideoReader(data_juicer.utils.video_utils 中的类) video(data_juicer.utils.mm_utils.SpecialTokens 属性) W Wholebody(data_juicer.ops.common.dwpose_func 中的类) width(data_juicer.utils.video_utils.VideoMetadata 属性) WikipediaDownloader(data_juicer.download.wikipedia 中的类) WikipediaExtractor(data_juicer.download.wikipedia 中的类) WikipediaIterator(data_juicer.download.wikipedia 中的类) word_rep_ratio(data_juicer.utils.constant.StatsKeysConstant 属性) words_augmentation()(在 data_juicer.ops.common 模块中) words_augmentation()(在 data_juicer.ops.common.helper_func 模块中) words_refinement()(在 data_juicer.ops.common 模块中) words_refinement()(在 data_juicer.ops.common.helper_func 模块中) words(data_juicer.utils.constant.InterVars 属性) write() (data_juicer.utils.logger_utils.StreamToLoguru 方法) Z ZstdCompressor(data_juicer.utils.compress 中的类)