data_juicer_agents.tools.context.list_dataset_load_strategies#

list_dataset_load_strategies tool package.

class data_juicer_agents.tools.context.list_dataset_load_strategies.ListDatasetLoadStrategiesInput(*, executor_type: str = 'default')[source]#

Bases: BaseModel

Input for list_dataset_load_strategies.

Discovers which dataset loading strategies are truly implemented in the current Data-Juicer installation. Use this BEFORE build_dataset_spec when you need to configure non-trivial dataset sources via dataset_source.config (e.g., remote S3, mixed weights). For simple single local files, use dataset_source.path directly.

executor_type: str#

model_config = {}#: Configuration for the model, should be a dictionary conforming to [ConfigDict][pydantic.config.ConfigDict].

data_juicer_agents.tools.context.list_dataset_load_strategies.list_dataset_load_strategies(*, executor_type: str = 'default') → Dict[str, Any][source]#

List truly implemented dataset load strategies from Data-Juicer.

Uses dynamic source-code inspection to filter out placeholder strategies that raise NotImplementedError, ensuring the returned list reflects what actually works at runtime.

Parameters:: executor_type – Filter by executor type (‘default’, ‘ray’, or ‘*’ for all).
Returns:: Dict with ‘strategies’ list and metadata.

data_juicer_agents.tools.context.list_dataset_load_strategies#

This Page