feat(training): 支持 Label 预处理器

- DataPipeline 新增 label_processor_configs 参数 - 分离特征与 label 的预处理流程 - regression.py 添加 label 缩尾处理配置 - 调整学习率并更新排除因子列表
2026-03-29 02:37:53 +08:00
parent c3d1b157e9
commit 9e0114c745
2 changed files with 140 additions and 86 deletions
--- a/src/experiment/regression.py
+++ b/src/experiment/regression.py
@@ -51,61 +51,55 @@ TRAINING_TYPE = "regression"

 # 排除的因子列表
 EXCLUDED_FACTORS = [
-    "GTJA_alpha062",
-    "GTJA_alpha060",
-    "GTJA_alpha058",
-    "GTJA_alpha056",
-    "GTJA_alpha053",
-    "GTJA_alpha040",
-    "GTJA_alpha043",
-    "GTJA_alpha027",
-    "CP",
-    "max_ret_20",
-    "debt_to_equity",
-    "close_vwap_deviation",
-    "EP",
-    "BP",
-    "EP_rank",
-    "GTJA_alpha044",
-    "GTJA_alpha036",
-    "GTJA_alpha010",
-    "GTJA_alpha005",
-    "GTJA_alpha001",
-    "GTJA_alpha002",
-    "GTJA_alpha007",
-    "GTJA_alpha016",
-    "GTJA_alpha073",
-    "GTJA_alpha133",
-    "GTJA_alpha131",
-    "GTJA_alpha117",
-    "GTJA_alpha124",
-    "GTJA_alpha120",
-    "GTJA_alpha119",
-    "GTJA_alpha103",
-    "GTJA_alpha099",
-    "GTJA_alpha105",
-    "GTJA_alpha104",
-    "GTJA_alpha090",
-    "GTJA_alpha085",
-    "GTJA_alpha083",
-    "GTJA_alpha084",
-    "GTJA_alpha087",
-    "GTJA_alpha092",
-    "GTJA_alpha074",
-    "GTJA_alpha089",
-    "GTJA_alpha173",
-    "GTJA_alpha157",
-    "GTJA_alpha139",
-    "GTJA_alpha162",
-    "GTJA_alpha163",
-    "GTJA_alpha177",
-    "price_to_avg_cost",
-    "cost_skewness",
-    "GTJA_alpha191",
-    "GTJA_alpha180",
-    "history_position",
-    "bottom_profit",
-    "smart_money_accumulation",
+    'GTJA_alpha036',
+    'GTJA_alpha032',
+    'GTJA_alpha010',
+    'GTJA_alpha005',
+    'CP',
+    'BP',
+    'debt_to_equity',
+    'current_ratio',
+    'GTJA_alpha002',
+    'GTJA_alpha027',
+    'GTJA_alpha064',
+    'GTJA_alpha062',
+    'GTJA_alpha043',
+    'GTJA_alpha044',
+    'GTJA_alpha120',
+    'GTJA_alpha117',
+    'GTJA_alpha103',
+    'GTJA_alpha104',
+    'GTJA_alpha105',
+    'GTJA_alpha073',
+    'GTJA_alpha077',
+    'GTJA_alpha085',
+    'GTJA_alpha090',
+    'GTJA_alpha087',
+    'GTJA_alpha083',
+    'GTJA_alpha092',
+    'GTJA_alpha133',
+    'GTJA_alpha131',
+    'GTJA_alpha126',
+    'GTJA_alpha124',
+    'GTJA_alpha162',
+    'GTJA_alpha164',
+    'GTJA_alpha157',
+    'GTJA_alpha177',
+    'price_to_avg_cost',
+    'cost_skewness',
+    'GTJA_alpha191',
+    'GTJA_alpha180',
+    'history_position',
+    'bottom_profit',
+    'mean_median_dev',
+    'smart_money_accumulation',
+'GTJA_alpha013',
+'GTJA_alpha099',
+'GTJA_alpha107',
+'GTJA_alpha119',
+'GTJA_alpha141',
+'GTJA_alpha130',
+'GTJA_alpha173',
 ]

 # 模型参数配置
@@ -118,7 +112,7 @@ MODEL_PARAMS = {
    "num_leaves": 31,  # 【修改】限制为 31（2的5次方-1），确保树是不对称生长的，防止过拟合
    "min_data_in_leaf": 512,  # 【大幅增加】从256加到1000。训练集有97万条，极大地限制叶子节点样本量能有效抵抗股市噪音
    # ==================== 学习参数 ====================
-    "learning_rate": 0.02,  # 【修改】稍微调大一点，帮助模型跳出初始的局部最优（避免十几轮就早停）
+    "learning_rate": 0.01,  # 【修改】稍微调大一点，帮助模型跳出初始的局部最优（避免十几轮就早停）
    "n_estimators": 2000,
    # ==================== 随机采样与降维 ====================
    "subsample": 0.85,
@@ -182,6 +176,11 @@ def main():
            (StandardScaler, {}),
            # (CrossSectionalStandardScaler, {}),
        ],
+        label_processor_configs=[
+            # 对 label 进行缩尾处理（去除极端收益率）
+            (Winsorizer, {"lower": 0.05, "upper": 0.95}),
+            # (StandardScaler, {}),
+        ],
        filters=[STFilter(data_router=engine.router)],
        stock_pool_filter_func=stock_pool_filter,
        stock_pool_required_columns=STOCK_FILTER_REQUIRED_COLUMNS,
--- a/src/training/pipeline.py
+++ b/src/training/pipeline.py
@@ -40,6 +40,9 @@ class DataPipeline:
        filters: Optional[List[Any]] = None,
        stock_pool_filter_func: Optional[Callable] = None,
        stock_pool_required_columns: Optional[List[str]] = None,
+        label_processor_configs: Optional[
+            List[Tuple[Type[BaseProcessor], Dict[str, Any]]]
+        ] = None,
    ):
        """初始化数据流水线

@@ -50,6 +53,8 @@ class DataPipeline:
            filters: 类形式的过滤器列表（如 [STFilter]）
            stock_pool_filter_func: 函数形式的股票池筛选器
            stock_pool_required_columns: 股票池筛选所需的额外列
+            label_processor_configs: Label 数据处理器配置列表，格式与 processor_configs 相同
+                例如：[(Winsorizer, {"lower": 0.01, "upper": 0.99})] 用于对 label 进行缩尾处理
        """
        self.factor_manager = factor_manager
        self.processor_configs = processor_configs or []
@@ -57,6 +62,8 @@ class DataPipeline:
        self.stock_pool_filter_func = stock_pool_filter_func
        self.stock_pool_required_columns = stock_pool_required_columns or []
        self.fitted_processors: List[BaseProcessor] = []
+        self.label_processor_configs = label_processor_configs or []
+        self.fitted_label_processors: List[BaseProcessor] = []

    def prepare_data(
        self,
@@ -250,6 +257,7 @@ class DataPipeline:
        """预处理数据

        训练集使用 fit_transform，验证集和测试集使用 transform
+        同时支持对 label 进行 processor 处理

        Args:
            split_data: 划分后的数据字典
@@ -259,9 +267,10 @@ class DataPipeline:
        Returns:
            预处理后的数据字典
        """
-        if not self.processor_configs:
-            return split_data
+        label_name = split_data["train"]["y"].name

+        # 处理特征
+        if self.processor_configs:
            self.fitted_processors = []

            # 实例化 processors（传入 feature_cols）
@@ -272,7 +281,7 @@ class DataPipeline:

            # 训练集：fit_transform
            if verbose:
-            print(f"  训练集预处理（fit_transform）...")
+                print(f"  训练集特征预处理（fit_transform）...")

            train_data = split_data["train"]["raw_data"]
            for processor in processors:
@@ -282,13 +291,13 @@ class DataPipeline:
            # 更新训练集
            split_data["train"]["raw_data"] = train_data
            split_data["train"]["X"] = train_data.select(feature_cols)
-        split_data["train"]["y"] = train_data[split_data["train"]["y"].name]
+            split_data["train"]["y"] = train_data[label_name]

            # 验证集和测试集：transform
            for split_name in ["val", "test"]:
                if split_name in split_data:
                    if verbose:
-                    print(f"  {split_name}集预处理（transform）...")
+                        print(f"  {split_name}集特征预处理（transform）...")

                    split_df = split_data[split_name]["raw_data"]
                    for processor in self.fitted_processors:
@@ -296,7 +305,45 @@ class DataPipeline:

                    split_data[split_name]["raw_data"] = split_df
                    split_data[split_name]["X"] = split_df.select(feature_cols)
-                split_data[split_name]["y"] = split_df[split_data[split_name]["y"].name]
+                    split_data[split_name]["y"] = split_df[label_name]
+
+        # 处理 label
+        if self.label_processor_configs:
+            self.fitted_label_processors = []
+
+            # 实例化 label processors（传入 label_name 作为 feature_cols）
+            label_processors = []
+            for proc_class, proc_kwargs in self.label_processor_configs:
+                proc_kwargs_with_label = {**proc_kwargs, "feature_cols": [label_name]}
+                label_processors.append(proc_class(**proc_kwargs_with_label))
+
+            # 训练集：fit_transform
+            if verbose:
+                print(f"  训练集 Label 预处理（fit_transform）...")
+
+            train_data = split_data["train"]["raw_data"]
+            for processor in label_processors:
+                train_data = processor.fit_transform(train_data)
+                self.fitted_label_processors.append(processor)
+
+            # 更新训练集
+            split_data["train"]["raw_data"] = train_data
+            split_data["train"]["X"] = train_data.select(feature_cols)
+            split_data["train"]["y"] = train_data[label_name]
+
+            # 验证集和测试集：transform
+            for split_name in ["val", "test"]:
+                if split_name in split_data:
+                    if verbose:
+                        print(f"  {split_name}集 Label 预处理（transform）...")
+
+                    split_df = split_data[split_name]["raw_data"]
+                    for processor in self.fitted_label_processors:
+                        split_df = processor.transform(split_df)
+
+                    split_data[split_name]["raw_data"] = split_df
+                    split_data[split_name]["X"] = split_df.select(feature_cols)
+                    split_data[split_name]["y"] = split_df[label_name]

        return split_data

@@ -307,3 +354,11 @@ class DataPipeline:
            已拟合的处理器列表（用于模型保存）
        """
        return self.fitted_processors
+
+    def get_fitted_label_processors(self) -> List[BaseProcessor]:
+        """获取已拟合的 Label 处理器列表
+
+        Returns:
+            已拟合的 Label 处理器列表（用于模型保存和预测时反转换）
+        """
+        return self.fitted_label_processors