fix(factors/engine): 修复 DataRouter 缓存 key 缺少 columns 导致的缓存污染

fix(training): 保留 test 集中标签为 NaN 的样本用于预测
2026-04-06 00:19:15 +08:00 · 2026-04-05 23:24:22 +08:00
2 changed files with 6 additions and 6 deletions
--- a/src/factors/engine/data_router.py
+++ b/src/factors/engine/data_router.py
@@ -191,9 +191,8 @@ class DataRouter:
        Returns:
            过滤后的 DataFrame
        """
-        cache_key = (
-            f"{spec.table}_{spec.join_type}_{start_date}_{end_date}_{stock_codes}"
-        )
+        cols_key = ",".join(sorted(spec.columns)) if spec.columns else "*"
+        cache_key = f"{spec.table}_{spec.join_type}_{start_date}_{end_date}_{stock_codes}_{cols_key}"

        with self._lock:
            if cache_key in self._cache:
@@ -259,7 +258,8 @@ class DataRouter:
        Returns:
            过滤后的 DataFrame
        """
-        cache_key = f"{table_name}_{start_date}_{end_date}_{stock_codes}"
+        cols_key = ",".join(sorted(columns)) if columns else "*"
+        cache_key = f"{table_name}_{start_date}_{end_date}_{stock_codes}_{cols_key}"

        with self._lock:
            if cache_key in self._cache:
--- a/src/training/pipeline.py
+++ b/src/training/pipeline.py
@@ -374,8 +374,8 @@ class DataPipeline:
                    split_data[split_name]["X"] = split_df.select(feature_cols)
                    split_data[split_name]["y"] = split_df[label_name]

-        # 删除标签为 NaN 的行
-        for split_name in ["train", "val", "test"]:
+        # 删除标签为 NaN 的行（仅在 train/val 上执行，test 集保留用于预测）
+        for split_name in ["train", "val"]:
            if split_name in split_data:
                y_series = split_data[split_name]["y"]
                y_nan_count = y_series.null_count()
Author	SHA1	Message	Date
liaozhaorun	161b7cc690	fix(factors/engine): 修复 DataRouter 缓存 key 缺少 columns 导致的缓存污染	2026-04-06 00:19:15 +08:00
liaozhaorun	ad8ba8f6ec	fix(training): 保留 test 集中标签为 NaN 的样本用于预测	2026-04-05 23:24:22 +08:00