refactor(experiment): 提取共用配置到 common 模块

- 将因子定义、日期配置、股票池筛选等提取到 common.py - 重构 learn_to_rank 和 regression 脚本，统一使用公共配置 - 简化代码结构，消除重复定义
2026-03-15 05:46:19 +08:00
parent 6927d20de1
commit 0e9ea5d533
5 changed files with 1127 additions and 962 deletions
--- a/src/experiment/learn_to_rank.py
+++ b/src/experiment/learn_to_rank.py
@@ -1,4 +1,4 @@
-#%% md
+# %% md
 # # Learn-to-Rank 排序学习训练流程
 # #
 # 本 Notebook 实现基于 LightGBM LambdaRank 的排序学习训练，用于股票排序任务。
@@ -9,9 +9,9 @@
 # 2. **排序学习**: 使用 LambdaRank 目标函数，学习每日股票排序
 # 3. **NDCG 评估**: 使用 NDCG@1/5/10/20 评估排序质量
 # 4. **策略回测**: 基于排序分数构建 Top-k 选股策略
-#%% md
+# %% md
 # ## 1. 导入依赖
-#%%
+# %%
 import os
 from datetime import datetime
 from typing import List, Tuple, Optional
@@ -36,78 +36,32 @@ from src.training import (
 from src.training.components.models import LightGBMLambdaRankModel
 from src.training.config import TrainingConfig

-
-#%% md
-# ## 2. 辅助函数
-#%%
-def register_factors(
-    engine: FactorEngine,
-    selected_factors: List[str],
-    factor_definitions: dict,
-    label_factor: dict,
-) -> List[str]:
-    """注册因子（selected_factors 从 metadata 查询，factor_definitions 用 DSL 表达式注册）"""
-    print("=" * 80)
-    print("注册因子")
-    print("=" * 80)
-
-    # 注册 SELECTED_FACTORS 中的因子（已在 metadata 中）
-    print("\n注册特征因子（从 metadata）:")
-    for name in selected_factors:
-        engine.add_factor(name)
-        print(f"  - {name}")
-
-    # 注册 FACTOR_DEFINITIONS 中的因子（通过表达式，尚未在 metadata 中）
-    print("\n注册特征因子（表达式）:")
-    for name, expr in factor_definitions.items():
-        engine.add_factor(name, expr)
-        print(f"  - {name}: {expr}")
-
-    # 注册 label 因子（通过表达式）
-    print("\n注册 Label 因子（表达式）:")
-    for name, expr in label_factor.items():
-        engine.add_factor(name, expr)
-        print(f"  - {name}: {expr}")
-
-    # 特征列 = SELECTED_FACTORS + FACTOR_DEFINITIONS 的 keys
-    feature_cols = selected_factors + list(factor_definitions.keys())
-
-    print(f"\n特征因子数: {len(feature_cols)}")
-    print(f"  - 来自 metadata: {len(selected_factors)}")
-    print(f"  - 来自表达式: {len(factor_definitions)}")
-    print(f"Label: {list(label_factor.keys())[0]}")
-    print(f"已注册因子总数: {len(engine.list_registered())}")
-
-    return feature_cols
+# 从 common 模块导入共用配置和函数
+from src.experiment.common import (
+    SELECTED_FACTORS,
+    FACTOR_DEFINITIONS,
+    get_label_factor,
+    register_factors,
+    prepare_data,
+    TRAIN_START,
+    TRAIN_END,
+    VAL_START,
+    VAL_END,
+    TEST_START,
+    TEST_END,
+    stock_pool_filter,
+    STOCK_FILTER_REQUIRED_COLUMNS,
+    OUTPUT_DIR,
+    SAVE_PREDICTIONS,
+    PERSIST_MODEL,
+    TOP_N,
+)


-def prepare_data(
-    engine: FactorEngine,
-    feature_cols: List[str],
-    start_date: str,
-    end_date: str,
-) -> pl.DataFrame:
-    """准备数据"""
-    print("\n" + "=" * 80)
-    print("准备数据")
-    print("=" * 80)
-
-    # 计算因子（全市场数据）
-    print(f"\n计算因子: {start_date} - {end_date}")
-    factor_names = feature_cols + [LABEL_NAME]  # 包含 label
-
-    data = engine.compute(
-        factor_names=factor_names,
-        start_date=start_date,
-        end_date=end_date,
-    )
-
-    print(f"数据形状: {data.shape}")
-    print(f"数据列: {data.columns}")
-    print(f"\n前5行预览:")
-    print(data.head())
-
-    return data
+# %% md
+# ## 2. 本地辅助函数
+# %%
+# 注意：register_factors 和 prepare_data 已从 common 模块导入


 def prepare_ranking_data(
@@ -240,92 +194,22 @@ def evaluate_ndcg_at_k(
    return results


-#%% md
+# %% md
 # ## 3. 配置参数
 # #
-# ### 3.1 因子定义
-#%%
-# 特征因子定义字典（复用 regression.ipynb 的因子定义）
-LABEL_NAME = "future_return_5_rank"
+# ### 3.1 因子与日期配置
+# %%
+# 注意：SELECTED_FACTORS, FACTOR_DEFINITIONS, 日期配置等已从 common 模块导入
+# 本脚本特有的配置：

-# 当前选择的因子列表（从 FACTOR_DEFINITIONS 中选择要使用的因子）
-SELECTED_FACTORS = [
-    # ================= 1. 价格、趋势与路径依赖 =================
-    "ma_5",
-    "ma_20",
-    "ma_ratio_5_20",
-    "bias_10",
-    "high_low_ratio",
-    "bbi_ratio",
-    "return_5",
-    "return_20",
-    "kaufman_ER_20",
-    "mom_acceleration_10_20",
-    "drawdown_from_high_60",
-    "up_days_ratio_20",
-    # ================= 2. 波动率、风险调整与高阶矩 =================
-    "volatility_5",
-    "volatility_20",
-    "volatility_ratio",
-    "std_return_20",
-    "sharpe_ratio_20",
-    "min_ret_20",
-    "volatility_squeeze_5_60",
-    # ================= 3. 日内微观结构与异象 =================
-    "overnight_intraday_diff",
-    "upper_shadow_ratio",
-    "capital_retention_20",
-    "max_ret_20",
-    # ================= 4. 量能、流动性与量价背离 =================
-    "volume_ratio_5_20",
-    "turnover_rate_mean_5",
-    "turnover_deviation",
-    "amihud_illiq_20",
-    "turnover_cv_20",
-    "pv_corr_20",
-    "close_vwap_deviation",
-    # ================= 5. 基本面财务特征 =================
-    "roe",
-    "roa",
-    "profit_margin",
-    "debt_to_equity",
-    "current_ratio",
-    "net_profit_yoy",
-    "revenue_yoy",
-    "healthy_expansion_velocity",
-    "ebit_rank",
-    # ================= 6. 基本面估值与截面动量共振 =================
-    "EP",
-    "BP",
-    "CP",
-    "market_cap_rank",
-    "turnover_rank",
-    "return_5_rank",
-    "EP_rank",
-    "pe_expansion_trend",
-    "value_price_divergence",
-    "active_market_cap",
-]
+# Label 名称（排序学习使用原始收益率，会后续转换为分位数标签）
+LABEL_NAME = "future_return_5"

-# 因子定义字典（完整因子库）
-FACTOR_DEFINITIONS = {
-    # "turnover_rate_volatility": "ts_std(log(turnover_rate), 20)"
-}
+# 获取 Label 因子定义
+LABEL_FACTOR = get_label_factor(LABEL_NAME)

-# Label 因子定义（不参与训练，用于计算目标）
-LABEL_FACTOR = {
-    LABEL_NAME: "(ts_delay(close, -5) / ts_delay(open, -1)) - 1",
-}
-#%% md
-# ### 3.2 训练参数配置
-#%%
-# 日期范围配置（正确的 train/val/test 三分法）
-TRAIN_START = "20200101"
-TRAIN_END = "20231231"
-VAL_START = "20240101"
-VAL_END = "20241231"
-TEST_START = "20250101"
-TEST_END = "20251231"
+# 分位数配置
+N_QUANTILES = 20  # 将 label 分为 20 组


 # 分位数配置
@@ -352,44 +236,11 @@ MODEL_PARAMS = {
    "label_gain": [i for i in range(1, N_QUANTILES + 1)],
 }

-
-# 股票池筛选函数
-def stock_pool_filter(df: pl.DataFrame) -> pl.Series:
-    """股票池筛选函数（单日数据）
-
-    筛选条件：
-    1. 排除创业板（代码以 300 开头）
-    2. 排除科创板（代码以 688 开头）
-    3. 排除北交所（代码以 8、9 或 4 开头）
-    4. 选取当日市值最小的500只股票
-    """
-    code_filter = (
-        ~df["ts_code"].str.starts_with("30")
-        & ~df["ts_code"].str.starts_with("68")
-        & ~df["ts_code"].str.starts_with("8")
-        & ~df["ts_code"].str.starts_with("9")
-        & ~df["ts_code"].str.starts_with("4")
-    )
-
-    valid_df = df.filter(code_filter)
-    n = min(500, len(valid_df))
-    small_cap_codes = valid_df.sort("total_mv").head(n)["ts_code"]
-
-    return df["ts_code"].is_in(small_cap_codes)
-
-
-STOCK_FILTER_REQUIRED_COLUMNS = ["total_mv"]
-
-# 输出配置
-OUTPUT_DIR = "output"
-SAVE_PREDICTIONS = True
-PERSIST_MODEL = False
-
-# Top N 配置：每日推荐股票数量
-TOP_N = 5  # 可调整为 10, 20 等
-#%% md
+# 注意：stock_pool_filter, STOCK_FILTER_REQUIRED_COLUMNS, OUTPUT_DIR 等配置
+# 已从 common 模块导入
+# %% md
 # ## 4. 训练流程
-#%%
+# %%
 print("\n" + "=" * 80)
 print("LightGBM LambdaRank 排序学习训练")
 print("=" * 80)
@@ -411,6 +262,7 @@ data = prepare_data(
    feature_cols=feature_cols,
    start_date=TRAIN_START,
    end_date=TEST_END,
+    label_name=LABEL_NAME,
 )

 # 4. 转换为排序学习格式（分位数标签）
@@ -469,9 +321,9 @@ trainer = Trainer(
    feature_cols=feature_cols,
    persist_model=PERSIST_MODEL,
 )
-#%% md
+# %% md
 # ### 4.1 股票池筛选
-#%%
+# %%
 print("\n" + "=" * 80)
 print("股票池筛选")
 print("=" * 80)
@@ -493,9 +345,9 @@ if pool_manager:
 else:
    filtered_data = data
    print("  未配置股票池管理器，跳过筛选")
-#%% md
+# %% md
 # ### 4.2 数据划分
-#%%
+# %%
 print("\n" + "=" * 80)
 print("数据划分")
 print("=" * 80)
@@ -519,9 +371,9 @@ if splitter:
    print(f"测试集日均样本数: {np.mean(test_group):.1f}")
 else:
    raise ValueError("必须配置数据划分器")
-#%% md
+# %% md
 # ### 4.3 数据质量检查
-#%%
+# %%
 print("\n" + "=" * 80)
 print("数据质量检查（必须在预处理之前）")
 print("=" * 80)
@@ -537,9 +389,9 @@ check_data_quality(test_data, feature_cols, raise_on_error=True)

 print("[成功] 数据质量检查通过，未发现异常")

-#%% md
+# %% md
 # ### 4.4 数据预处理
-#%%
+# %%
 print("\n" + "=" * 80)
 print("数据预处理")
 print("=" * 80)
@@ -563,9 +415,9 @@ if processors:
 print(f"\n处理后训练集形状: {train_data.shape}")
 print(f"处理后验证集形状: {val_data.shape}")
 print(f"处理后测试集形状: {test_data.shape}")
-#%% md
+# %% md
 # ### 4.4 训练 LambdaRank 模型
-#%%
+# %%
 print("\n" + "=" * 80)
 print("训练 LambdaRank 模型")
 print("=" * 80)
@@ -593,9 +445,9 @@ model.fit(
    eval_set=(X_val, y_val, val_group),
 )
 print("训练完成！")
-#%% md
+# %% md
 # ### 4.5 训练指标曲线
-#%%
+# %%
 print("\n" + "=" * 80)
 print("训练指标曲线")
 print("=" * 80)
@@ -645,9 +497,9 @@ else:
        best_val = max(val_metric_list)
        print(f"    {metric}: {best_val:.4f} (迭代 {best_iter_metric + 1})")
    print(f"\n[重要提醒] 验证集仅用于早停/调参，测试集完全独立于训练过程！")
-#%% md
+# %% md
 # ### 4.6 模型评估
-#%%
+# %%
 print("\n" + "=" * 80)
 print("模型评估")
 print("=" * 80)
@@ -685,7 +537,7 @@ if importance is not None:
    top_features = importance.sort_values(ascending=False).head(20)
    for i, (feature, score) in enumerate(top_features.items(), 1):
        print(f"  {i:2d}. {feature:30s} {score:10.2f}")
-#%%
+# %%
 # 确保输出目录存在
 os.makedirs(OUTPUT_DIR, exist_ok=True)

@@ -731,7 +583,7 @@ print(f"\n  预览（前15行）:")
 print(topn_to_save.head(15))

 print("\n训练流程完成！")
-#%% md
+# %% md
 # ## 5. 总结
 # #
 # 本 Notebook 实现了完整的 Learn-to-Rank 训练流程：
@@ -764,4 +616,4 @@ print("\n训练流程完成！")
 # 2. **超参数调优**: 使用网格搜索优化 LambdaRank 参数
 # 3. **模型集成**: 结合多个排序模型的预测
 # 4. **更复杂的分组**: 考虑按行业分组排序
-# 
+#