src/experiment/regression.py

# %% md
# # LightGBM 回归训练流程（模块化版本）
#
# 使用新的模块化 Trainer 架构，代码更简洁、可维护性更高。
# %% md
# ## 1. 导入依赖
# %%
import os

from src.factors import FactorEngine
from src.training import (
    FactorManager,
    DataPipeline,
    RegressionTask,
    NullFiller,
    Winsorizer,
    StandardScaler,
    CrossSectionalStandardScaler,
)
from src.training.core.trainer_v2 import Trainer
from src.training.components.filters import STFilter
from src.experiment.common import (
    SELECTED_FACTORS,
    FACTOR_DEFINITIONS,
    LABEL_NAME,
    LABEL_FACTOR,
    TRAIN_START,
    TRAIN_END,
    VAL_START,
    VAL_END,
    TEST_START,
    TEST_END,
    stock_pool_filter,
    STOCK_FILTER_REQUIRED_COLUMNS,
    OUTPUT_DIR,
    SAVE_PREDICTIONS,
    SAVE_MODEL,
    get_model_save_path,
    save_model_with_factors,
    TOP_N,
)

# 训练类型标识
TRAINING_TYPE = "regression"

# %% md
# ## 2. 训练特定配置
# %%
# Label 配置（从 common.py 统一导入）
# LABEL_NAME 和 LABEL_FACTOR 已在 common.py 中绑定，只需从 common 导入

# 排除的因子列表
EXCLUDED_FACTORS = [
    "GTJA_alpha062",
    "GTJA_alpha060",
    "GTJA_alpha058",
    "GTJA_alpha056",
    "GTJA_alpha053",
    "GTJA_alpha040",
    "GTJA_alpha043",
    "GTJA_alpha027",
    "CP",
    "max_ret_20",
    "debt_to_equity",
    "close_vwap_deviation",
    "EP",
    "BP",
    "EP_rank",
    "GTJA_alpha044",
    "GTJA_alpha036",
    "GTJA_alpha010",
    "GTJA_alpha005",
    "GTJA_alpha001",
    "GTJA_alpha002",
    "GTJA_alpha007",
    "GTJA_alpha016",
    "GTJA_alpha073",
    "GTJA_alpha133",
    "GTJA_alpha131",
    "GTJA_alpha117",
    "GTJA_alpha124",
    "GTJA_alpha120",
    "GTJA_alpha119",
    "GTJA_alpha103",
    "GTJA_alpha099",
    "GTJA_alpha105",
    "GTJA_alpha104",
    "GTJA_alpha090",
    "GTJA_alpha085",
    "GTJA_alpha083",
    "GTJA_alpha084",
    "GTJA_alpha087",
    "GTJA_alpha092",
    "GTJA_alpha074",
    "GTJA_alpha089",
    "GTJA_alpha173",
    "GTJA_alpha157",
    "GTJA_alpha139",
    "GTJA_alpha162",
    "GTJA_alpha163",
    "GTJA_alpha177",
    "price_to_avg_cost",
    "cost_skewness",
    "GTJA_alpha191",
    "GTJA_alpha180",
    "history_position",
    "bottom_profit",
    "smart_money_accumulation",
]

# 模型参数配置
MODEL_PARAMS = {
    # ==================== 基础设置 ====================
    "objective": "huber",  # 【修改】相比纯 L1(MAE)，huber 对异常值鲁棒且在极小误差处平滑，更适合收益率预测
    "metric": "mae",
    # ==================== 树结构约束 ====================
    "max_depth": 5,  # 【修改】适当加深，允许捕捉一定的高阶交叉
    "num_leaves": 31,  # 【修改】限制为 31（2的5次方-1），确保树是不对称生长的，防止过拟合
    "min_data_in_leaf": 512,  # 【大幅增加】从256加到1000。训练集有97万条，极大地限制叶子节点样本量能有效抵抗股市噪音
    # ==================== 学习参数 ====================
    "learning_rate": 0.02,  # 【修改】稍微调大一点，帮助模型跳出初始的局部最优（避免十几轮就早停）
    "n_estimators": 2000,
    # ==================== 随机采样与降维 ====================
    "subsample": 0.85,
    "subsample_freq": 1,
    "colsample_bytree": 0.4,  # 【大幅降低】从0.8降到0.4。强制打压 GTJA_alpha127 的霸权，逼迫模型去学习其他因子的信息
    "extra_trees": True,  # 【新增且极度推荐】极度随机树模式。在分裂点选择时增加随机性，是量化比赛中防过拟合的神器
    # ==================== 正则化 ====================
    "reg_alpha": 1.0,  # 【修改】L1正则增加，强行把一些无用特征的权重压到0
    "reg_lambda": 5.0,  # 【修改】L2正则大幅增加（从1到5），惩罚过大的叶子节点输出权重
    "max_bin": 127,  # 【新增】默认255，降低到127相当于对连续特征做了一次粗颗粒度的分箱，也是极好的正则化手段
    # ==================== 杂项 ====================
    "verbose": -1,
    "random_state": 42,
    "n_jobs": -1,
}

# 日期范围配置
date_range = {
    "train": (TRAIN_START, TRAIN_END),
    "val": (VAL_START, VAL_END),
    "test": (TEST_START, TEST_END),
}

# 输出配置
output_config = {
    "output_dir": OUTPUT_DIR,
    "output_filename": "regression_output.csv",
    "save_predictions": SAVE_PREDICTIONS,
    "save_model": SAVE_MODEL,
    "model_save_path": get_model_save_path(TRAINING_TYPE),
    "top_n": TOP_N,
}


def main():
    """主函数"""
    print("\n" + "=" * 80)
    print("LightGBM 回归模型训练（模块化版本）")
    print("=" * 80)

    # 1. 创建 FactorEngine
    print("\n[1] 创建 FactorEngine")
    engine = FactorEngine()

    # 2. 创建 FactorManager
    print("\n[2] 创建 FactorManager")
    factor_manager = FactorManager(
        selected_factors=SELECTED_FACTORS,
        factor_definitions=FACTOR_DEFINITIONS,
        label_factor=LABEL_FACTOR,
        excluded_factors=EXCLUDED_FACTORS,
    )

    # 3. 创建 DataPipeline
    print("\n[3] 创建 DataPipeline")
    pipeline = DataPipeline(
        factor_manager=factor_manager,
        processor_configs=[
            (NullFiller, {"strategy": "mean"}),
            (Winsorizer, {"lower": 0.01, "upper": 0.99}),
            (StandardScaler, {}),
            # (CrossSectionalStandardScaler, {}),
        ],
        filters=[STFilter(data_router=engine.router)],
        stock_pool_filter_func=stock_pool_filter,
        stock_pool_required_columns=STOCK_FILTER_REQUIRED_COLUMNS,
    )

    # 4. 创建 RegressionTask
    print("\n[4] 创建 RegressionTask")
    task = RegressionTask(
        model_params=MODEL_PARAMS,
        label_name=LABEL_NAME,
    )

    # 5. 创建 Trainer
    print("\n[5] 创建 Trainer")
    trainer = Trainer(
        data_pipeline=pipeline,
        task=task,
        output_config=output_config,
        verbose=True,
    )

    # 6. 执行训练
    print("\n[6] 执行训练")
    results = trainer.run(engine=engine, date_range=date_range)

    # 7. 保存模型和因子信息（如果启用）
    if SAVE_MODEL:
        print("\n[7] 保存模型和因子信息")
        save_model_with_factors(
            model=task.get_model(),
            model_path=output_config["model_save_path"],
            selected_factors=SELECTED_FACTORS,
            factor_definitions=FACTOR_DEFINITIONS,
            fitted_processors=pipeline.get_fitted_processors(),
        )

    print("\n" + "=" * 80)
    print("训练流程完成！")
    print(f"结果保存路径: {os.path.join(OUTPUT_DIR, 'regression_output.csv')}")
    print("=" * 80)

    return results


if __name__ == "__main__":
    main()
-												feat(factors): 集成 metadata 模块，支持按名称注册因子
- 新增 add_factor_by_name() 方法，从 metadata 查询 DSL 表达式并注册
- FactorEngine 支持可选的 metadata_path 参数初始化
- 将 regression.ipynb 和 learn_to_rank.ipynb 转换为 Python 脚本
- 新增 test_factor_engine_metadata.py 测试文件

											
										
										
											2026-03-11 22:54:52 +08:00
+								# %% md
-												feat(training): 实现 Trainer 模块化重构 (Trainer V2)
- 新增 FactorManager 组件：统一管理多种来源因子
- 新增 DataPipeline 组件：完整数据处理流程（注册、过滤、划分、预处理）
- 新增 Task 策略组件：BaseTask 抽象基类、RegressionTask、RankTask
- 新增 ResultAnalyzer 组件：特征重要性分析和结果组装
- 新增 TrainerV2：作为纯调度引擎协调各组件
- 支持回归和排序学习两种训练模式
- 采用组合模式解耦训练流程，消除代码重复

											
										
										
											2026-03-24 23:35:31 +08:00
+								# # LightGBM 回归训练流程（模块化版本）
 								#
 								# 使用新的模块化 Trainer 架构，代码更简洁、可维护性更高。
 								# %% md
-												feat(factors): 集成 metadata 模块，支持按名称注册因子
- 新增 add_factor_by_name() 方法，从 metadata 查询 DSL 表达式并注册
- FactorEngine 支持可选的 metadata_path 参数初始化
- 将 regression.ipynb 和 learn_to_rank.ipynb 转换为 Python 脚本
- 新增 test_factor_engine_metadata.py 测试文件

											
										
										
											2026-03-11 22:54:52 +08:00
+								# ## 1. 导入依赖
 								# %%
 								import os
 								from src.factors import FactorEngine
 								from src.training import (
-												feat(training): 实现 Trainer 模块化重构 (Trainer V2)
- 新增 FactorManager 组件：统一管理多种来源因子
- 新增 DataPipeline 组件：完整数据处理流程（注册、过滤、划分、预处理）
- 新增 Task 策略组件：BaseTask 抽象基类、RegressionTask、RankTask
- 新增 ResultAnalyzer 组件：特征重要性分析和结果组装
- 新增 TrainerV2：作为纯调度引擎协调各组件
- 支持回归和排序学习两种训练模式
- 采用组合模式解耦训练流程，消除代码重复

											
										
										
											2026-03-24 23:35:31 +08:00
+								    FactorManager,
 								    DataPipeline,
 								    RegressionTask,
-												feat(factors): 集成 metadata 模块，支持按名称注册因子
- 新增 add_factor_by_name() 方法，从 metadata 查询 DSL 表达式并注册
- FactorEngine 支持可选的 metadata_path 参数初始化
- 将 regression.ipynb 和 learn_to_rank.ipynb 转换为 Python 脚本
- 新增 test_factor_engine_metadata.py 测试文件

											
										
										
											2026-03-11 22:54:52 +08:00
+								    NullFiller,
-												feat(training): 实现 Trainer 模块化重构 (Trainer V2)
- 新增 FactorManager 组件：统一管理多种来源因子
- 新增 DataPipeline 组件：完整数据处理流程（注册、过滤、划分、预处理）
- 新增 Task 策略组件：BaseTask 抽象基类、RegressionTask、RankTask
- 新增 ResultAnalyzer 组件：特征重要性分析和结果组装
- 新增 TrainerV2：作为纯调度引擎协调各组件
- 支持回归和排序学习两种训练模式
- 采用组合模式解耦训练流程，消除代码重复

											
										
										
											2026-03-24 23:35:31 +08:00
+								    Winsorizer,
 								    StandardScaler,
-												feat(factors): 新增筹码集中度相关因子并优化训练框架

- 添加 19 个筹码分布和胜率相关因子(包括chip_dispersion、winner_rate等系列)
- LightGBM模型添加早停和训练指标记录功能
- 统一Label配置到common.py模块
- 新增list_factors.py因子列表脚本

											
										
										
											2026-03-29 01:34:58 +08:00
+								    CrossSectionalStandardScaler,
-												feat(factors): 集成 metadata 模块，支持按名称注册因子
- 新增 add_factor_by_name() 方法，从 metadata 查询 DSL 表达式并注册
- FactorEngine 支持可选的 metadata_path 参数初始化
- 将 regression.ipynb 和 learn_to_rank.ipynb 转换为 Python 脚本
- 新增 test_factor_engine_metadata.py 测试文件

											
										
										
											2026-03-11 22:54:52 +08:00
+								)
-												feat(data): 添加每日筹码及胜率数据接口 (cyq_perf)
- 新增 api_cyq_perf 模块，支持筹码分布数据获取和同步
- 在 sync_registry 中注册 cyq_perf 同步器

											
										
										
											2026-03-26 00:15:30 +08:00
+								from src.training.core.trainer_v2 import Trainer
-												feat(training): 实现 Trainer 模块化重构 (Trainer V2)
- 新增 FactorManager 组件：统一管理多种来源因子
- 新增 DataPipeline 组件：完整数据处理流程（注册、过滤、划分、预处理）
- 新增 Task 策略组件：BaseTask 抽象基类、RegressionTask、RankTask
- 新增 ResultAnalyzer 组件：特征重要性分析和结果组装
- 新增 TrainerV2：作为纯调度引擎协调各组件
- 支持回归和排序学习两种训练模式
- 采用组合模式解耦训练流程，消除代码重复

											
										
										
											2026-03-24 23:35:31 +08:00
+								from src.training.components.filters import STFilter
-												refactor(experiment): 提取共用配置到 common 模块
- 将因子定义、日期配置、股票池筛选等提取到 common.py
- 重构 learn_to_rank 和 regression 脚本，统一使用公共配置
- 简化代码结构，消除重复定义

											
										
										
											2026-03-15 05:46:19 +08:00
+								from src.experiment.common import (
 								    SELECTED_FACTORS,
 								    FACTOR_DEFINITIONS,
-												feat(factors): 新增筹码集中度相关因子并优化训练框架

- 添加 19 个筹码分布和胜率相关因子(包括chip_dispersion、winner_rate等系列)
- LightGBM模型添加早停和训练指标记录功能
- 统一Label配置到common.py模块
- 新增list_factors.py因子列表脚本

											
										
										
											2026-03-29 01:34:58 +08:00
+								    LABEL_NAME,
 								    LABEL_FACTOR,
-												refactor(experiment): 提取共用配置到 common 模块
- 将因子定义、日期配置、股票池筛选等提取到 common.py
- 重构 learn_to_rank 和 regression 脚本，统一使用公共配置
- 简化代码结构，消除重复定义

											
										
										
											2026-03-15 05:46:19 +08:00
+								    TRAIN_START,
 								    TRAIN_END,
 								    VAL_START,
 								    VAL_END,
 								    TEST_START,
 								    TEST_END,
 								    stock_pool_filter,
 								    STOCK_FILTER_REQUIRED_COLUMNS,
 								    OUTPUT_DIR,
 								    SAVE_PREDICTIONS,
-												feat(experiment): 添加模型保存功能及因子信息持久化

- 新增 SAVE_MODEL 配置控制是否保存模型
- 新增 get_model_save_path() 生成模型保存路径
- 新增 save_model_with_factors() 保存模型及关联因子信息
- 新增 load_model_factors() 加载因子信息用于模型复现
- 更新训练脚本使用新的模型保存方式
- 清理 data/sync.py 中的废弃代码

											
										
										
											2026-03-16 22:50:47 +08:00
+								    SAVE_MODEL,
 								    get_model_save_path,
 								    save_model_with_factors,
-												refactor(experiment): 提取共用配置到 common 模块
- 将因子定义、日期配置、股票池筛选等提取到 common.py
- 重构 learn_to_rank 和 regression 脚本，统一使用公共配置
- 简化代码结构，消除重复定义

											
										
										
											2026-03-15 05:46:19 +08:00
+								    TOP_N,
 								)
-												feat(factors): 集成 metadata 模块，支持按名称注册因子
- 新增 add_factor_by_name() 方法，从 metadata 查询 DSL 表达式并注册
- FactorEngine 支持可选的 metadata_path 参数初始化
- 将 regression.ipynb 和 learn_to_rank.ipynb 转换为 Python 脚本
- 新增 test_factor_engine_metadata.py 测试文件

											
										
										
											2026-03-11 22:54:52 +08:00
-												feat(experiment): 添加模型保存功能及因子信息持久化

- 新增 SAVE_MODEL 配置控制是否保存模型
- 新增 get_model_save_path() 生成模型保存路径
- 新增 save_model_with_factors() 保存模型及关联因子信息
- 新增 load_model_factors() 加载因子信息用于模型复现
- 更新训练脚本使用新的模型保存方式
- 清理 data/sync.py 中的废弃代码

											
										
										
											2026-03-16 22:50:47 +08:00
+								# 训练类型标识
 								TRAINING_TYPE = "regression"
-												feat(factors): 集成 metadata 模块，支持按名称注册因子
- 新增 add_factor_by_name() 方法，从 metadata 查询 DSL 表达式并注册
- FactorEngine 支持可选的 metadata_path 参数初始化
- 将 regression.ipynb 和 learn_to_rank.ipynb 转换为 Python 脚本
- 新增 test_factor_engine_metadata.py 测试文件

											
										
										
											2026-03-11 22:54:52 +08:00
+								# %% md
-												feat(training): 实现 Trainer 模块化重构 (Trainer V2)
- 新增 FactorManager 组件：统一管理多种来源因子
- 新增 DataPipeline 组件：完整数据处理流程（注册、过滤、划分、预处理）
- 新增 Task 策略组件：BaseTask 抽象基类、RegressionTask、RankTask
- 新增 ResultAnalyzer 组件：特征重要性分析和结果组装
- 新增 TrainerV2：作为纯调度引擎协调各组件
- 支持回归和排序学习两种训练模式
- 采用组合模式解耦训练流程，消除代码重复

											
										
										
											2026-03-24 23:35:31 +08:00
+								# ## 2. 训练特定配置
-												feat(factors): 集成 metadata 模块，支持按名称注册因子
- 新增 add_factor_by_name() 方法，从 metadata 查询 DSL 表达式并注册
- FactorEngine 支持可选的 metadata_path 参数初始化
- 将 regression.ipynb 和 learn_to_rank.ipynb 转换为 Python 脚本
- 新增 test_factor_engine_metadata.py 测试文件

											
										
										
											2026-03-11 22:54:52 +08:00
+								# %%
-												feat(factors): 新增筹码集中度相关因子并优化训练框架

- 添加 19 个筹码分布和胜率相关因子(包括chip_dispersion、winner_rate等系列)
- LightGBM模型添加早停和训练指标记录功能
- 统一Label配置到common.py模块
- 新增list_factors.py因子列表脚本

											
										
										
											2026-03-29 01:34:58 +08:00
+								# Label 配置（从 common.py 统一导入）
 								# LABEL_NAME 和 LABEL_FACTOR 已在 common.py 中绑定，只需从 common 导入
-												feat(factors): 集成 metadata 模块，支持按名称注册因子
- 新增 add_factor_by_name() 方法，从 metadata 查询 DSL 表达式并注册
- FactorEngine 支持可选的 metadata_path 参数初始化
- 将 regression.ipynb 和 learn_to_rank.ipynb 转换为 Python 脚本
- 新增 test_factor_engine_metadata.py 测试文件

											
										
										
											2026-03-11 22:54:52 +08:00
-												feat(training): 实现 Trainer 模块化重构 (Trainer V2)
- 新增 FactorManager 组件：统一管理多种来源因子
- 新增 DataPipeline 组件：完整数据处理流程（注册、过滤、划分、预处理）
- 新增 Task 策略组件：BaseTask 抽象基类、RegressionTask、RankTask
- 新增 ResultAnalyzer 组件：特征重要性分析和结果组装
- 新增 TrainerV2：作为纯调度引擎协调各组件
- 支持回归和排序学习两种训练模式
- 采用组合模式解耦训练流程，消除代码重复

											
										
										
											2026-03-24 23:35:31 +08:00
+								# 排除的因子列表
 								EXCLUDED_FACTORS = [
-												feat(factors): 新增筹码集中度相关因子并优化训练框架

- 添加 19 个筹码分布和胜率相关因子(包括chip_dispersion、winner_rate等系列)
- LightGBM模型添加早停和训练指标记录功能
- 统一Label配置到common.py模块
- 新增list_factors.py因子列表脚本

											
										
										
											2026-03-29 01:34:58 +08:00
+								    "GTJA_alpha062",
 								    "GTJA_alpha060",
 								    "GTJA_alpha058",
 								    "GTJA_alpha056",
 								    "GTJA_alpha053",
 								    "GTJA_alpha040",
 								    "GTJA_alpha043",
-												feat(training): 实现 Trainer 模块化重构 (Trainer V2)
- 新增 FactorManager 组件：统一管理多种来源因子
- 新增 DataPipeline 组件：完整数据处理流程（注册、过滤、划分、预处理）
- 新增 Task 策略组件：BaseTask 抽象基类、RegressionTask、RankTask
- 新增 ResultAnalyzer 组件：特征重要性分析和结果组装
- 新增 TrainerV2：作为纯调度引擎协调各组件
- 支持回归和排序学习两种训练模式
- 采用组合模式解耦训练流程，消除代码重复

											
										
										
											2026-03-24 23:35:31 +08:00
+								    "GTJA_alpha027",
-												feat(factors): 新增筹码集中度相关因子并优化训练框架

- 添加 19 个筹码分布和胜率相关因子(包括chip_dispersion、winner_rate等系列)
- LightGBM模型添加早停和训练指标记录功能
- 统一Label配置到common.py模块
- 新增list_factors.py因子列表脚本

											
										
										
											2026-03-29 01:34:58 +08:00
+								    "CP",
 								    "max_ret_20",
 								    "debt_to_equity",
 								    "close_vwap_deviation",
 								    "EP",
 								    "BP",
 								    "EP_rank",
-												feat(training): 实现 Trainer 模块化重构 (Trainer V2)
- 新增 FactorManager 组件：统一管理多种来源因子
- 新增 DataPipeline 组件：完整数据处理流程（注册、过滤、划分、预处理）
- 新增 Task 策略组件：BaseTask 抽象基类、RegressionTask、RankTask
- 新增 ResultAnalyzer 组件：特征重要性分析和结果组装
- 新增 TrainerV2：作为纯调度引擎协调各组件
- 支持回归和排序学习两种训练模式
- 采用组合模式解耦训练流程，消除代码重复

											
										
										
											2026-03-24 23:35:31 +08:00
+								    "GTJA_alpha044",
-												feat(factors): 新增筹码集中度相关因子并优化训练框架

- 添加 19 个筹码分布和胜率相关因子(包括chip_dispersion、winner_rate等系列)
- LightGBM模型添加早停和训练指标记录功能
- 统一Label配置到common.py模块
- 新增list_factors.py因子列表脚本

											
										
										
											2026-03-29 01:34:58 +08:00
+								    "GTJA_alpha036",
 								    "GTJA_alpha010",
 								    "GTJA_alpha005",
 								    "GTJA_alpha001",
 								    "GTJA_alpha002",
 								    "GTJA_alpha007",
 								    "GTJA_alpha016",
-												feat(training): 实现 Trainer 模块化重构 (Trainer V2)
- 新增 FactorManager 组件：统一管理多种来源因子
- 新增 DataPipeline 组件：完整数据处理流程（注册、过滤、划分、预处理）
- 新增 Task 策略组件：BaseTask 抽象基类、RegressionTask、RankTask
- 新增 ResultAnalyzer 组件：特征重要性分析和结果组装
- 新增 TrainerV2：作为纯调度引擎协调各组件
- 支持回归和排序学习两种训练模式
- 采用组合模式解耦训练流程，消除代码重复

											
										
										
											2026-03-24 23:35:31 +08:00
+								    "GTJA_alpha073",
 								    "GTJA_alpha133",
 								    "GTJA_alpha131",
 								    "GTJA_alpha117",
-												feat(factors): 新增筹码集中度相关因子并优化训练框架

- 添加 19 个筹码分布和胜率相关因子(包括chip_dispersion、winner_rate等系列)
- LightGBM模型添加早停和训练指标记录功能
- 统一Label配置到common.py模块
- 新增list_factors.py因子列表脚本

											
										
										
											2026-03-29 01:34:58 +08:00
+								    "GTJA_alpha124",
 								    "GTJA_alpha120",
 								    "GTJA_alpha119",
 								    "GTJA_alpha103",
 								    "GTJA_alpha099",
 								    "GTJA_alpha105",
 								    "GTJA_alpha104",
 								    "GTJA_alpha090",
 								    "GTJA_alpha085",
 								    "GTJA_alpha083",
 								    "GTJA_alpha084",
 								    "GTJA_alpha087",
 								    "GTJA_alpha092",
 								    "GTJA_alpha074",
 								    "GTJA_alpha089",
 								    "GTJA_alpha173",
-												feat(training): 实现 Trainer 模块化重构 (Trainer V2)
- 新增 FactorManager 组件：统一管理多种来源因子
- 新增 DataPipeline 组件：完整数据处理流程（注册、过滤、划分、预处理）
- 新增 Task 策略组件：BaseTask 抽象基类、RegressionTask、RankTask
- 新增 ResultAnalyzer 组件：特征重要性分析和结果组装
- 新增 TrainerV2：作为纯调度引擎协调各组件
- 支持回归和排序学习两种训练模式
- 采用组合模式解耦训练流程，消除代码重复

											
										
										
											2026-03-24 23:35:31 +08:00
+								    "GTJA_alpha157",
-												feat(factors): 新增筹码集中度相关因子并优化训练框架

- 添加 19 个筹码分布和胜率相关因子(包括chip_dispersion、winner_rate等系列)
- LightGBM模型添加早停和训练指标记录功能
- 统一Label配置到common.py模块
- 新增list_factors.py因子列表脚本

											
										
										
											2026-03-29 01:34:58 +08:00
+								    "GTJA_alpha139",
-												feat(training): 实现 Trainer 模块化重构 (Trainer V2)
- 新增 FactorManager 组件：统一管理多种来源因子
- 新增 DataPipeline 组件：完整数据处理流程（注册、过滤、划分、预处理）
- 新增 Task 策略组件：BaseTask 抽象基类、RegressionTask、RankTask
- 新增 ResultAnalyzer 组件：特征重要性分析和结果组装
- 新增 TrainerV2：作为纯调度引擎协调各组件
- 支持回归和排序学习两种训练模式
- 采用组合模式解耦训练流程，消除代码重复

											
										
										
											2026-03-24 23:35:31 +08:00
+								    "GTJA_alpha162",
-												feat(factors): 新增筹码集中度相关因子并优化训练框架

- 添加 19 个筹码分布和胜率相关因子(包括chip_dispersion、winner_rate等系列)
- LightGBM模型添加早停和训练指标记录功能
- 统一Label配置到common.py模块
- 新增list_factors.py因子列表脚本

											
										
										
											2026-03-29 01:34:58 +08:00
+								    "GTJA_alpha163",
-												feat(training): 实现 Trainer 模块化重构 (Trainer V2)
- 新增 FactorManager 组件：统一管理多种来源因子
- 新增 DataPipeline 组件：完整数据处理流程（注册、过滤、划分、预处理）
- 新增 Task 策略组件：BaseTask 抽象基类、RegressionTask、RankTask
- 新增 ResultAnalyzer 组件：特征重要性分析和结果组装
- 新增 TrainerV2：作为纯调度引擎协调各组件
- 支持回归和排序学习两种训练模式
- 采用组合模式解耦训练流程，消除代码重复

											
										
										
											2026-03-24 23:35:31 +08:00
+								    "GTJA_alpha177",
-												feat(factors): 新增筹码集中度相关因子并优化训练框架

- 添加 19 个筹码分布和胜率相关因子(包括chip_dispersion、winner_rate等系列)
- LightGBM模型添加早停和训练指标记录功能
- 统一Label配置到common.py模块
- 新增list_factors.py因子列表脚本

											
										
										
											2026-03-29 01:34:58 +08:00
+								    "price_to_avg_cost",
 								    "cost_skewness",
-												feat(training): 实现 Trainer 模块化重构 (Trainer V2)
- 新增 FactorManager 组件：统一管理多种来源因子
- 新增 DataPipeline 组件：完整数据处理流程（注册、过滤、划分、预处理）
- 新增 Task 策略组件：BaseTask 抽象基类、RegressionTask、RankTask
- 新增 ResultAnalyzer 组件：特征重要性分析和结果组装
- 新增 TrainerV2：作为纯调度引擎协调各组件
- 支持回归和排序学习两种训练模式
- 采用组合模式解耦训练流程，消除代码重复

											
										
										
											2026-03-24 23:35:31 +08:00
+								    "GTJA_alpha191",
-												feat(factors): 新增筹码集中度相关因子并优化训练框架

- 添加 19 个筹码分布和胜率相关因子(包括chip_dispersion、winner_rate等系列)
- LightGBM模型添加早停和训练指标记录功能
- 统一Label配置到common.py模块
- 新增list_factors.py因子列表脚本

											
										
										
											2026-03-29 01:34:58 +08:00
+								    "GTJA_alpha180",
 								    "history_position",
 								    "bottom_profit",
 								    "smart_money_accumulation",
-												feat(training): 实现 Trainer 模块化重构 (Trainer V2)
- 新增 FactorManager 组件：统一管理多种来源因子
- 新增 DataPipeline 组件：完整数据处理流程（注册、过滤、划分、预处理）
- 新增 Task 策略组件：BaseTask 抽象基类、RegressionTask、RankTask
- 新增 ResultAnalyzer 组件：特征重要性分析和结果组装
- 新增 TrainerV2：作为纯调度引擎协调各组件
- 支持回归和排序学习两种训练模式
- 采用组合模式解耦训练流程，消除代码重复

											
										
										
											2026-03-24 23:35:31 +08:00
+								]
-												feat(factors): 集成 metadata 模块，支持按名称注册因子
- 新增 add_factor_by_name() 方法，从 metadata 查询 DSL 表达式并注册
- FactorEngine 支持可选的 metadata_path 参数初始化
- 将 regression.ipynb 和 learn_to_rank.ipynb 转换为 Python 脚本
- 新增 test_factor_engine_metadata.py 测试文件

											
										
										
											2026-03-11 22:54:52 +08:00
+								# 模型参数配置
 								MODEL_PARAMS = {
-												feat(factors): 新增筹码集中度相关因子并优化训练框架

- 添加 19 个筹码分布和胜率相关因子(包括chip_dispersion、winner_rate等系列)
- LightGBM模型添加早停和训练指标记录功能
- 统一Label配置到common.py模块
- 新增list_factors.py因子列表脚本

											
										
										
											2026-03-29 01:34:58 +08:00
+								    # ==================== 基础设置 ====================
 								    "objective": "huber",  # 【修改】相比纯 L1(MAE)，huber 对异常值鲁棒且在极小误差处平滑，更适合收益率预测
-												feat(experiment): 新增因子排除机制并优化模型训练参数
- 添加 EXCLUDED_FACTORS 列表支持批量排除效果不佳的因子
- 修复 LightGBM 树结构冲突，调整正则化和采样策略防过拟合
- 调整数据处理器配置，关闭模型自动保存

											
										
										
											2026-03-18 20:57:02 +08:00
+								    "metric": "mae",
-												feat(factors): 新增筹码集中度相关因子并优化训练框架

- 添加 19 个筹码分布和胜率相关因子(包括chip_dispersion、winner_rate等系列)
- LightGBM模型添加早停和训练指标记录功能
- 统一Label配置到common.py模块
- 新增list_factors.py因子列表脚本

											
										
										
											2026-03-29 01:34:58 +08:00
+								    # ==================== 树结构约束 ====================
 								    "max_depth": 5,  # 【修改】适当加深，允许捕捉一定的高阶交叉
 								    "num_leaves": 31,  # 【修改】限制为 31（2的5次方-1），确保树是不对称生长的，防止过拟合
 								    "min_data_in_leaf": 512,  # 【大幅增加】从256加到1000。训练集有97万条，极大地限制叶子节点样本量能有效抵抗股市噪音
 								    # ==================== 学习参数 ====================
 								    "learning_rate": 0.02,  # 【修改】稍微调大一点，帮助模型跳出初始的局部最优（避免十几轮就早停）
 								    "n_estimators": 2000,
 								    # ==================== 随机采样与降维 ====================
 								    "subsample": 0.85,
-												feat(training): 实现 Trainer 模块化重构 (Trainer V2)
- 新增 FactorManager 组件：统一管理多种来源因子
- 新增 DataPipeline 组件：完整数据处理流程（注册、过滤、划分、预处理）
- 新增 Task 策略组件：BaseTask 抽象基类、RegressionTask、RankTask
- 新增 ResultAnalyzer 组件：特征重要性分析和结果组装
- 新增 TrainerV2：作为纯调度引擎协调各组件
- 支持回归和排序学习两种训练模式
- 采用组合模式解耦训练流程，消除代码重复

											
										
										
											2026-03-24 23:35:31 +08:00
+								    "subsample_freq": 1,
-												feat(factors): 新增筹码集中度相关因子并优化训练框架

- 添加 19 个筹码分布和胜率相关因子(包括chip_dispersion、winner_rate等系列)
- LightGBM模型添加早停和训练指标记录功能
- 统一Label配置到common.py模块
- 新增list_factors.py因子列表脚本

											
										
										
											2026-03-29 01:34:58 +08:00
+								    "colsample_bytree": 0.4,  # 【大幅降低】从0.8降到0.4。强制打压 GTJA_alpha127 的霸权，逼迫模型去学习其他因子的信息
 								    "extra_trees": True,  # 【新增且极度推荐】极度随机树模式。在分裂点选择时增加随机性，是量化比赛中防过拟合的神器
 								    # ==================== 正则化 ====================
 								    "reg_alpha": 1.0,  # 【修改】L1正则增加，强行把一些无用特征的权重压到0
 								    "reg_lambda": 5.0,  # 【修改】L2正则大幅增加（从1到5），惩罚过大的叶子节点输出权重
 								    "max_bin": 127,  # 【新增】默认255，降低到127相当于对连续特征做了一次粗颗粒度的分箱，也是极好的正则化手段
 								    # ==================== 杂项 ====================
-												feat(factors): 集成 metadata 模块，支持按名称注册因子
- 新增 add_factor_by_name() 方法，从 metadata 查询 DSL 表达式并注册
- FactorEngine 支持可选的 metadata_path 参数初始化
- 将 regression.ipynb 和 learn_to_rank.ipynb 转换为 Python 脚本
- 新增 test_factor_engine_metadata.py 测试文件

											
										
										
											2026-03-11 22:54:52 +08:00
+								    "verbose": -1,
 								    "random_state": 42,
-												feat(factors): 新增筹码集中度相关因子并优化训练框架

- 添加 19 个筹码分布和胜率相关因子(包括chip_dispersion、winner_rate等系列)
- LightGBM模型添加早停和训练指标记录功能
- 统一Label配置到common.py模块
- 新增list_factors.py因子列表脚本

											
										
										
											2026-03-29 01:34:58 +08:00
+								    "n_jobs": -1,
-												feat(factors): 集成 metadata 模块，支持按名称注册因子
- 新增 add_factor_by_name() 方法，从 metadata 查询 DSL 表达式并注册
- FactorEngine 支持可选的 metadata_path 参数初始化
- 将 regression.ipynb 和 learn_to_rank.ipynb 转换为 Python 脚本
- 新增 test_factor_engine_metadata.py 测试文件

											
										
										
											2026-03-11 22:54:52 +08:00
+								}
-												feat(training): 实现 Trainer 模块化重构 (Trainer V2)
- 新增 FactorManager 组件：统一管理多种来源因子
- 新增 DataPipeline 组件：完整数据处理流程（注册、过滤、划分、预处理）
- 新增 Task 策略组件：BaseTask 抽象基类、RegressionTask、RankTask
- 新增 ResultAnalyzer 组件：特征重要性分析和结果组装
- 新增 TrainerV2：作为纯调度引擎协调各组件
- 支持回归和排序学习两种训练模式
- 采用组合模式解耦训练流程，消除代码重复

											
										
										
											2026-03-24 23:35:31 +08:00
+								# 日期范围配置
 								date_range = {
 								    "train": (TRAIN_START, TRAIN_END),
 								    "val": (VAL_START, VAL_END),
 								    "test": (TEST_START, TEST_END),
 								}
-												feat(factors): 集成 metadata 模块，支持按名称注册因子
- 新增 add_factor_by_name() 方法，从 metadata 查询 DSL 表达式并注册
- FactorEngine 支持可选的 metadata_path 参数初始化
- 将 regression.ipynb 和 learn_to_rank.ipynb 转换为 Python 脚本
- 新增 test_factor_engine_metadata.py 测试文件

											
										
										
											2026-03-11 22:54:52 +08:00
-												feat(training): 实现 Trainer 模块化重构 (Trainer V2)
- 新增 FactorManager 组件：统一管理多种来源因子
- 新增 DataPipeline 组件：完整数据处理流程（注册、过滤、划分、预处理）
- 新增 Task 策略组件：BaseTask 抽象基类、RegressionTask、RankTask
- 新增 ResultAnalyzer 组件：特征重要性分析和结果组装
- 新增 TrainerV2：作为纯调度引擎协调各组件
- 支持回归和排序学习两种训练模式
- 采用组合模式解耦训练流程，消除代码重复

											
										
										
											2026-03-24 23:35:31 +08:00
+								# 输出配置
 								output_config = {
 								    "output_dir": OUTPUT_DIR,
 								    "output_filename": "regression_output.csv",
 								    "save_predictions": SAVE_PREDICTIONS,
 								    "save_model": SAVE_MODEL,
 								    "model_save_path": get_model_save_path(TRAINING_TYPE),
 								    "top_n": TOP_N,
 								}
-												feat(factors): 集成 metadata 模块，支持按名称注册因子
- 新增 add_factor_by_name() 方法，从 metadata 查询 DSL 表达式并注册
- FactorEngine 支持可选的 metadata_path 参数初始化
- 将 regression.ipynb 和 learn_to_rank.ipynb 转换为 Python 脚本
- 新增 test_factor_engine_metadata.py 测试文件

											
										
										
											2026-03-11 22:54:52 +08:00
-												feat(training): 实现 Trainer 模块化重构 (Trainer V2)
- 新增 FactorManager 组件：统一管理多种来源因子
- 新增 DataPipeline 组件：完整数据处理流程（注册、过滤、划分、预处理）
- 新增 Task 策略组件：BaseTask 抽象基类、RegressionTask、RankTask
- 新增 ResultAnalyzer 组件：特征重要性分析和结果组装
- 新增 TrainerV2：作为纯调度引擎协调各组件
- 支持回归和排序学习两种训练模式
- 采用组合模式解耦训练流程，消除代码重复

											
										
										
											2026-03-24 23:35:31 +08:00
+								def main():
 								    """主函数"""
 								    print("\n" + "=" * 80)
 								    print("LightGBM 回归模型训练（模块化版本）")
 								    print("=" * 80)
-												feat(data): 为数据同步添加事务支持和同步日志
- Storage/ThreadSafeStorage 添加事务支持（begin/commit/rollback）
- 新增 SyncLogManager 记录所有同步任务的执行状态
- 集成事务到 StockBasedSync、DateBasedSync、QuarterBasedSync
- 在 sync_all 和 sync_financial 调度中心添加日志记录
- 新增测试验证事务和日志功能

											
										
										
											2026-03-23 21:10:15 +08:00
-												feat(training): 实现 Trainer 模块化重构 (Trainer V2)
- 新增 FactorManager 组件：统一管理多种来源因子
- 新增 DataPipeline 组件：完整数据处理流程（注册、过滤、划分、预处理）
- 新增 Task 策略组件：BaseTask 抽象基类、RegressionTask、RankTask
- 新增 ResultAnalyzer 组件：特征重要性分析和结果组装
- 新增 TrainerV2：作为纯调度引擎协调各组件
- 支持回归和排序学习两种训练模式
- 采用组合模式解耦训练流程，消除代码重复

											
										
										
											2026-03-24 23:35:31 +08:00
+								    # 1. 创建 FactorEngine
 								    print("\n[1] 创建 FactorEngine")
 								    engine = FactorEngine()
 								    # 2. 创建 FactorManager
 								    print("\n[2] 创建 FactorManager")
 								    factor_manager = FactorManager(
 								        selected_factors=SELECTED_FACTORS,
 								        factor_definitions=FACTOR_DEFINITIONS,
 								        label_factor=LABEL_FACTOR,
 								        excluded_factors=EXCLUDED_FACTORS,
-												feat(factors): 集成 metadata 模块，支持按名称注册因子
- 新增 add_factor_by_name() 方法，从 metadata 查询 DSL 表达式并注册
- FactorEngine 支持可选的 metadata_path 参数初始化
- 将 regression.ipynb 和 learn_to_rank.ipynb 转换为 Python 脚本
- 新增 test_factor_engine_metadata.py 测试文件

											
										
										
											2026-03-11 22:54:52 +08:00
+								    )
-												feat(training): 实现 Trainer 模块化重构 (Trainer V2)
- 新增 FactorManager 组件：统一管理多种来源因子
- 新增 DataPipeline 组件：完整数据处理流程（注册、过滤、划分、预处理）
- 新增 Task 策略组件：BaseTask 抽象基类、RegressionTask、RankTask
- 新增 ResultAnalyzer 组件：特征重要性分析和结果组装
- 新增 TrainerV2：作为纯调度引擎协调各组件
- 支持回归和排序学习两种训练模式
- 采用组合模式解耦训练流程，消除代码重复

											
										
										
											2026-03-24 23:35:31 +08:00
+								    # 3. 创建 DataPipeline
 								    print("\n[3] 创建 DataPipeline")
 								    pipeline = DataPipeline(
 								        factor_manager=factor_manager,
 								        processor_configs=[
 								            (NullFiller, {"strategy": "mean"}),
 								            (Winsorizer, {"lower": 0.01, "upper": 0.99}),
 								            (StandardScaler, {}),
-												feat(factors): 新增筹码集中度相关因子并优化训练框架

- 添加 19 个筹码分布和胜率相关因子(包括chip_dispersion、winner_rate等系列)
- LightGBM模型添加早停和训练指标记录功能
- 统一Label配置到common.py模块
- 新增list_factors.py因子列表脚本

											
										
										
											2026-03-29 01:34:58 +08:00
+								            # (CrossSectionalStandardScaler, {}),
-												feat(training): 实现 Trainer 模块化重构 (Trainer V2)
- 新增 FactorManager 组件：统一管理多种来源因子
- 新增 DataPipeline 组件：完整数据处理流程（注册、过滤、划分、预处理）
- 新增 Task 策略组件：BaseTask 抽象基类、RegressionTask、RankTask
- 新增 ResultAnalyzer 组件：特征重要性分析和结果组装
- 新增 TrainerV2：作为纯调度引擎协调各组件
- 支持回归和排序学习两种训练模式
- 采用组合模式解耦训练流程，消除代码重复

											
										
										
											2026-03-24 23:35:31 +08:00
+								        ],
 								        filters=[STFilter(data_router=engine.router)],
 								        stock_pool_filter_func=stock_pool_filter,
 								        stock_pool_required_columns=STOCK_FILTER_REQUIRED_COLUMNS,
 								    )
-												feat(factors): 集成 metadata 模块，支持按名称注册因子
- 新增 add_factor_by_name() 方法，从 metadata 查询 DSL 表达式并注册
- FactorEngine 支持可选的 metadata_path 参数初始化
- 将 regression.ipynb 和 learn_to_rank.ipynb 转换为 Python 脚本
- 新增 test_factor_engine_metadata.py 测试文件

											
										
										
											2026-03-11 22:54:52 +08:00
-												feat(training): 实现 Trainer 模块化重构 (Trainer V2)
- 新增 FactorManager 组件：统一管理多种来源因子
- 新增 DataPipeline 组件：完整数据处理流程（注册、过滤、划分、预处理）
- 新增 Task 策略组件：BaseTask 抽象基类、RegressionTask、RankTask
- 新增 ResultAnalyzer 组件：特征重要性分析和结果组装
- 新增 TrainerV2：作为纯调度引擎协调各组件
- 支持回归和排序学习两种训练模式
- 采用组合模式解耦训练流程，消除代码重复

											
										
										
											2026-03-24 23:35:31 +08:00
+								    # 4. 创建 RegressionTask
 								    print("\n[4] 创建 RegressionTask")
 								    task = RegressionTask(
 								        model_params=MODEL_PARAMS,
 								        label_name=LABEL_NAME,
 								    )
-												feat(factors): 集成 metadata 模块，支持按名称注册因子
- 新增 add_factor_by_name() 方法，从 metadata 查询 DSL 表达式并注册
- FactorEngine 支持可选的 metadata_path 参数初始化
- 将 regression.ipynb 和 learn_to_rank.ipynb 转换为 Python 脚本
- 新增 test_factor_engine_metadata.py 测试文件

											
										
										
											2026-03-11 22:54:52 +08:00
-												feat(training): 实现 Trainer 模块化重构 (Trainer V2)
- 新增 FactorManager 组件：统一管理多种来源因子
- 新增 DataPipeline 组件：完整数据处理流程（注册、过滤、划分、预处理）
- 新增 Task 策略组件：BaseTask 抽象基类、RegressionTask、RankTask
- 新增 ResultAnalyzer 组件：特征重要性分析和结果组装
- 新增 TrainerV2：作为纯调度引擎协调各组件
- 支持回归和排序学习两种训练模式
- 采用组合模式解耦训练流程，消除代码重复

											
										
										
											2026-03-24 23:35:31 +08:00
+								    # 5. 创建 Trainer
 								    print("\n[5] 创建 Trainer")
 								    trainer = Trainer(
 								        data_pipeline=pipeline,
 								        task=task,
 								        output_config=output_config,
 								        verbose=True,
 								    )
-												feat(factors): 集成 metadata 模块，支持按名称注册因子
- 新增 add_factor_by_name() 方法，从 metadata 查询 DSL 表达式并注册
- FactorEngine 支持可选的 metadata_path 参数初始化
- 将 regression.ipynb 和 learn_to_rank.ipynb 转换为 Python 脚本
- 新增 test_factor_engine_metadata.py 测试文件

											
										
										
											2026-03-11 22:54:52 +08:00
-												feat(training): 实现 Trainer 模块化重构 (Trainer V2)
- 新增 FactorManager 组件：统一管理多种来源因子
- 新增 DataPipeline 组件：完整数据处理流程（注册、过滤、划分、预处理）
- 新增 Task 策略组件：BaseTask 抽象基类、RegressionTask、RankTask
- 新增 ResultAnalyzer 组件：特征重要性分析和结果组装
- 新增 TrainerV2：作为纯调度引擎协调各组件
- 支持回归和排序学习两种训练模式
- 采用组合模式解耦训练流程，消除代码重复

											
										
										
											2026-03-24 23:35:31 +08:00
+								    # 6. 执行训练
 								    print("\n[6] 执行训练")
 								    results = trainer.run(engine=engine, date_range=date_range)
-												feat(factors): 集成 metadata 模块，支持按名称注册因子
- 新增 add_factor_by_name() 方法，从 metadata 查询 DSL 表达式并注册
- FactorEngine 支持可选的 metadata_path 参数初始化
- 将 regression.ipynb 和 learn_to_rank.ipynb 转换为 Python 脚本
- 新增 test_factor_engine_metadata.py 测试文件

											
										
										
											2026-03-11 22:54:52 +08:00
-												feat(training): 实现 Trainer 模块化重构 (Trainer V2)
- 新增 FactorManager 组件：统一管理多种来源因子
- 新增 DataPipeline 组件：完整数据处理流程（注册、过滤、划分、预处理）
- 新增 Task 策略组件：BaseTask 抽象基类、RegressionTask、RankTask
- 新增 ResultAnalyzer 组件：特征重要性分析和结果组装
- 新增 TrainerV2：作为纯调度引擎协调各组件
- 支持回归和排序学习两种训练模式
- 采用组合模式解耦训练流程，消除代码重复

											
										
										
											2026-03-24 23:35:31 +08:00
+								    # 7. 保存模型和因子信息（如果启用）
 								    if SAVE_MODEL:
 								        print("\n[7] 保存模型和因子信息")
 								        save_model_with_factors(
 								            model=task.get_model(),
 								            model_path=output_config["model_save_path"],
 								            selected_factors=SELECTED_FACTORS,
 								            factor_definitions=FACTOR_DEFINITIONS,
 								            fitted_processors=pipeline.get_fitted_processors(),
-												feat(factors): 集成 metadata 模块，支持按名称注册因子
- 新增 add_factor_by_name() 方法，从 metadata 查询 DSL 表达式并注册
- FactorEngine 支持可选的 metadata_path 参数初始化
- 将 regression.ipynb 和 learn_to_rank.ipynb 转换为 Python 脚本
- 新增 test_factor_engine_metadata.py 测试文件

											
										
										
											2026-03-11 22:54:52 +08:00
+								        )
-												feat(training): 实现 Trainer 模块化重构 (Trainer V2)
- 新增 FactorManager 组件：统一管理多种来源因子
- 新增 DataPipeline 组件：完整数据处理流程（注册、过滤、划分、预处理）
- 新增 Task 策略组件：BaseTask 抽象基类、RegressionTask、RankTask
- 新增 ResultAnalyzer 组件：特征重要性分析和结果组装
- 新增 TrainerV2：作为纯调度引擎协调各组件
- 支持回归和排序学习两种训练模式
- 采用组合模式解耦训练流程，消除代码重复

											
										
										
											2026-03-24 23:35:31 +08:00
+								    print("\n" + "=" * 80)
 								    print("训练流程完成！")
 								    print(f"结果保存路径: {os.path.join(OUTPUT_DIR, 'regression_output.csv')}")
 								    print("=" * 80)
-												feat(factors): 集成 metadata 模块，支持按名称注册因子
- 新增 add_factor_by_name() 方法，从 metadata 查询 DSL 表达式并注册
- FactorEngine 支持可选的 metadata_path 参数初始化
- 将 regression.ipynb 和 learn_to_rank.ipynb 转换为 Python 脚本
- 新增 test_factor_engine_metadata.py 测试文件

											
										
										
											2026-03-11 22:54:52 +08:00
-												feat(training): 实现 Trainer 模块化重构 (Trainer V2)
- 新增 FactorManager 组件：统一管理多种来源因子
- 新增 DataPipeline 组件：完整数据处理流程（注册、过滤、划分、预处理）
- 新增 Task 策略组件：BaseTask 抽象基类、RegressionTask、RankTask
- 新增 ResultAnalyzer 组件：特征重要性分析和结果组装
- 新增 TrainerV2：作为纯调度引擎协调各组件
- 支持回归和排序学习两种训练模式
- 采用组合模式解耦训练流程，消除代码重复

											
										
										
											2026-03-24 23:35:31 +08:00
+								    return results
-												feat(factors): 集成 metadata 模块，支持按名称注册因子
- 新增 add_factor_by_name() 方法，从 metadata 查询 DSL 表达式并注册
- FactorEngine 支持可选的 metadata_path 参数初始化
- 将 regression.ipynb 和 learn_to_rank.ipynb 转换为 Python 脚本
- 新增 test_factor_engine_metadata.py 测试文件

											
										
										
											2026-03-11 22:54:52 +08:00
-												feat(experiment): 添加模型保存功能及因子信息持久化

- 新增 SAVE_MODEL 配置控制是否保存模型
- 新增 get_model_save_path() 生成模型保存路径
- 新增 save_model_with_factors() 保存模型及关联因子信息
- 新增 load_model_factors() 加载因子信息用于模型复现
- 更新训练脚本使用新的模型保存方式
- 清理 data/sync.py 中的废弃代码

											
										
										
											2026-03-16 22:50:47 +08:00
-												feat(training): 实现 Trainer 模块化重构 (Trainer V2)
- 新增 FactorManager 组件：统一管理多种来源因子
- 新增 DataPipeline 组件：完整数据处理流程（注册、过滤、划分、预处理）
- 新增 Task 策略组件：BaseTask 抽象基类、RegressionTask、RankTask
- 新增 ResultAnalyzer 组件：特征重要性分析和结果组装
- 新增 TrainerV2：作为纯调度引擎协调各组件
- 支持回归和排序学习两种训练模式
- 采用组合模式解耦训练流程，消除代码重复

											
										
										
											2026-03-24 23:35:31 +08:00
+								if __name__ == "__main__":
 								    main()