ProStock

Author	SHA1	Message	Date
liaozhaorun	94d5d13bb1	feat(training): 新增 TabM SetRank 模型并支持任务注入 - 添加 TabMSetRankModel 实现集合排序训练 - TabMRankTask 支持通过 model_class 注入兼容模型 - 启用 common.py 中的流动性因子	2026-04-05 01:03:17 +08:00
liaozhaorun	a66d5e9db3	feat(training): 新增 TabM 排序学习模型支持并优化训练流程 - 新增 TabMRankModel、TabMRankTask 及配套损失函数与配置 - 将 DataQualityAnalyzer 从 experiment 迁移至 training 模块 - 调整数据处理器移除过度的 NaN/null 硬填充逻辑 - 优化 RankTask 评估指标使用分位数标签替代原始收益率 - 更新实验脚本处理器顺序与模型超参数配置	2026-04-04 22:39:58 +08:00
liaozhaorun	9e7d4241c6	feat(data): 添加个股资金流向接口并重构速率限制配置 - 新增 moneyflow 资金流向数据同步模块 - 实现接口级速率限制配置（sync_config.py） - 更新流动性相关因子定义 - 添加非对称量化损失函数	2026-04-03 23:57:47 +08:00
liaozhaorun	c143815443	feat(training): TabM模型量化交易优化 - 新增 CrossSectionSampler 支持截面数据采样（按交易日批处理） - 新增 EnsembleQuantLoss (Huber + IC) 替代 MSE 作为损失函数 - 重构 TabMModel 支持量化场景：Rank IC 作为验证指标、CosineAnnealingLR学习率调度、梯度裁剪 - 支持 date_col 参数和特征对齐 - 更新实验配置 batch_size 2048 和 weight_decay 等超参数	2026-04-01 00:20:05 +08:00
liaozhaorun	36a3ccbcc8	feat(training): 新增 TabM 模型支持及数据质量优化 - 添加 TabMModel、TabPFNModel 深度学习模型实现 - 新增 DataQualityAnalyzer 进行训练前数据质量诊断 - 改进数据处理器 NaN/null 双重处理，增强数据鲁棒性 - 支持 train_skip_days 参数跳过训练初期数据不足期 - Pipeline 自动清理标签为 NaN 的样本	2026-03-31 23:11:21 +08:00
liaozhaorun	9e0114c745	feat(training): 支持 Label 预处理器 - DataPipeline 新增 label_processor_configs 参数 - 分离特征与 label 的预处理流程 - regression.py 添加 label 缩尾处理配置 - 调整学习率并更新排除因子列表	2026-03-29 02:37:53 +08:00
liaozhaorun	c3d1b157e9	feat(factors): 新增筹码集中度相关因子并优化训练框架 - 添加 19 个筹码分布和胜率相关因子(包括chip_dispersion、winner_rate等系列) - LightGBM模型添加早停和训练指标记录功能 - 统一Label配置到common.py模块 - 新增list_factors.py因子列表脚本	2026-03-29 01:34:58 +08:00
liaozhaorun	6730acbae1	feat(data): 添加每日筹码及胜率数据接口 (cyq_perf) - 新增 api_cyq_perf 模块，支持筹码分布数据获取和同步 - 在 sync_registry 中注册 cyq_perf 同步器	2026-03-26 00:15:30 +08:00
liaozhaorun	3806b8021b	refactor(training): 将旧版 Trainer 标记为废弃，推荐使用 TrainerV2 - 在 src.training.core.trainer.Trainer 添加废弃警告 - 更新 __init__.py 导入说明，标注旧版 Trainer 为废弃 - 新增 TrainerV2 到模块导出列表（推荐使用） - 提供清晰的迁移路径：src.training.trainer_v2.Trainer Refs: Trainer V2 采用模块化设计，支持 FactorManager、DataPipeline、Task 策略	2026-03-24 23:39:46 +08:00
liaozhaorun	e41a128ca3	feat(training): 实现 Trainer 模块化重构 (Trainer V2) - 新增 FactorManager 组件：统一管理多种来源因子 - 新增 DataPipeline 组件：完整数据处理流程（注册、过滤、划分、预处理） - 新增 Task 策略组件：BaseTask 抽象基类、RegressionTask、RankTask - 新增 ResultAnalyzer 组件：特征重要性分析和结果组装 - 新增 TrainerV2：作为纯调度引擎协调各组件 - 支持回归和排序学习两种训练模式 - 采用组合模式解耦训练流程，消除代码重复	2026-03-24 23:35:31 +08:00
liaozhaorun	6927d20de1	feat(training): LightGBM支持验证集早停 - 为fit方法添加eval_set参数，支持验证集评估和早停 - 因子引擎简化初始化，移除metadata_path参数 - 回归实验精简因子定义，移除冗余因子库	2026-03-14 22:51:24 +08:00
liaozhaorun	bdf937086f	refactor(training): 简化 LightGBM 模型参数处理 - 重构 LightGBM 和 LambdaRank 模型，移除参数提取逻辑 - 模型类只保留 params 属性，符合 LightGBM 设计规范	2026-03-14 02:41:24 +08:00
liaozhaorun	3f8ca2cebf	feat(training): 添加数据质量检查工具并重构实验脚本 - 新增 check_data_quality 函数用于检测全空/全零/全NaN数据质量问题 - 重构 register_factors 函数，消除 FEATURE_COLS 和 PROCESSORS 冗余定义 - 修复实验脚本中特征列表不一致的问题，确保处理器覆盖所有特征 - 优化 LambdaRank 模型参数配置	2026-03-13 22:24:12 +08:00
liaozhaorun	2bb7718dd1	feat(factors): 集成 metadata 模块，支持按名称注册因子 - 新增 add_factor_by_name() 方法，从 metadata 查询 DSL 表达式并注册 - FactorEngine 支持可选的 metadata_path 参数初始化 - 将 regression.ipynb 和 learn_to_rank.ipynb 转换为 Python 脚本 - 新增 test_factor_engine_metadata.py 测试文件	2026-03-11 22:54:52 +08:00
liaozhaorun	e6c3a918c7	feat(training): 添加 LightGBM LambdaRank 排序学习功能新增基于 LambdaRank 的排序学习模型，用于股票排序预测任务： - 实现 LightGBMLambdaRankModel 模型类，支持分位数标签转换 - 提供完整的训练流程和 NDCG 评估指标 - 添加实验 Notebook 演示排序学习全流程	2026-03-10 22:23:44 +08:00
liaozhaorun	88fa848b96	refactor(training): 重构股票池管理 API 并更新训练流程 - 移除 StockFilterConfig/MarketCapSelectorConfig，改用 StockPoolManager + filter_func - Trainer 支持 train/val/test 三分法划分 - 更新 regression.ipynb 适配新 API - 删除已弃用的 test_selectors.py，后续补充 StockPoolManager 测试	2026-03-09 22:33:41 +08:00
liaozhaorun	592126c376	feat(training): 实现 train/val/test 三分法并添加训练指标可视化 - DateSplitter 支持三分法划分，修复 test 数据泄露问题 - 添加训练指标曲线绘制和100轮早停	2026-03-08 01:09:47 +08:00
liaozhaorun	7b935b0fa3	feat(training): 添加缺失值填充处理器 NullFiller 新增 NullFiller 处理器，支持 zero/mean/median/value 填充策略，支持全局统计量或按日期截面填充。在回归训练流程中添加 NullFiller。	2026-03-05 21:57:34 +08:00
liaozhaorun	5a1f278df8	refactor: 优化回归实验配置和模型参数 - 将因子定义、模型参数、日期配置提取为模块级常量 - 优化 LightGBM 参数（降低过拟合风险） - LightGBMModel 支持 params 字典参数传入 - 修复 StockFilter 创业板排除逻辑（支持 301xxx） - 添加 experiment/output 到 .gitignore	2026-03-05 00:38:20 +08:00
liaozhaorun	af5c96cd53	feat(training): 添加数据过滤器支持及 ST 股票过滤 - 新增 filters.py 模块，实现 BaseFilter 抽象类和 STFilter 过滤器 - 在 Trainer 中支持 filters 参数，可在股票池筛选之前执行数据过滤 - 更新 training/__init__.py 导出 BaseFilter 和 STFilter - 在 regression.py 中集成 STFilter，用于过滤 ST 股票	2026-03-04 21:14:39 +08:00
liaozhaorun	f1687dadf3	feat: 因子引擎字段验证改进、股票池过滤修复及实验模块增强 1. 因子引擎字段验证改进 - 新增 SchemaCache.get_all_fields() 方法，返回所有可用字段集合 - 修改 match_fields_to_tables()，对不存在的字段抛出明确错误 - 错误信息包含可用字段列表提示，帮助用户检查拼写 2. 股票池过滤修复 - 修复北交所股票排除逻辑：将识别方式从代码前缀（8/4开头）改为.BJ后缀 - 更新文档注释，明确北交所股票识别规则 3. 实验模块增强 - 新增 regression.py 实现回归实验逻辑 - 新增 output/ 目录存放实验输出结果	2026-03-03 23:51:08 +08:00
liaozhaorun	192718095f	feat(training): 实现训练模块核心组件（commits 6-9） - StockPoolManager：每日独立筛选股票池，支持代码过滤和市值选择 - Trainer：整合训练完整流程，支持 processor 分阶段行为和模型持久化 - TrainingConfig：pydantic 配置管理，含必填字段和日期验证 - experiment 模块：预留结构 - 从计划中移除 metrics 组件 - 调整 commit 序号（7-10 → 6-9） - 更新 training/__init__.py 导出所有公开 API	2026-03-03 22:57:01 +08:00
liaozhaorun	f35a6a76a6	feat(training): 实现 LightGBM 模型 - 新增 LightGBMModel：LightGBM 回归模型实现 - 支持自定义参数（objective, num_leaves, learning_rate, n_estimators 等） - 使用 LightGBM 原生格式保存/加载模型（不依赖 pickle） - 支持特征重要性提取 - 已注册到 ModelRegistry（@register_model("lightgbm")）	2026-03-03 22:30:37 +08:00
liaozhaorun	9ca1deae56	feat(training): 实现数据处理器 - 新增 StandardScaler：全局标准化，训练集学习参数，测试集复用 - 新增 CrossSectionalStandardScaler：截面标准化，每天独立计算 - 新增 Winsorizer：支持全局/截面两种缩尾模式 - 处理器统一遵循 fit/transform 接口，Trainer 可无差别调用 - 添加 17 个单元测试覆盖各种场景	2026-03-03 22:23:43 +08:00
liaozhaorun	6b63c428d9	feat(training): 实现股票池选择器配置 - 新增 StockFilterConfig：支持按代码前缀过滤创业板/科创板/北交所 - 新增 MarketCapSelectorConfig：配置市值选择参数（数量、排序、列名） - 添加参数验证（n>0, 列名非空） - 在 components 模块导出配置类 - 添加 15 个单元测试覆盖各种场景	2026-03-03 22:10:36 +08:00
liaozhaorun	f48b307ad2	feat(training): 实现 DateSplitter 数据划分器 - 新增 DateSplitter 类，支持基于日期范围的一次性训练/测试划分 - 实现日期格式验证和日期范围逻辑检查 - 支持自定义日期列名参数 - 添加完整的单元测试（12个测试用例） - 在 components 模块导出 DateSplitter	2026-03-03 22:07:45 +08:00
liaozhaorun	472b2b665a	feat(training): 添加训练模块基础架构实现 Commit 1：训练模块基础架构新增文件： - src/training/__init__.py - 主模块导出 - src/training/components/__init__.py - components 子模块导出 - src/training/components/base.py - BaseModel/BaseProcessor 抽象基类 - src/training/registry.py - 模型和处理器注册中心 - tests/training/test_base.py - 基础架构单元测试功能特性： - BaseModel: 提供 fit, predict, feature_importance, save/load 接口 - BaseProcessor: 提供 fit, transform, fit_transform 接口 - ModelRegistry/ProcessorRegistry: 支持装饰器风格组件注册 - 支持即插即用的组件扩展机制 Ultraworked with [Sisyphus](https://github.com/code-yeongyu/oh-my-opencode) Co-authored-by: Sisyphus <clio-agent@sisyphuslabs.ai>	2026-03-03 21:55:39 +08:00
liaozhaorun	53225b9443	feat(data): 添加每日指标接口并优化因子引擎 - 新增 api_daily_basic.py 封装 Tushare 每日指标接口 - 因子引擎移除 lookback_days，支持 daily_basic 表字段路由 - 将每日指标纳入自动同步流程 - 删除废弃的 training/main.py	2026-03-03 17:09:39 +08:00
liaozhaorun	990a77ec6c	refactor(training): 重构训练管道，支持灵活因子配置 - 添加 FactorConfig 类，支持链式 API 和动态因子列表 - 重构 prepare_data 使用 FactorEngine 计算因子，确保防泄露机制生效 - 新增 prepare_data_and_train / train_and_predict 分步执行接口 - 修复 factors/__init__.py docstring 语法错误	2026-02-25 23:39:02 +08:00
liaozhaorun	a9e4746239	refactor: 代码审查修复 - 日期过滤、性能优化、数据泄露防护 - 修复 data_loader.py 财务数据日期过滤，支持按范围加载 - 优化 MADClipper 使用窗口函数替代 join，提升性能 - 修复训练日期边界问题，添加1天间隔避免数据泄露 - 新增 .gitignore 规则忽略训练输出目录	2026-02-25 21:11:19 +08:00
liaozhaorun	593ec99466	refactor: 存储层迁移DuckDB + 模块重构 - 存储层重构: HDF5 → DuckDB（UPSERT模式、线程安全存储） - Sync类迁移: DataSync从sync.py迁移到api_daily.py（职责分离） - 模型模块重构: src/models → src/pipeline（更清晰的命名） - 新增因子模块: factors/momentum (MA、收益率排名)、factors/financial - 新增API接口: api_namechange、api_bak_basic - 新增训练入口: training模块（main.py、pipeline配置） - 工具函数统一: get_today_date等移至utils.py - 文档更新: AGENTS.md添加架构变更历史	2026-02-23 16:23:53 +08:00

31 Commits