|
|
af5c96cd53
|
feat(training): 添加数据过滤器支持及 ST 股票过滤
- 新增 filters.py 模块,实现 BaseFilter 抽象类和 STFilter 过滤器
- 在 Trainer 中支持 filters 参数,可在股票池筛选之前执行数据过滤
- 更新 training/__init__.py 导出 BaseFilter 和 STFilter
- 在 regression.py 中集成 STFilter,用于过滤 ST 股票
|
2026-03-04 21:14:39 +08:00 |
|
|
|
f1687dadf3
|
feat: 因子引擎字段验证改进、股票池过滤修复及实验模块增强
1. 因子引擎字段验证改进
- 新增 SchemaCache.get_all_fields() 方法,返回所有可用字段集合
- 修改 match_fields_to_tables(),对不存在的字段抛出明确错误
- 错误信息包含可用字段列表提示,帮助用户检查拼写
2. 股票池过滤修复
- 修复北交所股票排除逻辑:将识别方式从代码前缀(8/4开头)改为.BJ后缀
- 更新文档注释,明确北交所股票识别规则
3. 实验模块增强
- 新增 regression.py 实现回归实验逻辑
- 新增 output/ 目录存放实验输出结果
|
2026-03-03 23:51:08 +08:00 |
|
|
|
192718095f
|
feat(training): 实现训练模块核心组件(commits 6-9)
- StockPoolManager:每日独立筛选股票池,支持代码过滤和市值选择
- Trainer:整合训练完整流程,支持 processor 分阶段行为和模型持久化
- TrainingConfig:pydantic 配置管理,含必填字段和日期验证
- experiment 模块:预留结构
- 从计划中移除 metrics 组件
- 调整 commit 序号(7-10 → 6-9)
- 更新 training/__init__.py 导出所有公开 API
|
2026-03-03 22:57:01 +08:00 |
|
|
|
f35a6a76a6
|
feat(training): 实现 LightGBM 模型
- 新增 LightGBMModel:LightGBM 回归模型实现
- 支持自定义参数(objective, num_leaves, learning_rate, n_estimators 等)
- 使用 LightGBM 原生格式保存/加载模型(不依赖 pickle)
- 支持特征重要性提取
- 已注册到 ModelRegistry(@register_model("lightgbm"))
|
2026-03-03 22:30:37 +08:00 |
|
|
|
9ca1deae56
|
feat(training): 实现数据处理器
- 新增 StandardScaler:全局标准化,训练集学习参数,测试集复用
- 新增 CrossSectionalStandardScaler:截面标准化,每天独立计算
- 新增 Winsorizer:支持全局/截面两种缩尾模式
- 处理器统一遵循 fit/transform 接口,Trainer 可无差别调用
- 添加 17 个单元测试覆盖各种场景
|
2026-03-03 22:23:43 +08:00 |
|
|
|
6b63c428d9
|
feat(training): 实现股票池选择器配置
- 新增 StockFilterConfig:支持按代码前缀过滤创业板/科创板/北交所
- 新增 MarketCapSelectorConfig:配置市值选择参数(数量、排序、列名)
- 添加参数验证(n>0, 列名非空)
- 在 components 模块导出配置类
- 添加 15 个单元测试覆盖各种场景
|
2026-03-03 22:10:36 +08:00 |
|
|
|
f48b307ad2
|
feat(training): 实现 DateSplitter 数据划分器
- 新增 DateSplitter 类,支持基于日期范围的一次性训练/测试划分
- 实现日期格式验证和日期范围逻辑检查
- 支持自定义日期列名参数
- 添加完整的单元测试(12个测试用例)
- 在 components 模块导出 DateSplitter
|
2026-03-03 22:07:45 +08:00 |
|
|
|
472b2b665a
|
feat(training): 添加训练模块基础架构
实现 Commit 1:训练模块基础架构
新增文件:
- src/training/__init__.py - 主模块导出
- src/training/components/__init__.py - components 子模块导出
- src/training/components/base.py - BaseModel/BaseProcessor 抽象基类
- src/training/registry.py - 模型和处理器注册中心
- tests/training/test_base.py - 基础架构单元测试
功能特性:
- BaseModel: 提供 fit, predict, feature_importance, save/load 接口
- BaseProcessor: 提供 fit, transform, fit_transform 接口
- ModelRegistry/ProcessorRegistry: 支持装饰器风格组件注册
- 支持即插即用的组件扩展机制
Ultraworked with [Sisyphus](https://github.com/code-yeongyu/oh-my-opencode)
Co-authored-by: Sisyphus <clio-agent@sisyphuslabs.ai>
|
2026-03-03 21:55:39 +08:00 |
|
|
|
53225b9443
|
feat(data): 添加每日指标接口并优化因子引擎
- 新增 api_daily_basic.py 封装 Tushare 每日指标接口
- 因子引擎移除 lookback_days,支持 daily_basic 表字段路由
- 将每日指标纳入自动同步流程
- 删除废弃的 training/main.py
|
2026-03-03 17:09:39 +08:00 |
|
|
|
990a77ec6c
|
refactor(training): 重构训练管道,支持灵活因子配置
- 添加 FactorConfig 类,支持链式 API 和动态因子列表
- 重构 prepare_data 使用 FactorEngine 计算因子,确保防泄露机制生效
- 新增 prepare_data_and_train / train_and_predict 分步执行接口
- 修复 factors/__init__.py docstring 语法错误
|
2026-02-25 23:39:02 +08:00 |
|
|
|
a9e4746239
|
refactor: 代码审查修复 - 日期过滤、性能优化、数据泄露防护
- 修复 data_loader.py 财务数据日期过滤,支持按范围加载
- 优化 MADClipper 使用窗口函数替代 join,提升性能
- 修复训练日期边界问题,添加1天间隔避免数据泄露
- 新增 .gitignore 规则忽略训练输出目录
|
2026-02-25 21:11:19 +08:00 |
|
|
|
593ec99466
|
refactor: 存储层迁移DuckDB + 模块重构
- 存储层重构: HDF5 → DuckDB(UPSERT模式、线程安全存储)
- Sync类迁移: DataSync从sync.py迁移到api_daily.py(职责分离)
- 模型模块重构: src/models → src/pipeline(更清晰的命名)
- 新增因子模块: factors/momentum (MA、收益率排名)、factors/financial
- 新增API接口: api_namechange、api_bak_basic
- 新增训练入口: training模块(main.py、pipeline配置)
- 工具函数统一: get_today_date等移至utils.py
- 文档更新: AGENTS.md添加架构变更历史
|
2026-02-23 16:23:53 +08:00 |
|