feat(models): 实现机器学习模型训练框架

- 添加核心抽象：Processor、Model、Splitter、Metric 基类 - 实现阶段感知机制（TRAIN/TEST/ALL），防止数据泄露 - 内置 8 个数据处理器和 3 种时序划分策略 - 支持 LightGBM、CatBoost 模型 - PluginRegistry 装饰器注册，插件式架构 - 22 个单元测试
2026-02-23 01:37:34 +08:00
parent e58b39970c
commit 9f95be56a0
16 changed files with 3774 additions and 865 deletions
--- a/README.md
+++ b/README.md
@@ -1,40 +1,300 @@
 # ProStock
-A股量化投资框架
+A股量化投资框架 - 从数据获取到模型训练的完整解决方案
 ## 功能特性
 ### 1. 数据层 (src/data/)
 - **多源数据接入**: Tushare API 集成，支持日线、股票基础信息、交易日历
 - **DuckDB 存储**: 高性能嵌入式数据库，支持 SQL 查询下推
 - **智能同步**: 增量/全量同步策略，自动检测数据更新需求
 - **速率控制**: 令牌桶算法实现 API 限流
 - **并发优化**: ThreadPoolExecutor 多线程数据获取
 ### 2. 因子层 (src/factors/)
 - **类型安全**: 严格的截面因子 vs 时序因子区分
 - **防泄露机制**: 框架层面防止未来数据和跨股票数据泄露
 - **因子组合**: 支持因子加减乘除和标量运算
 - **高性能计算**: Polars 向量化操作，零拷贝数据导出
 - **灵活扩展**: 基类抽象便于自定义因子
 ### 3. 模型层 (src/models/)
 - **插件架构**: 装饰器注册机制，新模型即插即用
 - **阶段感知**: 训练/测试阶段区分，防止数据泄露
 - **多模型支持**: LightGBM、CatBoost 等模型统一接口
 - **数据处理**: 缺失值处理、缩尾、标准化、中性化等
 - **时序划分**: WalkForward、ExpandingWindow 等时间序列划分策略
 ## 项目结构
 ```
 ProStock/
 ├── src/
 │   ├── config/              # 配置管理
 │   │   ├── settings.py      # pydantic-settings 配置
 │   │   └── __init__.py
 │   │
 │   ├── data/                # 数据获取与存储
 │   │   ├── api_wrappers/    # Tushare API 封装
 │   │   │   ├── api_daily.py         # 日线数据接口
 │   │   │   ├── api_stock_basic.py   # 股票基础信息
 │   │   │   └── api_trade_cal.py     # 交易日历
 │   │   ├── client.py        # Tushare 客户端（含限流）
 │   │   ├── config.py        # 数据模块配置
 │   │   ├── db_manager.py    # DuckDB 表管理和同步
 │   │   ├── db_inspector.py  # 数据库信息查看工具
 │   │   ├── rate_limiter.py  # 令牌桶限流器
 │   │   ├── storage.py       # DuckDB 存储核心
 │   │   ├── sync.py          # 数据同步主逻辑
 │   │   └── __init__.py
 │   │
 │   ├── factors/             # 因子计算框架
 │   │   ├── base.py          # 因子基类（截面/时序）
 │   │   ├── composite.py     # 组合因子和标量运算
 │   │   ├── data_loader.py   # DuckDB 数据加载器
 │   │   ├── data_spec.py     # 数据规格定义
 │   │   ├── engine.py        # 因子执行引擎
 │   │   └── __init__.py
 │   │
 │   ├── models/              # 模型训练框架
 │   │   ├── core/            # 核心抽象
 │   │   │   ├── base.py      # 处理器/模型/划分基类
 │   │   │   └── splitter.py  # 时间序列划分策略
 │   │   ├── models/          # 模型实现
 │   │   │   └── models.py    # LightGBM、CatBoost
 │   │   ├── processors/      # 数据处理器
 │   │   │   └── processors.py # 标准化、缩尾、中性化等
 │   │   ├── pipeline.py      # 处理流水线
 │   │   ├── registry.py      # 插件注册中心
 │   │   └── __init__.py
 │   │
 │   └── __init__.py
 │
 ├── docs/                    # 文档
 │   ├── factor_framework_design.md    # 因子框架设计
 │   ├── ml_framework_design.md        # 模型框架设计
 │   ├── db_sync_guide.md              # 数据同步指南
 │   └── ...
 │
 ├── data/                    # 数据存储（DuckDB）
 │   ├── prostock.db          # 主数据库文件
 │   └── stock_basic.csv      # 股票基础信息缓存
 │
 ├── config/                  # 配置文件
 │   └── .env.local           # 环境变量（API Token等）
 │
 └── tests/                   # 测试文件
    ├── test_sync.py
    └── factors/
 ```
 ## 快速开始
-### 安装依赖
+### 1. 安装依赖
-**⚠️ 本项目强制使用 uv 作为 Python 包管理器，禁止直接使用 `python` 或 `pip` 命令。**
+**⚠️ 本项目强制使用 uv 作为 Python 包管理器**
 ```bash
-# 使用 uv 安装（必须）
+# 安装 uv (如果尚未安装)
 pip install uv
 # 安装项目依赖
 uv pip install -e .
 ```
-### 数据同步
+### 2. 配置环境变量
 创建 `config/.env.local` 文件：
 ```bash
-# 增量同步（自动从最新日期开始）
+TUSHARE_TOKEN=your_tushare_token_here
 DATA_PATH=data
 RATE_LIMIT=100
 THREADS=10
 ```
 ### 3. 数据同步
 ```bash
 # 首次同步 - 全量同步（从20180101开始）
 uv run python -c "from src.data.sync import sync_all; sync_all(force_full=True)"
 # 日常同步 - 增量同步（自动从最新日期开始）
 uv run python -c "from src.data.sync import sync_all; sync_all()"
-# 全量同步（从 20180101 开始）
+# 预览同步（检查需要同步的数据量）
-uv run python -c "from src.data.sync import sync_all; sync_all(force_full=True)"
+uv run python -c "from src.data.sync import preview_sync; preview_sync()"
 # 自定义线程数
 uv run python -c "from src.data.sync import sync_all; sync_all(max_workers=20)"
 ```
 ### 4. 查看数据库状态
 ```bash
 uv run python -c "from src.data.db_inspector import get_db_info; get_db_info()"
 ```
 ## 使用示例
 ### 因子计算
 ```python
 from src.factors import FactorEngine, DataLoader, DataSpec
 from src.factors.base import CrossSectionalFactor, TimeSeriesFactor
 import polars as pl
 # 自定义截面因子：PE排名
 class PERankFactor(CrossSectionalFactor):
    name = "pe_rank"
    data_specs = [DataSpec("daily", ["ts_code", "trade_date", "pe"], lookback_days=1)]
    def compute(self, data) -> pl.Series:
        cs = data.get_cross_section()
        return cs["pe"].rank()
 # 自定义时序因子：20日移动平均
 class MA20Factor(TimeSeriesFactor):
    name = "ma20"
    data_specs = [DataSpec("daily", ["ts_code", "trade_date", "close"], lookback_days=20)]
    def compute(self, data) -> pl.Series:
        return data.get_column("close").rolling_mean(window_size=20)
 # 执行计算
 loader = DataLoader(data_dir="data")
 engine = FactorEngine(loader)
 # 计算截面因子
 pe_rank = PERankFactor()
 result1 = engine.compute(pe_rank, start_date="20240101", end_date="20240131")
 # 计算时序因子
 ma20 = MA20Factor()
 result2 = engine.compute(ma20, stock_codes=["000001.SZ"], 
                        start_date="20240101", end_date="20240131")
 # 因子组合
 combined = 0.5 * pe_rank + 0.3 * ma20
 ```
 ### 模型训练
 ```python
 from src.models import PluginRegistry, ProcessingPipeline
 from src.models.core import PipelineStage
 import polars as pl
 # 创建处理流水线
 pipeline = ProcessingPipeline([
    PluginRegistry.get_processor("dropna")(),
    PluginRegistry.get_processor("winsorizer")(lower=0.01, upper=0.99),
    PluginRegistry.get_processor("standard_scaler")(),
 ])
 # 准备数据
 data = pl.read_csv("features.csv")  # 包含特征和标签
 # 划分训练/测试集
 from src.models.core import WalkForwardSplit
 splitter = WalkForwardSplit(train_window=252, test_window=21)
 # 获取 LightGBM 模型
 ModelClass = PluginRegistry.get_model("lightgbm")
 model = ModelClass(task_type="regression", params={"n_estimators": 100})
 # 训练循环
 for train_idx, test_idx in splitter.split(data):
    train_data = data[train_idx]
    test_data = data[test_idx]
    # 数据处理
    X_train = pipeline.fit_transform(train_data.drop("target"))
    X_test = pipeline.transform(test_data.drop("target"))
    y_train = train_data["target"]
    y_test = test_data["target"]
    # 训练模型
    model.fit(X_train, y_train)
    predictions = model.predict(X_test)
 ```
 ## 核心设计
 ### 1. 数据防泄露机制
 **截面因子 (CrossSectionalFactor)**:
 - 防止日期泄露：每天只传入 `[T-lookback+1, T]` 数据
 - 允许股票间比较：传入当天所有股票数据
 - 典型应用：PE排名、市值分位数、当日收益率排名
 **时序因子 (TimeSeriesFactor)**:
 - 防止股票泄露：每只股票单独计算
 - 允许历史数据访问：传入完整时间序列
 - 典型应用：移动平均线、RSI、历史波动率
 ### 2. 插件注册机制
 ```python
 from src.models.registry import PluginRegistry
 # 注册自定义处理器
@PluginRegistry.register_processor("my_processor")
 class MyProcessor(BaseProcessor):
    stage = PipelineStage.TRAIN
    def fit(self, data):
        # 学习参数
        return self
    def transform(self, data):
        # 转换数据
        return data
 # 使用
 processor_class = PluginRegistry.get_processor("my_processor")
 processor = processor_class()
 ```
 ### 3. 数据同步策略
 **智能增量同步**:
 ```python
 from src.data.db_manager import SyncManager
 manager = SyncManager()
 result = manager.sync(
    table_name="daily",
    fetch_func=get_daily,
    start_date="20240101",
    end_date="20240131"
 )
 # 自动检测：表不存在→全量，表存在→增量
 ```
 ## 文档
- [数据同步模块](docs/data_sync.md) - 详细的数据同步使用说明
+- [因子框架设计](docs/factor_framework_design.md) - 因子计算架构详解
 - [模型框架设计](docs/ml_framework_design.md) - 模型训练架构详解
 - [数据同步指南](docs/db_sync_guide.md) - DuckDB 数据同步 API 说明
 - [代码审查报告](docs/code_review_factors_20260222.md) - 因子框架代码审查
-## 模块
+## 开发规范
- `data/` - 数据获取
+- **Python 版本**: 3.10+
- `factors/` - 因子生成
+- **代码风格**: Google 风格文档字符串
- `models/` - 模型训练
+- **类型提示**: 强制类型注解
- `backtest/` - 回测分析
+- **测试**: pytest 框架
- `utils/` - 工具函数
+- **包管理**: uv (禁止直接使用 pip/python)
- `scripts/` - 运行脚本
+
 ## 技术栈
 - **数据处理**: Polars, Pandas, NumPy
 - **数据存储**: DuckDB (嵌入式 OLAP 数据库)
 - **API 接口**: Tushare Pro
 - **机器学习**: LightGBM, CatBoost, scikit-learn
 - **配置管理**: pydantic-settings
 ## 许可证
 MIT License
--- a/docs/factor_implementation_plan.md
+++ b/docs/factor_implementation_plan.md
@@ -1,846 +0,0 @@
 # ProStock 因子框架实现计划
 ## 目录结构
 ```
 src/factors/
 ├── __init__.py              # 导出主要类
 ├── data_spec.py             # Phase 1: 数据类型定义
 ├── base.py                  # Phase 2: 因子基类
 ├── composite.py             # Phase 2: 组合因子
 ├── data_loader.py           # Phase 3: 数据加载
 ├── engine.py                # Phase 4: 执行引擎
 └── builtin/                 # Phase 5: 内置因子库
    ├── __init__.py
    ├── momentum.py          # 截面动量因子
    ├── technical.py         # 时序技术指标
    └── value.py             # 截面估值因子
 tests/factors/               # Phase 6-7: 测试
 ├── __init__.py
 ├── test_data_spec.py        # 数据类型测试
 ├── test_base.py             # 因子基类测试
 ├── test_composite.py        # 组合因子测试
 ├── test_data_loader.py      # 数据加载测试
 ├── test_engine.py           # 引擎测试
 ├── test_builtin.py          # 内置因子测试
 └── test_integration.py      # 集成测试
 ```
 ---
 ## Phase 1: 数据类型定义 (data_spec.py)
 ### 1.1 DataSpec - 数据需求规格
 **实现要求：**
 ```python
@dataclass(frozen=True)
 class DataSpec:
    """
    数据需求规格说明
    Args:
        source: H5 文件名（如 "daily", "fundamental"）
        columns: 需要的列名列表，必须包含 "ts_code" 和 "trade_date"
        lookback_days: 需要回看的天数（包含当日）
            - 1 表示只需要当日数据 [T]
            - 5 表示需要 [T-4, T] 共5天
            - 20 表示需要 [T-19, T] 共20天
    """
    source: str
    columns: List[str]
    lookback_days: int = 1
 ```
 **约束验证：**
 - `lookback_days >= 1`（至少包含当日）
 - `columns` 必须包含 `ts_code` 和 `trade_date`
 - `source` 不能为空字符串
 **测试需求：**
 - [ ] 测试有效 DataSpec 创建
 - [ ] 测试 `lookback_days < 1` 时抛出 ValueError
 - [ ] 测试缺少 `ts_code` 或 `trade_date` 时抛出 ValueError
 - [ ] 测试空 `source` 时抛出 ValueError
 - [ ] 测试 frozen 特性（创建后不可修改）
 ---
 ### 1.2 FactorContext - 计算上下文
 **实现要求：**
 ```python
@dataclass
 class FactorContext:
    """
    因子计算上下文
    由 FactorEngine 自动注入，因子开发者可通过 data.context 访问
    Attributes:
        current_date: 当前计算日期 YYYYMMDD（截面因子使用）
        current_stock: 当前计算股票代码（时序因子使用）
        trade_dates: 交易日历列表（可选，用于对齐）
    """
    current_date: Optional[str] = None
    current_stock: Optional[str] = None
    trade_dates: Optional[List[str]] = None
 ```
 **测试需求：**
 - [ ] 测试默认值创建
 - [ ] 测试完整参数创建
 - [ ] 测试 dataclass 自动生成的方法
 ---
 ### 1.3 FactorData - 数据容器
 **实现要求：**
 ```python
 class FactorData:
    """
    提供给因子的数据容器
    封装底层 Polars DataFrame，提供安全的数据访问接口
    """
    def __init__(self, df: pl.DataFrame, context: FactorContext):
        self._df = df
        self._context = context
    def get_column(self, col: str) -> pl.Series:
        """
        获取指定列的数据
        - 截面因子：获取当天所有股票的该列值
        - 时序因子：获取该股票时间序列的该列值
        Args:
            col: 列名
        Returns:
            Polars Series
        Raises:
            KeyError: 列不存在
        """
        pass
    def filter_by_date(self, date: str) -> "FactorData":
        """
        按日期过滤数据，返回新的 FactorData
        主要用于截面因子获取特定日期的数据
        Args:
            date: YYYYMMDD 格式的日期
        Returns:
            过滤后的 FactorData
        """
        pass
    def get_cross_section(self) -> pl.DataFrame:
        """
        获取当前日期的截面数据
        仅适用于截面因子，返回 current_date 当天的所有股票数据
        Returns:
            DataFrame 包含当前日期的所有股票
        Raises:
            ValueError: current_date 未设置（非截面因子场景）
        """
        pass
    def to_polars(self) -> pl.DataFrame:
        """获取底层的 Polars DataFrame（高级用法）"""
        pass
    @property
    def context(self) -> FactorContext:
        """获取计算上下文"""
        pass
    def __len__(self) -> int:
        """返回数据行数"""
        pass
 ```
 **测试需求：**
 - [ ] 测试 `get_column()` 返回正确 Series
 - [ ] 测试 `get_column()` 列不存在时抛出 KeyError
 - [ ] 测试 `filter_by_date()` 返回正确过滤结果
 - [ ] 测试 `filter_by_date()` 日期不存在时返回空 DataFrame
 - [ ] 测试 `get_cross_section()` 返回 current_date 当天的数据
 - [ ] 测试 `get_cross_section()` current_date 为 None 时抛出 ValueError
 - [ ] 测试 `to_polars()` 返回原始 DataFrame
 - [ ] 测试 `context` 属性返回正确上下文
 - [ ] 测试 `__len__()` 返回正确行数
 ---
 ## Phase 2: 因子基类 (base.py, composite.py)
 ### 2.1 BaseFactor - 抽象基类
 **实现要求：**
 ```python
 class BaseFactor(ABC):
    """
    因子基类 - 定义通用接口
    所有因子必须继承此类，并声明以下类属性：
    - name: 因子唯一标识（snake_case）
    - factor_type: "cross_sectional" 或 "time_series"
    - data_specs: List[DataSpec] 数据需求列表
    可选声明：
    - category: 因子分类（默认 "default"）
    - description: 因子描述
    """
    # 必须声明的类属性
    name: str = ""
    factor_type: str = ""  # "cross_sectional" | "time_series"
    data_specs: List[DataSpec] = field(default_factory=list)
    # 可选声明的类属性
    category: str = "default"
    description: str = ""
    def __init_subclass__(cls, **kwargs):
        """
        子类创建时验证必须属性
        验证项：
        1. name 必须是非空字符串
        2. factor_type 必须是 "cross_sectional" 或 "time_series"
        3. data_specs 必须是非空列表
        """
        pass
    def __init__(self, **params):
        """
        初始化因子参数
        子类可通过 __init__ 接收参数化配置，如 MA(period=20)
        """
        self.params = params
        self._validate_params()
    def _validate_params(self):
        """
        验证参数有效性
        子类可覆盖此方法进行自定义验证
        """
        pass
    @abstractmethod
    def compute(self, data: FactorData) -> pl.Series:
        """
        核心计算逻辑 - 子类必须实现
        Args:
            data: 安全的数据容器，已根据因子类型裁剪
        Returns:
            计算得到的因子值 Series
        """
        pass
    # ========== 因子组合运算符 ==========
    def __add__(self, other: "BaseFactor") -> "CompositeFactor":
        """因子相加：f1 + f2（要求同类型）"""
        pass
    def __sub__(self, other: "BaseFactor") -> "CompositeFactor":
        """因子相减：f1 - f2（要求同类型）"""
        pass
    def __mul__(self, other: "BaseFactor") -> "CompositeFactor":
        """因子相乘：f1 * f2（要求同类型）"""
        pass
    def __truediv__(self, other: "BaseFactor") -> "CompositeFactor":
        """因子相除：f1 / f2（要求同类型）"""
        pass
    def __rmul__(self, scalar: float) -> "ScalarFactor":
        """标量乘法：0.5 * f1"""
        pass
 ```
 **测试需求：**
 - [ ] 测试有效子类创建通过验证
 - [ ] 测试缺少 `name` 时抛出 ValueError
 - [ ] 测试 `name` 为空字符串时抛出 ValueError
 - [ ] 测试缺少 `factor_type` 时抛出 ValueError
 - [ ] 测试无效的 `factor_type`（非 cs/ts）时抛出 ValueError
 - [ ] 测试缺少 `data_specs` 时抛出 ValueError
 - [ ] 测试 `data_specs` 为空列表时抛出 ValueError
 - [ ] 测试 `compute()` 抽象方法强制子类实现
 - [ ] 测试参数化初始化 `params` 正确存储
 - [ ] 测试 `_validate_params()` 被调用
 ---
 ### 2.2 CrossSectionalFactor - 日期截面因子
 **实现要求：**
 ```python
 class CrossSectionalFactor(BaseFactor):
    """
    日期截面因子基类
    计算逻辑：在每个交易日，对所有股票进行横向计算
    防泄露边界：
    - ❌ 禁止访问未来日期的数据（日期泄露）
    - ✅ 允许访问当前日期的所有股票数据
    数据传入：
    - compute() 接收的是 [T-lookback+1, T] 的数据
    - 包含 lookback_days 的历史数据（用于时序计算后再截面）
    """
    factor_type: str = "cross_sectional"
    @abstractmethod
    def compute(self, data: FactorData) -> pl.Series:
        """
        计算截面因子值
        Args:
            data: FactorData，包含 [T-lookback+1, T] 的截面数据
                  格式：DataFrame[ts_code, trade_date, col1, col2, ...]
        Returns:
            pl.Series: 当前日期所有股票的因子值（长度 = 该日股票数量）
        示例：
            def compute(self, data):
                # 获取当前日期的截面
                cs = data.get_cross_section()
                # 计算市值排名
                return cs['market_cap'].rank()
        """
        pass
 ```
 **测试需求：**
 - [ ] 测试 `factor_type` 自动设置为 "cross_sectional"
 - [ ] 测试子类必须实现 `compute()`
 - [ ] 测试 `compute()` 返回类型为 pl.Series
 ---
 ### 2.3 TimeSeriesFactor - 时间序列因子
 **实现要求：**
 ```python
 class TimeSeriesFactor(BaseFactor):
    """
    时间序列因子基类（股票截面）
    计算逻辑：对每只股票，在其时间序列上进行纵向计算
    防泄露边界：
    - ❌ 禁止访问其他股票的数据（股票泄露）
    - ✅ 允许访问该股票的完整历史数据
    数据传入：
    - compute() 接收的是单只股票的完整时间序列
    - 包含该股票在 [start_date, end_date] 范围内的所有数据
    """
    factor_type: str = "time_series"
    @abstractmethod
    def compute(self, data: FactorData) -> pl.Series:
        """
        计算时间序列因子值
        Args:
            data: FactorData，包含单只股票的完整时间序列
                  格式：DataFrame[ts_code, trade_date, col1, col2, ...]
        Returns:
            pl.Series: 该股票在各日期的因子值（长度 = 日期数量）
        示例：
            def compute(self, data):
                series = data.get_column("close")
                return series.rolling_mean(window_size=self.params['period'])
        """
        pass
 ```
 **测试需求：**
 - [ ] 测试 `factor_type` 自动设置为 "time_series"
 - [ ] 测试子类必须实现 `compute()`
 - [ ] 测试 `compute()` 返回类型为 pl.Series
 ---
 ### 2.4 CompositeFactor - 组合因子 (composite.py)
 **实现要求：**
 ```python
 class CompositeFactor(BaseFactor):
    """
    组合因子 - 用于实现因子间的数学运算
    约束：左右因子必须是同类型（同为截面或同为时序）
    """
    def __init__(self, left: BaseFactor, right: BaseFactor, op: str):
        """
        创建组合因子
        Args:
            left: 左操作数因子
            right: 右操作数因子
            op: 运算符，支持 '+', '-', '*', '/'
        Raises:
            ValueError: 左右因子类型不一致
            ValueError: 不支持的运算符
        """
        pass
    def _merge_data_specs(self) -> List[DataSpec]:
        """
        合并左右因子的数据需求
        策略：
        1. 相同 source 和 columns 的 DataSpec 合并
        2. lookback_days 取最大值
        """
        pass
    def compute(self, data: FactorData) -> pl.Series:
        """
        执行组合运算
        流程：
        1. 分别计算 left 和 right 的值
        2. 根据 op 执行运算
        3. 返回结果
        """
        pass
 ```
 **测试需求：**
 - [ ] 测试同类型因子组合成功（cs + cs）
 - [ ] 测试同类型因子组合成功（ts + ts）
 - [ ] 测试不同类型因子组合抛出 ValueError（cs + ts）
 - [ ] 测试无效运算符抛出 ValueError
 - [ ] 测试 `_merge_data_specs()` 正确合并（相同 source）
 - [ ] 测试 `_merge_data_specs()` 正确合并（不同 source）
 - [ ] 测试 `_merge_data_specs()` lookback 取最大值
 - [ ] 测试 `compute()` 执行正确的数学运算
 ---
 ### 2.5 ScalarFactor - 标量运算因子 (composite.py)
 **实现要求：**
 ```python
 class ScalarFactor(BaseFactor):
    """
    标量运算因子
    支持：scalar * factor, factor * scalar（通过 __rmul__）
    """
    def __init__(self, factor: BaseFactor, scalar: float, op: str):
        """
        创建标量运算因子
        Args:
            factor: 基础因子
            scalar: 标量值
            op: 运算符，支持 '*', '+'
        """
        pass
    def compute(self, data: FactorData) -> pl.Series:
        """执行标量运算"""
        pass
 ```
 **测试需求：**
 - [ ] 测试标量乘法 `0.5 * factor`
 - [ ] 测试标量乘法 `factor * 0.5`
 - [ ] 测试标量加法（如支持）
 - [ ] 测试继承基础因子的 data_specs
 - [ ] 测试 `compute()` 返回正确缩放后的值
 ---
 ## Phase 3: 数据加载 (data_loader.py)
 ### 3.1 DataLoader - 数据加载器
 **实现要求：**
 ```python
 class DataLoader:
    """
    数据加载器 - 负责从 HDF5 安全加载数据
    功能：
    1. 多文件聚合：合并多个 H5 文件的数据
    2. 列选择：只加载需要的列
    3. 原始数据缓存：避免重复读取
    """
    def __init__(self, data_dir: str):
        """
        初始化 DataLoader
        Args:
            data_dir: HDF5 文件所在目录
        """
        self.data_dir = Path(data_dir)
        self._cache: Dict[str, pl.DataFrame] = {}
    def load(
        self, 
        specs: List[DataSpec],
        date_range: Optional[Tuple[str, str]] = None
    ) -> pl.DataFrame:
        """
        加载并聚合多个 H5 文件的数据
        流程：
        1. 对每个 DataSpec：
           a. 检查缓存，命中则直接使用
           b. 未命中则读取 HDF5（通过 pandas）
           c. 转换为 Polars DataFrame
           d. 按 date_range 过滤
           e. 存入缓存
        2. 合并多个 DataFrame（按 trade_date 和 ts_code join）
        Args:
            specs: 数据需求规格列表
            date_range: 日期范围限制 (start_date, end_date)，可选
        Returns:
            合并后的 Polars DataFrame
        Raises:
            FileNotFoundError: H5 文件不存在
            KeyError: 列不存在于文件中
        """
        pass
    def clear_cache(self):
        """清空缓存"""
        pass
    def _read_h5(self, source: str) -> pl.DataFrame:
        """
        读取单个 H5 文件
        实现：使用 pandas.read_hdf()，然后 pl.from_pandas()
        """
        pass
 ```
 **测试需求：**
 - [ ] 测试从单个 H5 文件加载数据
 - [ ] 测试从多个 H5 文件加载并合并
 - [ ] 测试列选择（只加载需要的列）
 - [ ] 测试缓存机制（第二次加载更快）
 - [ ] 测试 `clear_cache()` 清空缓存
 - [ ] 测试按 date_range 过滤
 - [ ] 测试文件不存在时抛出 FileNotFoundError
 - [ ] 测试列不存在时抛出 KeyError
 ---
 ## Phase 4: 执行引擎 (engine.py)
 ### 4.1 FactorEngine - 因子执行引擎
 **实现要求：**
 ```python
 class FactorEngine:
    """
    因子执行引擎 - 根据因子类型采用不同的计算和防泄露策略
    核心职责：
    1. CrossSectionalFactor：防止日期泄露，每天传入 [T-lookback+1, T] 数据
    2. TimeSeriesFactor：防止股票泄露，每只股票传入完整序列
    """
    def __init__(self, data_loader: DataLoader):
        """
        初始化引擎
        Args:
            data_loader: 数据加载器实例
        """
        self.data_loader = data_loader
    def compute(self, factor: BaseFactor, **kwargs) -> pl.DataFrame:
        """
        统一的计算入口
        根据 factor_type 分发到具体方法：
        - "cross_sectional" -> _compute_cross_sectional()
        - "time_series" -> _compute_time_series()
        Args:
            factor: 要计算的因子
            **kwargs: 额外参数，根据因子类型不同：
                - 截面因子: start_date, end_date
                - 时序因子: stock_codes, start_date, end_date
        Returns:
            DataFrame[trade_date, ts_code, factor_name]
        """
        pass
 ```
 **测试需求：**
 - [ ] 测试 `compute()` 正确分发给截面计算
 - [ ] 测试 `compute()` 正确分发给时序计算
 - [ ] 测试无效 factor_type 时抛出 ValueError
 ---
 ### 4.2 截面计算（防止日期泄露）
 **实现要求：**
 ```python
 def _compute_cross_sectional(
    self,
    factor: CrossSectionalFactor,
    start_date: str,
    end_date: str
 ) -> pl.DataFrame:
    """
    执行日期截面计算
    防泄露策略：
    - 防止日期泄露：每天只传入 [T-lookback+1, T] 的数据（不含未来）
    - 允许股票间比较：传入当天所有股票的数据
    计算流程：
    1. 计算 max_lookback，确定数据起始日期
    2. 一次性加载 [start-max_lookback+1, end] 的所有数据
    3. 对每个日期 T in [start_date, end_date]：
       a. 裁剪数据到 [T-lookback+1, T]
       b. 创建 FactorData（current_date=T）
       c. 调用 factor.compute()
       d. 收集结果
    4. 合并所有日期的结果
    返回 DataFrame 格式：
    ┌────────────┬──────────┬──────────────┐
    │ trade_date │ ts_code  │ factor_name  │
    ├────────────┼──────────┼──────────────┤
    │ 20240101   │ 000001.SZ│ 0.5          │
    │ 20240101   │ 000002.SZ│ 0.3          │
    └────────────┴──────────┴──────────────┘
    """
    pass
 ```
 **测试需求（防泄露验证）：**
 - [ ] 测试数据裁剪正确（传入 [T-lookback+1, T]）
 - [ ] 测试不包含未来日期 T+1 的数据
 - [ ] 测试每个日期独立计算
 - [ ] 测试结果包含所有日期和所有股票
 - [ ] 测试结果 DataFrame 格式正确
 - [ ] 测试多个 DataSpec 时 lookback 取最大值
 ---
 ### 4.3 时序计算（防止股票泄露）
 **实现要求：**
 ```python
 def _compute_time_series(
    self,
    factor: TimeSeriesFactor,
    stock_codes: List[str],
    start_date: str,
    end_date: str
 ) -> pl.DataFrame:
    """
    执行时间序列计算
    防泄露策略：
    - 防止股票泄露：每只股票单独计算，传入该股票的完整序列
    - 允许访问历史数据：时序计算需要历史数据
    计算流程：
    1. 计算 max_lookback，确定数据起始日期
    2. 一次性加载 [start-max_lookback+1, end] 的所有数据
    3. 对每只股票 S in stock_codes：
       a. 过滤出 S 的数据（防止股票泄露）
       b. 创建 FactorData（current_stock=S）
       c. 调用 factor.compute()（向量化计算整个序列）
       d. 收集结果
    4. 合并所有股票的结果
    性能优势：
    - 使用 Polars 的 rolling_mean 等向量化操作
    - 每只股票只计算一次，无重复计算
    返回 DataFrame 格式：
    ┌────────────┬──────────┬──────────────┐
    │ trade_date │ ts_code  │ factor_name  │
    ├────────────┼──────────┼──────────────┤
    │ 20240101   │ 000001.SZ│ 10.5         │
    │ 20240102   │ 000001.SZ│ 10.6         │
    └────────────┴──────────┴──────────────┘
    """
    pass
 ```
 **测试需求（防泄露验证）：**
 - [ ] 测试每只股票只看到自己的数据
 - [ ] 测试不包含其他股票的数据
 - [ ] 测试传入的是完整时间序列（向量化计算）
 - [ ] 测试结果包含所有股票和所有日期
 - [ ] 测试结果 DataFrame 格式正确
 - [ ] 测试股票不在数据中时跳过（或填充 null）
 ---
 ## Phase 5: 内置因子库 (builtin/)
 ### 5.1 momentum.py - 截面动量因子
 **实现因子：**
 1. **ReturnRankFactor** - 当日收益率排名
 ```python
 class ReturnRankFactor(CrossSectionalFactor):
    """当日收益率排名因子"""
    name = "return_rank"
    data_specs = [DataSpec("daily", ["close"], lookback_days=2)]  # 需要2天计算收益率
    def compute(self, data):
        # 获取当前日期截面
        cs = data.get_cross_section()
        # 需要前1天和当天的收盘价，lookback=2 保证数据包含 [T-1, T]
        # 这里假设 data 已经包含历史，实际计算需要 groupby 处理
        pass
 ```
 **测试需求：**
 - [ ] 测试收益率计算正确
 - [ ] 测试排名计算正确
 - [ ] 测试无数据时返回 null
 2. **MomentumFactor** - 过去 N 日涨幅排名
 ---
 ### 5.2 technical.py - 时序技术指标
 **实现因子：**
 1. **MovingAverageFactor** - 移动平均线
 ```python
 class MovingAverageFactor(TimeSeriesFactor):
    """移动平均线因子"""
    name = "ma"
    def __init__(self, period: int = 20):
        super().__init__(period=period)
        self.data_specs = [DataSpec("daily", ["close"], lookback_days=period)]
    def compute(self, data):
        return data.get_column("close").rolling_mean(self.params["period"])
 ```
 **测试需求：**
 - [ ] 测试 MA20 计算正确
 - [ ] 测试前19天返回 null（Polars 默认行为）
 - [ ] 测试参数 period 生效
 2. **RSIFactor** - RSI 指标
 3. **MACDFactor** - MACD 指标
 ---
 ### 5.3 value.py - 截面估值因子
 **实现因子：**
 1. **PERankFactor** - PE 行业分位数
 2. **PBFactor** - PB 排名
 ---
 ## Phase 6-7: 测试策略
 ### 测试金字塔
 ```
         /\
        /  \
       / 集成\     tests/factors/test_integration.py
      /────────\
     /   引擎    \   tests/factors/test_engine.py
    /────────────\
   /  基类/组合因子 \  tests/factors/test_base.py, test_composite.py
  /────────────────\
 /    数据加载/类型    \ tests/factors/test_data_loader.py, test_data_spec.py
 /──────────────────────\
 ```
 ### 测试数据准备
 创建 `tests/fixtures/` 目录，包含：
 - `sample_daily.h5`: 少量股票的日线数据（用于测试）
 - `sample_fundamental.h5`: 基本面数据
 ### 关键测试场景
 1. **防泄露测试（核心）**
   - 截面因子：验证 compute() 中无法访问未来日期
   - 时序因子：验证 compute() 中无法访问其他股票
 2. **边界测试**
   - lookback_days = 1（最小值）
   - 数据起始点（前 N 天为 null）
   - 空数据/停牌处理
 3. **性能测试（可选）**
   - 大数据量下的内存占用
   - 缓存命中率
 ---
 ## 实现状态
 | Phase | 状态 | 完成日期 | 测试覆盖 |
 |-------|------|----------|----------|
 | Phase 1: 数据类型定义 | ✅ 已完成 | 2026-02-21 | 27 tests passed |
 | Phase 2: 因子基类 | ✅ 已完成 | 2026-02-21 | 49 tests passed |
 | Phase 3: 数据加载 | ✅ 已完成 | 2026-02-21 | 11 tests passed |
 | Phase 4: 执行引擎 | ✅ 已完成 | 2026-02-22 | 10 tests passed |
 | Phase 5: 内置因子库 | 📝 待开发 | - | - |
 | Phase 6-7: 测试文档 | ✅ 已完成 | 2026-02-22 | 76 tests total |
 ---
 ## 实现顺序建议
 1. **Week 1**: Phase 1-2（数据类型 + 基类）
 2. **Week 2**: Phase 3-4（DataLoader + Engine）✅ **已完成**
 3. **Week 3**: Phase 5（内置因子）
 4. **Week 4**: Phase 6-7（测试 + 文档）
 每个 Phase 完成后运行对应测试，确保质量。
--- a/docs/hdf5_to_duckdb_migration.md
+++ b/docs/hdf5_to_duckdb_migration.md
@@ -1,10 +1,17 @@
-# ProStock HDF5 到 DuckDB 迁移方案与计划
+# ProStock HDF5 到 DuckDB 迁移方案
-**文档版本**: v1.0  
+**文档版本**: v1.1  
 **创建日期**: 2026-02-22  
-**状态**: 待审批  
+**完成日期**: 2026-02-22  
 **状态**: ✅ 已完成  
 **影响范围**: data 模块、factors 模块、相关文档  
 ## 相关文档
 [DuckDB 数据同步指南](./db_sync_guide.md) - 同步 API 使用说明
 [迁移测试报告](./test_report_duckdb_migration.md) - 测试验证结果
 ---
 ## 目录
--- a/docs/ml_framework_design.md
+++ b/docs/ml_framework_design.md
--- a/docs/test_report_duckdb_migration.md
+++ b/docs/test_report_duckdb_migration.md
@@ -1,6 +1,8 @@
 # ProStock HDF5 到 DuckDB 迁移测试报告
 **报告生成时间**: 2026-02-22  
 **完成时间**: 2026-02-22  
 **状态**: ✅ 已完成  
 **迁移文档**: [hdf5_to_duckdb_migration.md](./hdf5_to_duckdb_migration.md)  
 **测试数据范围**: 2024年1月-3月（3个月）
--- a/src/models/init.py
+++ b/src/models/init.py
@@ -0,0 +1,86 @@
 """ProStock 模型训练框架
 组件化、低耦合、插件式的机器学习训练框架。
 示例:
    >>> from src.models import (
    ...     PluginRegistry, ProcessingPipeline,
    ...     PipelineStage, BaseProcessor
    ... )
    >>> # 获取注册的处理器
    >>> scaler_class = PluginRegistry.get_processor("standard_scaler")
    >>> scaler = scaler_class()
    >>> # 创建处理流水线
    >>> pipeline = ProcessingPipeline([
    ...     PluginRegistry.get_processor("dropna")(),
    ...     PluginRegistry.get_processor("winsorizer")(lower=0.01, upper=0.99),
    ...     PluginRegistry.get_processor("standard_scaler")(),
    ... ])
 """
 # 导入核心抽象类和划分策略
 from src.models.core import (
    PipelineStage,
    TaskType,
    BaseProcessor,
    BaseModel,
    BaseSplitter,
    BaseMetric,
    TimeSeriesSplit,
    WalkForwardSplit,
    ExpandingWindowSplit,
 )
 # 导入注册中心
 from src.models.registry import PluginRegistry
 # 导入处理流水线
 from src.models.pipeline import ProcessingPipeline
 # 导入并注册内置处理器
 from src.models.processors.processors import (
    DropNAProcessor,
    FillNAProcessor,
    Winsorizer,
    StandardScaler,
    MinMaxScaler,
    RankTransformer,
    Neutralizer,
 )
 # 导入并注册内置模型
 from src.models.models.models import (
    LightGBMModel,
    CatBoostModel,
 )
 __all__ = [
    # 核心抽象
    "PipelineStage",
    "TaskType",
    "BaseProcessor",
    "BaseModel",
    "BaseSplitter",
    "BaseMetric",
    # 划分策略
    "TimeSeriesSplit",
    "WalkForwardSplit",
    "ExpandingWindowSplit",
    # 注册中心
    "PluginRegistry",
    # 处理流水线
    "ProcessingPipeline",
    # 处理器
    "DropNAProcessor",
    "FillNAProcessor",
    "Winsorizer",
    "StandardScaler",
    "MinMaxScaler",
    "RankTransformer",
    "Neutralizer",
    # 模型
    "LightGBMModel",
    "CatBoostModel",
 ]
--- a/src/models/core/init.py
+++ b/src/models/core/init.py
@@ -0,0 +1,30 @@
 """核心模块导出"""
 from src.models.core.base import (
    PipelineStage,
    TaskType,
    BaseProcessor,
    BaseModel,
    BaseSplitter,
    BaseMetric,
 )
 from src.models.core.splitter import (
    TimeSeriesSplit,
    WalkForwardSplit,
    ExpandingWindowSplit,
 )
 __all__ = [
    # 基础抽象
    "PipelineStage",
    "TaskType",
    "BaseProcessor",
    "BaseModel",
    "BaseSplitter",
    "BaseMetric",
    # 划分策略
    "TimeSeriesSplit",
    "WalkForwardSplit",
    "ExpandingWindowSplit",
 ]
--- a/src/models/core/base.py
+++ b/src/models/core/base.py
@@ -0,0 +1,351 @@
 """模型训练框架核心抽象类
 提供处理器、模型、划分策略和评估指标的基类定义。
 """
 from abc import ABC, abstractmethod
 from enum import Enum, auto
 from typing import Any, Dict, Iterator, List, Optional, Tuple, Literal
 import polars as pl
 import numpy as np
 # 任务类型
 TaskType = Literal["classification", "regression", "ranking"]
 class PipelineStage(Enum):
    """流水线阶段标记
    用于标记处理器在哪些阶段生效，防止数据泄露。
    Attributes:
        ALL: 适用于所有阶段（训练、测试、验证）
        TRAIN: 仅训练阶段
        TEST: 仅测试阶段
        VALIDATION: 仅验证阶段
    """
    ALL = auto()
    TRAIN = auto()
    TEST = auto()
    VALIDATION = auto()
 class BaseProcessor(ABC):
    """数据处理器基类
    所有数据处理器必须继承此类。关键特性是通过 stage 属性控制处理器在哪些阶段生效。
    阶段标记规则：
    - ALL: 训练和测试阶段都使用相同的参数
    - TRAIN: 只在训练阶段计算参数（如分位数、均值等），测试阶段使用训练阶段学到的参数
    - TEST: 只在测试阶段执行
    """
    # 子类必须定义适用阶段
    stage: PipelineStage = PipelineStage.ALL
    def __init__(self, columns: Optional[List[str]] = None, **params):
        """初始化处理器
        Args:
            columns: 要处理的列，None表示所有数值列
            **params: 处理器特定参数
        """
        self.columns = columns
        self.params = params
        self._is_fitted = False
        self._fitted_params: Dict[str, Any] = {}
    @abstractmethod
    def fit(self, data: pl.DataFrame) -> "BaseProcessor":
        """在训练数据上学习参数
        此方法只在训练阶段调用一次。学习到的参数存储在 self._fitted_params 中。
        Args:
            data: 训练数据
        Returns:
            self (支持链式调用)
        """
        pass
    @abstractmethod
    def transform(self, data: pl.DataFrame) -> pl.DataFrame:
        """转换数据
        在训练和测试阶段都会被调用。使用 fit() 阶段学习到的参数进行转换。
        Args:
            data: 输入数据
        Returns:
            转换后的数据
        """
        pass
    def fit_transform(self, data: pl.DataFrame) -> pl.DataFrame:
        """先fit再transform的便捷方法
        Args:
            data: 训练数据
        Returns:
            转换后的数据
        """
        return self.fit(data).transform(data)
    def get_fitted_params(self) -> Dict[str, Any]:
        """获取学习到的参数（用于保存/加载）
        Returns:
            学习到的参数字典
        """
        return self._fitted_params.copy()
    def set_fitted_params(self, params: Dict[str, Any]) -> "BaseProcessor":
        """设置学习到的参数（用于从checkpoint恢复）
        Args:
            params: 参数字典
        Returns:
            self (支持链式调用)
        """
        self._fitted_params = params.copy()
        self._is_fitted = True
        return self
 class BaseModel(ABC):
    """机器学习模型基类
    统一接口支持多种模型（LightGBM, CatBoost, XGBoost等）
    和多种任务类型（分类、回归、排序）。
    """
    def __init__(
        self,
        task_type: TaskType,
        params: Optional[Dict[str, Any]] = None,
        name: Optional[str] = None,
    ):
        """初始化模型
        Args:
            task_type: 任务类型 - "classification", "regression", "ranking"
            params: 模型特定参数
            name: 模型名称（用于日志和报告）
        """
        self.task_type = task_type
        self.params = params or {}
        self.name = name or self.__class__.__name__
        self._model: Any = None
        self._is_fitted = False
    @abstractmethod
    def fit(
        self,
        X: pl.DataFrame,
        y: pl.Series,
        X_val: Optional[pl.DataFrame] = None,
        y_val: Optional[pl.Series] = None,
        **fit_params,
    ) -> "BaseModel":
        """训练模型
        Args:
            X: 特征数据
            y: 目标变量
            X_val: 验证集特征（可选）
            y_val: 验证集目标（可选）
            **fit_params: 额外的fit参数
        Returns:
            self (支持链式调用)
        """
        pass
    @abstractmethod
    def predict(self, X: pl.DataFrame) -> np.ndarray:
        """预测
        Args:
            X: 特征数据
        Returns:
            预测结果数组
            - classification: 类别标签或概率
            - regression: 连续值
            - ranking: 排序分数
        """
        pass
    def predict_proba(self, X: pl.DataFrame) -> np.ndarray:
        """预测概率（仅分类任务）
        Args:
            X: 特征数据
        Returns:
            类别概率数组 [n_samples, n_classes]
        Raises:
            NotImplementedError: 非分类任务时抛出
        """
        raise NotImplementedError(
            "predict_proba only available for classification tasks"
        )
    def get_feature_importance(self) -> Optional[pl.DataFrame]:
        """获取特征重要性（如果模型支持）
        Returns:
            DataFrame[feature, importance] 或 None
        """
        return None
    def save(self, path: str) -> None:
        """保存模型到文件
        Args:
            path: 保存路径
        """
        import pickle
        with open(path, "wb") as f:
            pickle.dump(self, f)
    @classmethod
    def load(cls, path: str) -> "BaseModel":
        """从文件加载模型
        Args:
            path: 模型文件路径
        Returns:
            加载的模型实例
        """
        import pickle
        with open(path, "rb") as f:
            return pickle.load(f)
 class BaseSplitter(ABC):
    """数据划分策略基类
    针对时间序列数据的特殊划分策略，防止未来泄露。
    """
    @abstractmethod
    def split(
        self, data: pl.DataFrame, date_col: str = "trade_date"
    ) -> Iterator[Tuple[List[int], List[int]]]:
        """生成训练/测试索引
        Args:
            data: 完整数据集
            date_col: 日期列名
        Yields:
            (train_indices, test_indices) 元组
        """
        pass
    @abstractmethod
    def get_split_dates(
        self, data: pl.DataFrame, date_col: str = "trade_date"
    ) -> List[Tuple[str, str, str, str]]:
        """获取划分日期范围
        Args:
            data: 完整数据集
            date_col: 日期列名
        Returns:
            [(train_start, train_end, test_start, test_end), ...]
        """
        pass
 class BaseMetric(ABC):
    """评估指标基类
    所有评估指标必须继承此类。支持单次计算和累积计算两种模式。
    """
    def __init__(self, name: Optional[str] = None):
        """初始化指标
        Args:
            name: 指标名称
        """
        self.name = name or self.__class__.__name__
        self._values: List[float] = []
    @abstractmethod
    def compute(self, y_true: np.ndarray, y_pred: np.ndarray) -> float:
        """计算指标值
        Args:
            y_true: 真实值
            y_pred: 预测值
        Returns:
            指标值
        """
        pass
    def update(self, y_true: np.ndarray, y_pred: np.ndarray) -> "BaseMetric":
        """更新累积值
        Args:
            y_true: 真实值
            y_pred: 预测值
        Returns:
            self (支持链式调用)
        """
        self._values.append(self.compute(y_true, y_pred))
        return self
    def get_mean(self) -> float:
        """获取累积值的均值
        Returns:
            均值
        """
        if not self._values:
            return 0.0
        return float(np.mean(self._values))
    def get_std(self) -> float:
        """获取累积值的标准差
        Returns:
            标准差
        """
        if not self._values:
            return 0.0
        return float(np.std(self._values))
    def reset(self) -> "BaseMetric":
        """重置累积值
        Returns:
            self (支持链式调用)
        """
        self._values = []
        return self
 __all__ = [
    "PipelineStage",
    "TaskType",
    "BaseProcessor",
    "BaseModel",
    "BaseSplitter",
    "BaseMetric",
 ]
--- a/src/models/core/splitter.py
+++ b/src/models/core/splitter.py
@@ -0,0 +1,222 @@
 """时间序列数据划分策略
 提供针对金融时间序列的特殊划分策略，防止未来泄露。
 """
 from typing import Iterator, List, Tuple
 import polars as pl
 from src.models.core.base import BaseSplitter
 class TimeSeriesSplit(BaseSplitter):
    """时间序列划分 - 确保训练数据在测试数据之前
    按照时间顺序进行K折划分，每折的训练数据都在测试数据之前。
    通过 gap 参数防止训练集和测试集之间的数据泄露。
    Args:
        n_splits: 划分折数
        gap: 训练集和测试集之间的间隔天数（防止泄露）
        min_train_size: 最小训练集大小（天数）
    """
    def __init__(self, n_splits: int = 5, gap: int = 5, min_train_size: int = 252):
        self.n_splits = n_splits
        self.gap = gap
        self.min_train_size = min_train_size
    def split(
        self, data: pl.DataFrame, date_col: str = "trade_date"
    ) -> Iterator[Tuple[List[int], List[int]]]:
        """生成训练/测试索引"""
        dates = data[date_col].unique().sort()
        n_dates = len(dates)
        test_size = (n_dates - self.min_train_size) // self.n_splits
        for i in range(self.n_splits):
            train_end_idx = self.min_train_size + i * test_size
            test_start_idx = train_end_idx + self.gap
            test_end_idx = test_start_idx + test_size
            if test_end_idx > n_dates:
                break
            train_dates = dates[:train_end_idx]
            test_dates = dates[test_start_idx:test_end_idx]
            train_mask = data[date_col].is_in(train_dates.to_list())
            test_mask = data[date_col].is_in(test_dates.to_list())
            train_idx = data.with_row_index().filter(train_mask)["index"].to_list()
            test_idx = data.with_row_index().filter(test_mask)["index"].to_list()
            yield train_idx, test_idx
    def get_split_dates(
        self, data: pl.DataFrame, date_col: str = "trade_date"
    ) -> List[Tuple[str, str, str, str]]:
        """获取划分日期范围"""
        dates = data[date_col].unique().sort()
        n_dates = len(dates)
        test_size = (n_dates - self.min_train_size) // self.n_splits
        result = []
        for i in range(self.n_splits):
            train_end_idx = self.min_train_size + i * test_size
            test_start_idx = train_end_idx + self.gap
            test_end_idx = test_start_idx + test_size
            if test_end_idx > n_dates:
                break
            result.append(
                (
                    str(dates[0]),
                    str(dates[train_end_idx - 1]),
                    str(dates[test_start_idx]),
                    str(dates[test_end_idx - 1]),
                )
            )
        return result
 class WalkForwardSplit(BaseSplitter):
    """滚动前向验证 - 训练集逐步扩展
    Args:
        train_window: 训练集窗口大小（天数）
        test_window: 测试集窗口大小（天数）
        gap: 训练集和测试集之间的间隔天数
    """
    def __init__(self, train_window: int = 504, test_window: int = 21, gap: int = 5):
        self.train_window = train_window
        self.test_window = test_window
        self.gap = gap
    def split(
        self, data: pl.DataFrame, date_col: str = "trade_date"
    ) -> Iterator[Tuple[List[int], List[int]]]:
        """生成训练/测试索引"""
        dates = data[date_col].unique().sort()
        n_dates = len(dates)
        start_idx = self.train_window
        while start_idx + self.gap + self.test_window <= n_dates:
            train_start = start_idx - self.train_window
            train_end = start_idx
            test_start = start_idx + self.gap
            test_end = test_start + self.test_window
            train_dates = dates[train_start:train_end]
            test_dates = dates[test_start:test_end]
            train_mask = data[date_col].is_in(train_dates.to_list())
            test_mask = data[date_col].is_in(test_dates.to_list())
            train_idx = data.with_row_index().filter(train_mask)["index"].to_list()
            test_idx = data.with_row_index().filter(test_mask)["index"].to_list()
            yield train_idx, test_idx
            start_idx += self.test_window
    def get_split_dates(
        self, data: pl.DataFrame, date_col: str = "trade_date"
    ) -> List[Tuple[str, str, str, str]]:
        """获取划分日期范围"""
        dates = data[date_col].unique().sort()
        n_dates = len(dates)
        result = []
        start_idx = self.train_window
        while start_idx + self.gap + self.test_window <= n_dates:
            train_start = start_idx - self.train_window
            train_end = start_idx
            test_start = start_idx + self.gap
            test_end = test_start + self.test_window
            result.append(
                (
                    str(dates[train_start]),
                    str(dates[train_end - 1]),
                    str(dates[test_start]),
                    str(dates[test_end - 1]),
                )
            )
            start_idx += self.test_window
        return result
 class ExpandingWindowSplit(BaseSplitter):
    """扩展窗口划分 - 训练集不断扩大
    Args:
        initial_train_size: 初始训练集大小（天数）
        test_window: 测试集窗口大小（天数）
        gap: 训练集和测试集之间的间隔天数
    """
    def __init__(
        self, initial_train_size: int = 252, test_window: int = 21, gap: int = 5
    ):
        self.initial_train_size = initial_train_size
        self.test_window = test_window
        self.gap = gap
    def split(
        self, data: pl.DataFrame, date_col: str = "trade_date"
    ) -> Iterator[Tuple[List[int], List[int]]]:
        """生成训练/测试索引"""
        dates = data[date_col].unique().sort()
        n_dates = len(dates)
        train_end_idx = self.initial_train_size
        while train_end_idx + self.gap + self.test_window <= n_dates:
            train_dates = dates[:train_end_idx]
            test_start = train_end_idx + self.gap
            test_end = test_start + self.test_window
            test_dates = dates[test_start:test_end]
            train_mask = data[date_col].is_in(train_dates.to_list())
            test_mask = data[date_col].is_in(test_dates.to_list())
            train_idx = data.with_row_index().filter(train_mask)["index"].to_list()
            test_idx = data.with_row_index().filter(test_mask)["index"].to_list()
            yield train_idx, test_idx
            train_end_idx += self.test_window
    def get_split_dates(
        self, data: pl.DataFrame, date_col: str = "trade_date"
    ) -> List[Tuple[str, str, str, str]]:
        """获取划分日期范围"""
        dates = data[date_col].unique().sort()
        n_dates = len(dates)
        result = []
        train_end_idx = self.initial_train_size
        while train_end_idx + self.gap + self.test_window <= n_dates:
            test_start = train_end_idx + self.gap
            test_end = test_start + self.test_window
            result.append(
                (
                    str(dates[0]),
                    str(dates[train_end_idx - 1]),
                    str(dates[test_start]),
                    str(dates[test_end - 1]),
                )
            )
            train_end_idx += self.test_window
        return result
 __all__ = [
    "TimeSeriesSplit",
    "WalkForwardSplit",
    "ExpandingWindowSplit",
 ]
--- a/src/models/models/init.py
+++ b/src/models/models/init.py
@@ -0,0 +1,11 @@
 """模型模块"""
 from src.models.models.models import (
    LightGBMModel,
    CatBoostModel,
 )
 __all__ = [
    "LightGBMModel",
    "CatBoostModel",
 ]
--- a/src/models/models/models.py
+++ b/src/models/models/models.py
@@ -0,0 +1,210 @@
 """内置机器学习模型
 提供 LightGBM、CatBoost 等模型的统一接口包装器。
 """
 from typing import Optional, Dict, Any
 import polars as pl
 import numpy as np
 from src.models.core import BaseModel, TaskType
 from src.models.registry import PluginRegistry
@PluginRegistry.register_model("lightgbm")
 class LightGBMModel(BaseModel):
    """LightGBM 模型包装器
    支持分类、回归、排序三种任务类型。
    """
    def __init__(
        self,
        task_type: TaskType,
        params: Optional[Dict[str, Any]] = None,
        name: Optional[str] = None,
    ):
        super().__init__(task_type, params, name)
        self._model = None
    def fit(
        self,
        X: pl.DataFrame,
        y: pl.Series,
        X_val: Optional[pl.DataFrame] = None,
        y_val: Optional[pl.Series] = None,
        **fit_params,
    ) -> "LightGBMModel":
        """训练模型"""
        try:
            import lightgbm as lgb
        except ImportError:
            raise ImportError(
                "lightgbm is required. Install with: uv pip install lightgbm"
            )
        X_arr = X.to_numpy()
        y_arr = y.to_numpy()
        train_data = lgb.Dataset(X_arr, label=y_arr)
        valid_sets = [train_data]
        valid_names = ["train"]
        if X_val is not None and y_val is not None:
            valid_data = lgb.Dataset(X_val.to_numpy(), label=y_val.to_numpy())
            valid_sets.append(valid_data)
            valid_names.append("valid")
        default_params = {
            "objective": self._get_objective(),
            "metric": self._get_metric(),
            "boosting_type": "gbdt",
            "num_leaves": 31,
            "learning_rate": 0.05,
            "feature_fraction": 0.9,
            "bagging_fraction": 0.8,
            "bagging_freq": 5,
            "verbose": -1,
        }
        default_params.update(self.params)
        callbacks = []
        if len(valid_sets) > 1:
            callbacks.append(lgb.early_stopping(stopping_rounds=10, verbose=False))
        self._model = lgb.train(
            default_params,
            train_data,
            num_boost_round=fit_params.get("num_boost_round", 100),
            valid_sets=valid_sets,
            valid_names=valid_names,
            callbacks=callbacks,
        )
        self._is_fitted = True
        return self
    def predict(self, X: pl.DataFrame) -> np.ndarray:
        """预测"""
        if not self._is_fitted:
            raise RuntimeError("Model not fitted yet")
        return self._model.predict(X.to_numpy())
    def predict_proba(self, X: pl.DataFrame) -> np.ndarray:
        """预测概率（仅分类任务）"""
        if self.task_type != "classification":
            raise ValueError("predict_proba only for classification")
        probs = self.predict(X)
        if len(probs.shape) == 1:
            return np.vstack([1 - probs, probs]).T
        return probs
    def get_feature_importance(self) -> Optional[pl.DataFrame]:
        """获取特征重要性"""
        if self._model is None:
            return None
        importance = self._model.feature_importance(importance_type="gain")
        feature_names = getattr(
            self._model,
            "feature_name",
            lambda: [f"feature_{i}" for i in range(len(importance))],
        )()
        return pl.DataFrame({"feature": feature_names, "importance": importance}).sort(
            "importance", descending=True
        )
    def _get_objective(self) -> str:
        objectives = {
            "classification": "binary",
            "regression": "regression",
            "ranking": "lambdarank",
        }
        return objectives.get(self.task_type, "regression")
    def _get_metric(self) -> str:
        metrics = {"classification": "auc", "regression": "rmse", "ranking": "ndcg"}
        return metrics.get(self.task_type, "rmse")
@PluginRegistry.register_model("catboost")
 class CatBoostModel(BaseModel):
    """CatBoost 模型包装器"""
    def __init__(
        self,
        task_type: TaskType,
        params: Optional[Dict[str, Any]] = None,
        name: Optional[str] = None,
    ):
        super().__init__(task_type, params, name)
        self._model = None
    def fit(
        self,
        X: pl.DataFrame,
        y: pl.Series,
        X_val: Optional[pl.DataFrame] = None,
        y_val: Optional[pl.Series] = None,
        **fit_params,
    ) -> "CatBoostModel":
        """训练模型"""
        try:
            from catboost import CatBoostClassifier, CatBoostRegressor
        except ImportError:
            raise ImportError(
                "catboost is required. Install with: uv pip install catboost"
            )
        if self.task_type == "classification":
            model_class = CatBoostClassifier
            default_params = {"loss_function": "Logloss", "eval_metric": "AUC"}
        elif self.task_type == "regression":
            model_class = CatBoostRegressor
            default_params = {"loss_function": "RMSE"}
        else:
            model_class = CatBoostRegressor
            default_params = {"loss_function": "QueryRMSE"}
        default_params.update(self.params)
        default_params["verbose"] = False
        self._model = model_class(**default_params)
        eval_set = None
        if X_val is not None and y_val is not None:
            eval_set = (X_val.to_pandas(), y_val.to_pandas())
        self._model.fit(
            X.to_pandas(),
            y.to_pandas(),
            eval_set=eval_set,
            early_stopping_rounds=fit_params.get("early_stopping_rounds", 10),
            verbose=False,
        )
        self._is_fitted = True
        return self
    def predict(self, X: pl.DataFrame) -> np.ndarray:
        """预测"""
        if not self._is_fitted:
            raise RuntimeError("Model not fitted yet")
        return self._model.predict(X.to_pandas())
    def predict_proba(self, X: pl.DataFrame) -> np.ndarray:
        """预测概率"""
        if self.task_type != "classification":
            raise ValueError("predict_proba only for classification")
        return self._model.predict_proba(X.to_pandas())
    def get_feature_importance(self) -> Optional[pl.DataFrame]:
        """获取特征重要性"""
        if self._model is None:
            return None
        return pl.DataFrame(
            {
                "feature": self._model.feature_names_,
                "importance": self._model.feature_importances_,
            }
        ).sort("importance", descending=True)
 __all__ = ["LightGBMModel", "CatBoostModel"]
--- a/src/models/pipeline.py
+++ b/src/models/pipeline.py
@@ -0,0 +1,70 @@
 """数据处理流水线
 管理多个处理器的顺序执行，支持阶段感知处理。
 """
 from typing import List, Dict
 import polars as pl
 from src.models.core import BaseProcessor, PipelineStage
 class ProcessingPipeline:
    """数据处理流水线
    按顺序执行多个处理器，自动处理阶段标记。
    关键特性：在测试阶段使用训练阶段学习到的参数，防止数据泄露。
    """
    def __init__(self, processors: List[BaseProcessor]):
        """初始化流水线
        Args:
            processors: 处理器列表（按执行顺序）
        """
        self.processors = processors
        self._fitted_processors: Dict[int, BaseProcessor] = {}
    def fit_transform(
        self, data: pl.DataFrame, stage: PipelineStage = PipelineStage.TRAIN
    ) -> pl.DataFrame:
        """在训练数据上fit所有处理器并transform"""
        result = data
        for i, processor in enumerate(self.processors):
            if processor.stage in [PipelineStage.ALL, stage]:
                result = processor.fit_transform(result)
                self._fitted_processors[i] = processor
            elif stage == PipelineStage.TRAIN and processor.stage == PipelineStage.TEST:
                processor.fit(result)
                self._fitted_processors[i] = processor
        return result
    def transform(
        self, data: pl.DataFrame, stage: PipelineStage = PipelineStage.TEST
    ) -> pl.DataFrame:
        """在测试数据上应用已fit的处理器"""
        result = data
        for i, processor in enumerate(self.processors):
            if processor.stage in [PipelineStage.ALL, stage]:
                if i in self._fitted_processors:
                    result = self._fitted_processors[i].transform(result)
                else:
                    result = processor.transform(result)
        return result
    def save_processors(self, path: str) -> None:
        """保存所有已fit的处理器状态"""
        import pickle
        with open(path, "wb") as f:
            pickle.dump(self._fitted_processors, f)
    def load_processors(self, path: str) -> None:
        """加载处理器状态"""
        import pickle
        with open(path, "rb") as f:
            self._fitted_processors = pickle.load(f)
 __all__ = ["ProcessingPipeline"]
--- a/src/models/processors/init.py
+++ b/src/models/processors/init.py
@@ -0,0 +1,21 @@
 """处理器模块"""
 from src.models.processors.processors import (
    DropNAProcessor,
    FillNAProcessor,
    Winsorizer,
    StandardScaler,
    MinMaxScaler,
    RankTransformer,
    Neutralizer,
 )
 __all__ = [
    "DropNAProcessor",
    "FillNAProcessor",
    "Winsorizer",
    "StandardScaler",
    "MinMaxScaler",
    "RankTransformer",
    "Neutralizer",
 ]
--- a/src/models/processors/processors.py
+++ b/src/models/processors/processors.py
@@ -0,0 +1,238 @@
 """内置数据处理器
 提供常用的数据预处理和转换处理器。
 """
 from typing import List, Optional, Dict, Any
 import polars as pl
 import numpy as np
 from src.models.core import BaseProcessor, PipelineStage
 from src.models.registry import PluginRegistry
 # 数值类型列表
 FLOAT_TYPES = [pl.Float32, pl.Float64, pl.Int8, pl.Int16, pl.Int32, pl.Int64]
 def _get_numeric_columns(
    data: pl.DataFrame, columns: Optional[List[str]] = None
 ) -> List[str]:
    """获取数值列"""
    if columns is not None:
        return columns
    return [c for c in data.columns if data[c].dtype in FLOAT_TYPES]
@PluginRegistry.register_processor("dropna")
 class DropNAProcessor(BaseProcessor):
    """缺失值删除处理器"""
    stage = PipelineStage.ALL
    def fit(self, data: pl.DataFrame) -> "DropNAProcessor":
        self._is_fitted = True
        return self
    def transform(self, data: pl.DataFrame) -> pl.DataFrame:
        cols = self.columns or data.columns
        return data.drop_nulls(subset=cols)
@PluginRegistry.register_processor("fillna")
 class FillNAProcessor(BaseProcessor):
    """缺失值填充处理器（只在训练阶段计算填充值）"""
    stage = PipelineStage.TRAIN
    def __init__(self, columns: Optional[List[str]] = None, method: str = "median"):
        super().__init__(columns)
        if method not in ["median", "mean", "zero"]:
            raise ValueError(f"Unknown fill method: {method}")
        self.method = method
    def fit(self, data: pl.DataFrame) -> "FillNAProcessor":
        cols = _get_numeric_columns(data, self.columns)
        fill_values = {}
        for col in cols:
            if self.method == "median":
                fill_values[col] = data[col].median()
            elif self.method == "mean":
                fill_values[col] = data[col].mean()
            elif self.method == "zero":
                fill_values[col] = 0.0
        self._fitted_params = {"fill_values": fill_values, "columns": cols}
        self._is_fitted = True
        return self
    def transform(self, data: pl.DataFrame) -> pl.DataFrame:
        result = data
        for col, val in self._fitted_params.get("fill_values", {}).items():
            if col in result.columns:
                result = result.with_columns(pl.col(col).fill_null(val).alias(col))
        return result
@PluginRegistry.register_processor("winsorizer")
 class Winsorizer(BaseProcessor):
    """缩尾处理器 - 防止极端值影响（只在训练阶段计算分位数）"""
    stage = PipelineStage.TRAIN
    def __init__(
        self,
        columns: Optional[List[str]] = None,
        lower: float = 0.01,
        upper: float = 0.99,
    ):
        super().__init__(columns)
        self.lower = lower
        self.upper = upper
    def fit(self, data: pl.DataFrame) -> "Winsorizer":
        cols = _get_numeric_columns(data, self.columns)
        bounds = {}
        for col in cols:
            bounds[col] = {
                "lower": data[col].quantile(self.lower),
                "upper": data[col].quantile(self.upper),
            }
        self._fitted_params = {"bounds": bounds, "columns": cols}
        self._is_fitted = True
        return self
    def transform(self, data: pl.DataFrame) -> pl.DataFrame:
        result = data
        for col, bounds in self._fitted_params.get("bounds", {}).items():
            if col in result.columns:
                result = result.with_columns(
                    pl.col(col).clip(bounds["lower"], bounds["upper"]).alias(col)
                )
        return result
@PluginRegistry.register_processor("standard_scaler")
 class StandardScaler(BaseProcessor):
    """标准化处理器 - Z-score标准化"""
    stage = PipelineStage.ALL
    def fit(self, data: pl.DataFrame) -> "StandardScaler":
        cols = _get_numeric_columns(data, self.columns)
        stats = {}
        for col in cols:
            stats[col] = {"mean": data[col].mean(), "std": data[col].std()}
        self._fitted_params = {"stats": stats, "columns": cols}
        self._is_fitted = True
        return self
    def transform(self, data: pl.DataFrame) -> pl.DataFrame:
        result = data
        for col, stats in self._fitted_params.get("stats", {}).items():
            if col in result.columns and stats["std"] is not None and stats["std"] > 0:
                result = result.with_columns(
                    ((pl.col(col) - stats["mean"]) / stats["std"]).alias(col)
                )
        return result
@PluginRegistry.register_processor("minmax_scaler")
 class MinMaxScaler(BaseProcessor):
    """归一化处理器 - 缩放到[0, 1]范围"""
    stage = PipelineStage.ALL
    def fit(self, data: pl.DataFrame) -> "MinMaxScaler":
        cols = _get_numeric_columns(data, self.columns)
        stats = {}
        for col in cols:
            stats[col] = {"min": data[col].min(), "max": data[col].max()}
        self._fitted_params = {"stats": stats, "columns": cols}
        self._is_fitted = True
        return self
    def transform(self, data: pl.DataFrame) -> pl.DataFrame:
        result = data
        for col, stats in self._fitted_params.get("stats", {}).items():
            if col in result.columns:
                range_val = stats["max"] - stats["min"]
                if range_val is not None and range_val > 0:
                    result = result.with_columns(
                        ((pl.col(col) - stats["min"]) / range_val).alias(col)
                    )
        return result
@PluginRegistry.register_processor("rank_transformer")
 class RankTransformer(BaseProcessor):
    """排名转换处理器 - 转换为截面排名"""
    stage = PipelineStage.ALL
    def fit(self, data: pl.DataFrame) -> "RankTransformer":
        self._is_fitted = True
        return self
    def transform(self, data: pl.DataFrame) -> pl.DataFrame:
        result = data
        cols = self.columns or _get_numeric_columns(data)
        for col in cols:
            if col in result.columns:
                result = result.with_columns(
                    pl.col(col).rank().over("trade_date").alias(col)
                )
        return result
@PluginRegistry.register_processor("neutralizer")
 class Neutralizer(BaseProcessor):
    """中性化处理器 - 行业/市值中性化"""
    stage = PipelineStage.ALL
    def __init__(
        self,
        columns: Optional[List[str]] = None,
        group_col: str = "industry",
        exclude_cols: Optional[List[str]] = None,
    ):
        super().__init__(columns)
        self.group_col = group_col
        self.exclude_cols = exclude_cols or []
    def fit(self, data: pl.DataFrame) -> "Neutralizer":
        self._is_fitted = True
        return self
    def transform(self, data: pl.DataFrame) -> pl.DataFrame:
        result = data
        cols = self.columns or _get_numeric_columns(data)
        for col in cols:
            if col in result.columns and col not in self.exclude_cols:
                result = result.with_columns(
                    (
                        pl.col(col)
                        - pl.col(col).mean().over(["trade_date", self.group_col])
                    ).alias(col)
                )
        return result
 __all__ = [
    "DropNAProcessor",
    "FillNAProcessor",
    "Winsorizer",
    "StandardScaler",
    "MinMaxScaler",
    "RankTransformer",
    "Neutralizer",
 ]
--- a/src/models/registry.py
+++ b/src/models/registry.py
@@ -0,0 +1,297 @@
 """插件注册中心
 提供装饰器方式注册处理器、模型、划分策略等组件。
 实现真正的插件式架构 - 新功能只需注册即可使用。
 示例:
    >>> @PluginRegistry.register_processor("standard_scaler")
    ... class StandardScaler(BaseProcessor):
    ...     pass
    >>> # 使用
    >>> scaler = PluginRegistry.get_processor("standard_scaler")()
 """
 from typing import Type, Dict, List, TypeVar, Optional
 from functools import wraps
 from weakref import WeakValueDictionary
 import contextlib
 from src.models.core import BaseProcessor, BaseModel, BaseSplitter, BaseMetric
 T = TypeVar("T")
 class PluginRegistry:
    """插件注册中心
    管理所有组件的注册和获取。使用装饰器方式注册新组件。
    Attributes:
        _processors: 已注册的处理器字典
        _models: 已注册的模型字典
        _splitters: 已注册的划分策略字典
        _metrics: 已注册的评估指标字典
    """
    _processors: Dict[str, Type[BaseProcessor]] = {}
    _models: Dict[str, Type[BaseModel]] = {}
    _splitters: Dict[str, Type[BaseSplitter]] = {}
    _metrics: Dict[str, Type[BaseMetric]] = {}
    @classmethod
    @contextlib.contextmanager
    def temp_registry(cls):
        """临时注册上下文管理器
        在上下文管理器内部注册的组件会在退出时自动清理，
        避免测试之间的状态污染。
        示例:
            >>> with PluginRegistry.temp_registry():
            ...     @PluginRegistry.register_processor("temp_processor")
            ...     class TempProcessor(BaseProcessor):
            ...         pass
            ...     # 在此处可以使用 temp_processor
            ... # 退出后自动清理
        """
        original_state = {
            "_processors": cls._processors.copy(),
            "_models": cls._models.copy(),
            "_splitters": cls._splitters.copy(),
            "_metrics": cls._metrics.copy(),
        }
        try:
            yield cls
        finally:
            cls._processors = original_state["_processors"]
            cls._models = original_state["_models"]
            cls._splitters = original_state["_splitters"]
            cls._metrics = original_state["_metrics"]
    @classmethod
    def register_processor(cls, name: Optional[str] = None):
        """注册处理器装饰器
        用于装饰器方式注册数据处理器。
        示例:
            >>> @PluginRegistry.register_processor("standard_scaler")
            ... class StandardScaler(BaseProcessor):
            ...     pass
            >>> # 获取并使用
            >>> scaler_class = PluginRegistry.get_processor("standard_scaler")
            >>> scaler = scaler_class()
        Args:
            name: 注册名称，默认为类名
        Returns:
            装饰器函数
        """
        def decorator(processor_class: Type[BaseProcessor]) -> Type[BaseProcessor]:
            key = name or processor_class.__name__
            cls._processors[key] = processor_class
            processor_class._registry_name = key
            return processor_class
        return decorator
    @classmethod
    def register_model(cls, name: Optional[str] = None):
        """注册模型装饰器
        用于装饰器方式注册机器学习模型。
        示例:
            >>> @PluginRegistry.register_model("lightgbm")
            ... class LightGBMModel(BaseModel):
            ...     pass
        Args:
            name: 注册名称，默认为类名
        Returns:
            装饰器函数
        """
        def decorator(model_class: Type[BaseModel]) -> Type[BaseModel]:
            key = name or model_class.__name__
            cls._models[key] = model_class
            model_class._registry_name = key
            return model_class
        return decorator
    @classmethod
    def register_splitter(cls, name: Optional[str] = None):
        """注册划分策略装饰器
        用于装饰器方式注册数据划分策略。
        示例:
            >>> @PluginRegistry.register_splitter("time_series")
            ... class TimeSeriesSplit(BaseSplitter):
            ...     pass
        Args:
            name: 注册名称，默认为类名
        Returns:
            装饰器函数
        """
        def decorator(splitter_class: Type[BaseSplitter]) -> Type[BaseSplitter]:
            key = name or splitter_class.__name__
            cls._splitters[key] = splitter_class
            splitter_class._registry_name = key
            return splitter_class
        return decorator
    @classmethod
    def register_metric(cls, name: Optional[str] = None):
        """注册评估指标装饰器
        用于装饰器方式注册评估指标。
        示例:
            >>> @PluginRegistry.register_metric("ic")
            ... class ICMetric(BaseMetric):
            ...     pass
        Args:
            name: 注册名称，默认为类名
        Returns:
            装饰器函数
        """
        def decorator(metric_class: Type[BaseMetric]) -> Type[BaseMetric]:
            key = name or metric_class.__name__
            cls._metrics[key] = metric_class
            metric_class._registry_name = key
            return metric_class
        return decorator
    @classmethod
    def get_processor(cls, name: str) -> Type[BaseProcessor]:
        """获取处理器类
        Args:
            name: 处理器注册名称
        Returns:
            处理器类
        Raises:
            KeyError: 处理器不存在时抛出
        """
        if name not in cls._processors:
            available = list(cls._processors.keys())
            raise KeyError(f"Processor '{name}' not found. Available: {available}")
        return cls._processors[name]
    @classmethod
    def get_model(cls, name: str) -> Type[BaseModel]:
        """获取模型类
        Args:
            name: 模型注册名称
        Returns:
            模型类
        Raises:
            KeyError: 模型不存在时抛出
        """
        if name not in cls._models:
            available = list(cls._models.keys())
            raise KeyError(f"Model '{name}' not found. Available: {available}")
        return cls._models[name]
    @classmethod
    def get_splitter(cls, name: str) -> Type[BaseSplitter]:
        """获取划分策略类
        Args:
            name: 划分策略注册名称
        Returns:
            划分策略类
        Raises:
            KeyError: 划分策略不存在时抛出
        """
        if name not in cls._splitters:
            available = list(cls._splitters.keys())
            raise KeyError(f"Splitter '{name}' not found. Available: {available}")
        return cls._splitters[name]
    @classmethod
    def get_metric(cls, name: str) -> Type[BaseMetric]:
        """获取评估指标类
        Args:
            name: 评估指标注册名称
        Returns:
            评估指标类
        Raises:
            KeyError: 评估指标不存在时抛出
        """
        if name not in cls._metrics:
            available = list(cls._metrics.keys())
            raise KeyError(f"Metric '{name}' not found. Available: {available}")
        return cls._metrics[name]
    @classmethod
    def list_processors(cls) -> List[str]:
        """列出所有可用处理器
        Returns:
            处理器名称列表
        """
        return list(cls._processors.keys())
    @classmethod
    def list_models(cls) -> List[str]:
        """列出所有可用模型
        Returns:
            模型名称列表
        """
        return list(cls._models.keys())
    @classmethod
    def list_splitters(cls) -> List[str]:
        """列出所有可用划分策略
        Returns:
            划分策略名称列表
        """
        return list(cls._splitters.keys())
    @classmethod
    def list_metrics(cls) -> List[str]:
        """列出所有可用评估指标
        Returns:
            评估指标名称列表
        """
        return list(cls._metrics.keys())
    @classmethod
    def clear_all(cls) -> None:
        """清除所有注册（主要用于测试）"""
        cls._processors.clear()
        cls._models.clear()
        cls._splitters.clear()
        cls._metrics.clear()
 __all__ = ["PluginRegistry"]
--- a/tests/models/test_core.py
+++ b/tests/models/test_core.py
@@ -0,0 +1,478 @@
 """模型框架核心测试
 测试核心抽象类、插件注册中心、处理器、模型和划分策略。
 """
 import pytest
 import polars as pl
 import numpy as np
 from typing import List, Optional
 # 确保导入时注册所有组件
 from src.models import (
    PluginRegistry,
    PipelineStage,
    BaseProcessor,
    BaseModel,
    BaseSplitter,
    ProcessingPipeline,
 )
 from src.models.core import TaskType
 # ========== 测试核心抽象类 ==========
 class TestPipelineStage:
    """测试阶段枚举"""
    def test_stage_values(self):
        assert PipelineStage.ALL.name == "ALL"
        assert PipelineStage.TRAIN.name == "TRAIN"
        assert PipelineStage.TEST.name == "TEST"
        assert PipelineStage.VALIDATION.name == "VALIDATION"
 class TestBaseProcessor:
    """测试处理器基类"""
    def test_processor_initialization(self):
        """测试处理器初始化"""
        class DummyProcessor(BaseProcessor):
            stage = PipelineStage.ALL
            def fit(self, data: pl.DataFrame) -> "DummyProcessor":
                self._is_fitted = True
                return self
            def transform(self, data: pl.DataFrame) -> pl.DataFrame:
                return data
        processor = DummyProcessor(columns=["col1", "col2"])
        assert processor.columns == ["col1", "col2"]
        assert processor.stage == PipelineStage.ALL
        assert not processor._is_fitted
    def test_processor_fit_transform(self):
        """测试 fit_transform 方法"""
        class AddOneProcessor(BaseProcessor):
            stage = PipelineStage.ALL
            def fit(self, data: pl.DataFrame) -> "AddOneProcessor":
                self._is_fitted = True
                return self
            def transform(self, data: pl.DataFrame) -> pl.DataFrame:
                result = data.clone()
                for col in self.columns or []:
                    result = result.with_columns((pl.col(col) + 1).alias(col))
                return result
        processor = AddOneProcessor(columns=["value"])
        df = pl.DataFrame({"value": [1, 2, 3]})
        result = processor.fit_transform(df)
        assert processor._is_fitted
        assert result["value"].to_list() == [2, 3, 4]
 class TestBaseModel:
    """测试模型基类"""
    def test_model_initialization(self):
        """测试模型初始化"""
        class DummyModel(BaseModel):
            def fit(self, X, y, X_val=None, y_val=None, **kwargs):
                self._is_fitted = True
                return self
            def predict(self, X):
                return np.zeros(len(X))
        model = DummyModel(
            task_type="regression", params={"lr": 0.01}, name="test_model"
        )
        assert model.task_type == "regression"
        assert model.params == {"lr": 0.01}
        assert model.name == "test_model"
        assert not model._is_fitted
    def test_predict_proba_not_implemented(self):
        """测试未实现 predict_proba 时抛出异常"""
        class DummyModel(BaseModel):
            def fit(self, X, y, X_val=None, y_val=None, **kwargs):
                return self
            def predict(self, X):
                return np.zeros(len(X))
        model = DummyModel(task_type="regression")
        df = pl.DataFrame({"feature": [1, 2, 3]})
        with pytest.raises(NotImplementedError):
            model.predict_proba(df)
 class TestBaseSplitter:
    """测试划分策略基类"""
    def test_splitter_interface(self):
        """测试划分策略接口"""
        class DummySplitter(BaseSplitter):
            def split(self, data, date_col="trade_date"):
                yield [0, 1], [2, 3]
            def get_split_dates(self, data, date_col="trade_date"):
                return [("20200101", "20201231", "20210101", "20211231")]
        splitter = DummySplitter()
        df = pl.DataFrame(
            {"trade_date": ["20200101", "20200601", "20210101", "20210601"]}
        )
        splits = list(splitter.split(df))
        assert len(splits) == 1
        assert splits[0] == ([0, 1], [2, 3])
        dates = splitter.get_split_dates(df)
        assert dates == [("20200101", "20201231", "20210101", "20211231")]
 # ========== 测试插件注册中心 ==========
 class TestPluginRegistry:
    """测试插件注册中心"""
    def setup_method(self):
        """每个测试前清除注册"""
        PluginRegistry.clear_all()
    def test_register_and_get_processor(self):
        """测试注册和获取处理器"""
        @PluginRegistry.register_processor("test_processor")
        class TestProcessor(BaseProcessor):
            stage = PipelineStage.ALL
            def fit(self, data):
                return self
            def transform(self, data):
                return data
        processor_class = PluginRegistry.get_processor("test_processor")
        assert processor_class == TestProcessor
        assert "test_processor" in PluginRegistry.list_processors()
    def test_register_and_get_model(self):
        """测试注册和获取模型"""
        @PluginRegistry.register_model("test_model")
        class TestModel(BaseModel):
            def fit(self, X, y, X_val=None, y_val=None, **kwargs):
                return self
            def predict(self, X):
                return np.zeros(len(X))
        model_class = PluginRegistry.get_model("test_model")
        assert model_class == TestModel
        assert "test_model" in PluginRegistry.list_models()
    def test_register_and_get_splitter(self):
        """测试注册和获取划分策略"""
        @PluginRegistry.register_splitter("test_splitter")
        class TestSplitter(BaseSplitter):
            def split(self, data, date_col="trade_date"):
                yield [], []
            def get_split_dates(self, data, date_col="trade_date"):
                return []
        splitter_class = PluginRegistry.get_splitter("test_splitter")
        assert splitter_class == TestSplitter
        assert "test_splitter" in PluginRegistry.list_splitters()
    def test_get_nonexistent_processor(self):
        """测试获取不存在的处理器时抛出异常"""
        with pytest.raises(KeyError) as exc_info:
            PluginRegistry.get_processor("nonexistent")
        assert "nonexistent" in str(exc_info.value)
    def test_register_with_default_name(self):
        """测试使用默认名称注册"""
        @PluginRegistry.register_processor()
        class MyCustomProcessor(BaseProcessor):
            stage = PipelineStage.ALL
            def fit(self, data):
                return self
            def transform(self, data):
                return data
        assert "MyCustomProcessor" in PluginRegistry.list_processors()
 # ========== 测试内置处理器 ==========
 class TestBuiltInProcessors:
    """测试内置处理器"""
    def test_dropna_processor(self):
        """测试缺失值删除处理器"""
        from src.models.processors import DropNAProcessor
        processor = DropNAProcessor(columns=["a", "b"])
        df = pl.DataFrame({"a": [1, None, 3], "b": [4, 5, None], "c": [7, 8, 9]})
        result = processor.fit_transform(df)
        # 只有第一行没有缺失值
        assert len(result) == 1
        assert result["a"].to_list() == [1]
        assert result["b"].to_list() == [4]
    def test_fillna_processor(self):
        """测试缺失值填充处理器"""
        from src.models.processors import FillNAProcessor
        processor = FillNAProcessor(columns=["a"], method="mean")
        df = pl.DataFrame({"a": [1.0, 2.0, None, 4.0]})
        result = processor.fit_transform(df)
        # 均值 = (1+2+4)/3 = 2.333...
        assert result["a"][2] == pytest.approx(2.333, rel=0.01)
    def test_standard_scaler(self):
        """测试标准化处理器"""
        from src.models.processors import StandardScaler
        processor = StandardScaler(columns=["value"])
        df = pl.DataFrame({"value": [1.0, 2.0, 3.0, 4.0, 5.0]})
        result = processor.fit_transform(df)
        # Z-score 标准化后均值为0，标准差为1
        assert result["value"].mean() == pytest.approx(0.0, abs=1e-10)
        assert result["value"].std() == pytest.approx(1.0, rel=0.01)
    def test_winsorizer(self):
        """测试缩尾处理器"""
        from src.models.processors import Winsorizer
        processor = Winsorizer(columns=["value"], lower=0.1, upper=0.9)
        df = pl.DataFrame(
            {
                "value": list(range(100))  # 0-99
            }
        )
        result = processor.fit_transform(df)
        # 10%和90%分位数应该是10和89（Polars的quantile行为）
        assert result["value"].min() == 10
        assert result["value"].max() == 89
    def test_rank_transformer(self):
        """测试排名转换处理器"""
        from src.models.processors import RankTransformer
        processor = RankTransformer(columns=["value"])
        df = pl.DataFrame(
            {"trade_date": ["20200101"] * 5, "value": [10, 30, 20, 50, 40]}
        )
        result = processor.fit_transform(df)
        # 排名应该是 1, 3, 2, 5, 4
        assert result["value"].to_list() == [1, 3, 2, 5, 4]
    def test_neutralizer(self):
        """测试中性化处理器"""
        from src.models.processors import Neutralizer
        processor = Neutralizer(columns=["value"], group_col="industry")
        df = pl.DataFrame(
            {
                "trade_date": ["20200101", "20200101", "20200101", "20200101"],
                "industry": ["A", "A", "B", "B"],
                "value": [10, 20, 30, 50],
            }
        )
        result = processor.fit_transform(df)
        # 分组去均值后，每组的均值为0
        group_a = result.filter(pl.col("industry") == "A")
        group_b = result.filter(pl.col("industry") == "B")
        assert group_a["value"].mean() == pytest.approx(0.0, abs=1e-10)
        assert group_b["value"].mean() == pytest.approx(0.0, abs=1e-10)
 # ========== 测试处理流水线 ==========
 class TestProcessingPipeline:
    """测试处理流水线"""
    def test_pipeline_fit_transform(self):
        """测试流水线的 fit_transform"""
        from src.models.processors import StandardScaler
        scaler1 = StandardScaler(columns=["a"])
        scaler2 = StandardScaler(columns=["b"])
        pipeline = ProcessingPipeline([scaler1, scaler2])
        df = pl.DataFrame({"a": [1.0, 2.0, 3.0], "b": [10.0, 20.0, 30.0]})
        result = pipeline.fit_transform(df)
        # 两个列都应该被标准化
        assert result["a"].mean() == pytest.approx(0.0, abs=1e-10)
        assert result["b"].mean() == pytest.approx(0.0, abs=1e-10)
    def test_pipeline_transform_uses_fitted_params(self):
        """测试 transform 使用已 fit 的参数"""
        from src.models.processors import StandardScaler
        scaler = StandardScaler(columns=["value"])
        pipeline = ProcessingPipeline([scaler])
        # 训练数据
        train_df = pl.DataFrame(
            {
                "value": [1.0, 2.0, 3.0]  # 均值=2，标准差=1
            }
        )
        # 测试数据（不同的分布）
        test_df = pl.DataFrame(
            {
                "value": [4.0, 5.0, 6.0]  # 如果重新计算应该是均值=5
            }
        )
        pipeline.fit_transform(train_df)
        result = pipeline.transform(test_df)
        # 使用训练数据的均值=2和标准差=1进行标准化
        # 4 -> (4-2)/1 = 2
        assert result["value"].to_list()[0] == pytest.approx(2.0, abs=1e-10)
 # ========== 测试划分策略 ==========
 class TestSplitters:
    """测试划分策略"""
    def test_time_series_split(self):
        """测试时间序列划分"""
        from src.models.core import TimeSeriesSplit
        splitter = TimeSeriesSplit(n_splits=2, gap=1, min_train_size=3)
        # 10天的数据
        df = pl.DataFrame(
            {
                "trade_date": [f"202001{i:02d}" for i in range(1, 11)],
                "value": list(range(10)),
            }
        )
        splits = list(splitter.split(df))
        # 应该有两折
        assert len(splits) == 2
        # 检查每折训练集在测试集之前
        for train_idx, test_idx in splits:
            assert max(train_idx) < min(test_idx)
    def test_walk_forward_split(self):
        """测试滚动前向划分"""
        from src.models.core import WalkForwardSplit
        splitter = WalkForwardSplit(train_window=5, test_window=2, gap=1)
        df = pl.DataFrame(
            {
                "trade_date": [f"202001{i:02d}" for i in range(1, 13)],
                "value": list(range(12)),
            }
        )
        splits = list(splitter.split(df))
        # 检查训练集大小固定
        for train_idx, test_idx in splits:
            assert len(train_idx) == 5
            assert len(test_idx) == 2
    def test_expanding_window_split(self):
        """测试扩展窗口划分"""
        from src.models.core import ExpandingWindowSplit
        splitter = ExpandingWindowSplit(initial_train_size=3, test_window=2, gap=1)
        df = pl.DataFrame(
            {
                "trade_date": [f"202001{i:02d}" for i in range(1, 15)],
                "value": list(range(14)),
            }
        )
        splits = list(splitter.split(df))
        # 训练集应该逐渐增大
        train_sizes = [len(train_idx) for train_idx, _ in splits]
        assert train_sizes[0] == 3
        assert train_sizes[1] == 5  # 3 + 2
        assert train_sizes[2] == 7  # 5 + 2
 # ========== 测试内置模型（可选，需要安装依赖） ==========
 class TestModels:
    """测试内置模型（标记为跳过如果依赖未安装）"""
    @pytest.mark.skip(reason="需要安装 lightgbm")
    def test_lightgbm_model(self):
        """测试 LightGBM 模型"""
        from src.models.models import LightGBMModel
        model = LightGBMModel(task_type="regression", params={"n_estimators": 10})
        X = pl.DataFrame(
            {
                "feature1": [1.0, 2.0, 3.0, 4.0, 5.0] * 10,
                "feature2": [5.0, 4.0, 3.0, 2.0, 1.0] * 10,
            }
        )
        y = pl.Series("target", [1.0, 2.0, 3.0, 4.0, 5.0] * 10)
        model.fit(X, y)
        predictions = model.predict(X)
        assert len(predictions) == len(X)
        assert model._is_fitted
 if __name__ == "__main__":
    pytest.main([__file__, "-v"])