feat(training): 实现 train/val/test 三分法并添加训练指标可视化

- DateSplitter 支持三分法划分，修复 test 数据泄露问题 - 添加训练指标曲线绘制和100轮早停
2026-03-08 01:09:47 +08:00
parent 85044a74c6
commit 592126c376
2 changed files with 551 additions and 226 deletions
--- a/src/experiment/regression.ipynb
+++ b/src/experiment/regression.ipynb
--- a/src/training/components/splitters.py
+++ b/src/training/components/splitters.py
@@ -1,30 +1,39 @@
 """数据划分器
-提供基于日期范围的数据划分功能，支持一次性训练/测试划分。
+提供基于日期范围的数据划分功能，支持 train/val/test 三分法。
 """
-from typing import Tuple
+from typing import Tuple, Optional
 import polars as pl
 class DateSplitter:
-    """基于日期范围的一次性划分
+    """基于日期范围的一次性划分（支持 train/val/test 三分法）
-    将数据按日期划分为训练集和测试集，不滚动。
+    将数据按日期划分为训练集、验证集和测试集，不滚动。
    正确的三分法：
        - Train: 用于训练模型参数
        - Val: 用于验证/早停/调参（从训练时间后切出）
        - Test: 仅用于最终评估，完全独立于训练过程
    示例:
-        train_start: "20200101", train_end: "20221231"  (训练集：3年)
+        train_start: "20200101", train_end: "20211231"  (训练集：2年)
        val_start: "20220101", val_end: "20221231"      (验证集：1年)
        test_start: "20230101", test_end: "20231231"    (测试集：1年)
    特点:
        - 一次性划分，不滚动
-        - 训练集和测试集互不重叠
+        - 训练集、验证集、测试集三者互不重叠
        - 验证集和测试集按时间顺序位于训练集之后
        - 基于实际日期范围，而非行数
    Attributes:
        train_start: 训练期开始日期，格式 "YYYYMMDD"
        train_end: 训练期结束日期，格式 "YYYYMMDD"
        val_start: 验证期开始日期，格式 "YYYYMMDD"（可选）
        val_end: 验证期结束日期，格式 "YYYYMMDD"（可选）
        test_start: 测试期开始日期，格式 "YYYYMMDD"
        test_end: 测试期结束日期，格式 "YYYYMMDD"
    """
@@ -35,6 +44,8 @@ class DateSplitter:
        train_end: str,
        test_start: str,
        test_end: str,
        val_start: Optional[str] = None,
        val_end: Optional[str] = None,
    ):
        """初始化日期划分器
@@ -43,17 +54,31 @@ class DateSplitter:
            train_end: 训练期结束日期 "YYYYMMDD"
            test_start: 测试期开始日期 "YYYYMMDD"
            test_end: 测试期结束日期 "YYYYMMDD"
            val_start: 验证期开始日期 "YYYYMMDD"（可选，如果不提供则从 train 中划分）
            val_end: 验证期结束日期 "YYYYMMDD"（可选，如果不提供则从 train 中划分）
        Raises:
            ValueError: 日期格式错误或日期范围无效
        Note:
            正确的三分法：
            - Train: 用于训练模型参数
            - Val: 用于验证/早停/调参（必须位于 train 之后、test 之前）
            - Test: 仅用于最终评估，完全独立于训练过程
        """
        # 验证日期格式（简单的长度检查）
-        for name, value in [
+        dates_to_check = [
            ("train_start", train_start),
            ("train_end", train_end),
            ("test_start", test_start),
            ("test_end", test_end),
-        ]:
+        ]
        if val_start is not None:
            dates_to_check.append(("val_start", val_start))
        if val_end is not None:
            dates_to_check.append(("val_end", val_end))
        for name, value in dates_to_check:
            if not isinstance(value, str) or len(value) != 8:
                raise ValueError(
                    f"{name} 必须是格式为 'YYYYMMDD' 的8位字符串，得到: {value}"
@@ -68,31 +93,83 @@ class DateSplitter:
            raise ValueError(
                f"test_start ({test_start}) 必须早于或等于 test_end ({test_end})"
            )
-        if test_start <= train_end:
+
        # 验证 val 日期（如果提供了）
        if val_start is not None and val_end is not None:
            if val_start > val_end:
                raise ValueError(
-                f"测试集开始日期 ({test_start}) 必须晚于训练集结束日期 ({train_end})，"
+                    f"val_start ({val_start}) 必须早于或等于 val_end ({val_end})"
                "以确保训练集和测试集不重叠"
                )
            if val_start <= train_end:
                raise ValueError(
                    f"验证集开始日期 ({val_start}) 必须晚于训练集结束日期 ({train_end})，"
                    "以确保验证集在训练集之后"
                )
            if test_start <= val_end:
                raise ValueError(
                    f"测试集开始日期 ({test_start}) 必须晚于验证集结束日期 ({val_end})，"
                    "以确保测试集在验证集之后"
                )
        elif val_start is not None or val_end is not None:
            raise ValueError("val_start 和 val_end 必须同时提供或同时省略")
        # 如果没有提供 val 日期，自动从 train 后划分一段作为 val
        # 默认取 train 结束后的 20% 时间作为 val，但必须确保在 test 之前
        if val_start is None:
            # 计算 train 时间跨度（天数近似）
            from datetime import datetime
            train_start_dt = datetime.strptime(train_start, "%Y%m%d")
            train_end_dt = datetime.strptime(train_end, "%Y%m%d")
            test_start_dt = datetime.strptime(test_start, "%Y%m%d")
            train_days = (train_end_dt - train_start_dt).days
            val_duration = max(int(train_days * 0.2), 30)  # 至少30天
            val_start_dt = train_end_dt + __import__("datetime").timedelta(days=1)
            val_end_dt = val_start_dt + __import__("datetime").timedelta(
                days=val_duration
            )
            # 确保 val 在 test 之前
            if val_end_dt >= test_start_dt:
                # 取 train 和 test 之间的中点
                gap_days = (test_start_dt - train_end_dt).days
                val_end_dt = train_end_dt + __import__("datetime").timedelta(
                    days=gap_days // 2
                )
                val_start_dt = train_end_dt + __import__("datetime").timedelta(days=1)
            val_start = val_start_dt.strftime("%Y%m%d")
            val_end = min(val_end_dt.strftime("%Y%m%d"), test_start)
        self.train_start = train_start
        self.train_end = train_end
        self.val_start = val_start
        self.val_end = val_end
        self.test_start = test_start
        self.test_end = test_end
    def split(
        self, data: pl.DataFrame, date_col: str = "trade_date"
-    ) -> Tuple[pl.DataFrame, pl.DataFrame]:
+    ) -> Tuple[pl.DataFrame, pl.DataFrame, pl.DataFrame]:
-        """划分数据为训练集和测试集
+        """划分数据为训练集、验证集和测试集
        Args:
            data: 输入数据，必须包含日期列
            date_col: 日期列名，默认为 "trade_date"
        Returns:
-            (train_data, test_data) 元组
+            (train_data, val_data, test_data) 元组
        Raises:
            ValueError: 数据中不包含指定的日期列
        Note:
            正确的三分法：
            - train_data: 用于训练模型参数
            - val_data: 用于验证/早停/调参
            - test_data: 仅用于最终评估，完全独立于训练过程
        """
        if date_col not in data.columns:
            raise ValueError(f"数据中不包含列 '{date_col}'，可用列: {data.columns}")
@@ -103,20 +180,43 @@ class DateSplitter:
            & (pl.col(date_col) <= self.train_end)
        )
        # 筛选验证集数据
        val_data = data.filter(
            (pl.col(date_col) >= self.val_start) & (pl.col(date_col) <= self.val_end)
        )
        # 筛选测试集数据
        test_data = data.filter(
            (pl.col(date_col) >= self.test_start) & (pl.col(date_col) <= self.test_end)
        )
-        return train_data, test_data
+        return train_data, val_data, test_data
    def split_train_test(
        self, data: pl.DataFrame, date_col: str = "trade_date"
    ) -> Tuple[pl.DataFrame, pl.DataFrame]:
        """划分数据为训练集和测试集（验证集合并到训练集）
        适用于不需要验证集的场景，或者使用交叉验证的场景。
        Args:
            data: 输入数据，必须包含日期列
            date_col: 日期列名，默认为 "trade_date"
        Returns:
            (train_val_data, test_data) 元组，其中 train_val_data 包含 train + val
        """
        train_data, val_data, test_data = self.split(data, date_col)
        # 合并 train 和 val
        train_val_data = pl.concat([train_data, val_data])
        return train_val_data, test_data
    def __repr__(self) -> str:
        """返回划分器的字符串表示"""
        return (
            f"DateSplitter("
-            f"train_start='{self.train_start}', "
+            f"train='{self.train_start}-{self.train_end}', "
-            f"train_end='{self.train_end}', "
+            f"val='{self.val_start}-{self.val_end}', "
-            f"test_start='{self.test_start}', "
+            f"test='{self.test_start}-{self.test_end}'"
            f"test_end='{self.test_end}'"
            f")"
        )