feat(factors): 新增公式解析基础组件

新增公式解析相关模块，支持将字符串表达式解析为 DSL 节点树： - exceptions.py: 定义公式解析异常体系 - FormulaParseError 基类，提供位置指示的错误信息 - UnknownFunctionError 支持模糊匹配建议 - InvalidSyntaxError、EmptyExpressionError 等具体异常 - parser.py: 基于 Python ast 的公式解析器 - 支持符号引用、数值常量、二元/一元运算 - 支持函数调用和比较运算 - 常量折叠优化 - registry.py: 函数注册表 - 支持动态注册和查询公式函数 - 提供可用函数列表和重复注册检查
refactor(factors): 拆分 engine.py 为模块化包
2026-03-03 00:04:48 +08:00 · 2026-03-02 22:29:18 +08:00 · 2026-03-02 22:21:43 +08:00
11 changed files with 2026 additions and 817 deletions
--- a/src/factors/init.py
+++ b/src/factors/init.py
@@ -52,6 +52,22 @@ from src.factors.engine import (
    ComputeEngine,
 )
 from src.factors.parser import FormulaParser
 from src.factors.registry import FunctionRegistry
 from src.factors.exceptions import (
    FormulaParseError,
    UnknownFunctionError,
    InvalidSyntaxError,
    EmptyExpressionError,
    RegistryError,
    DuplicateFunctionError,
 )
 # 保持向后兼容：factor_engine.py 中的类也可以通过 src.factors.engine 访问
 # 例如：from src.factors.engine import FactorEngine
 __all__ = [
    # DSL 层
    "Node",
@@ -73,4 +89,15 @@ __all__ = [
    "DataRouter",
    "ExecutionPlanner",
    "ComputeEngine",
    # 解析器 (Phase 1 新增)
    "FormulaParser",
    # 注册表 (Phase 1 新增)
    "FunctionRegistry",
    # 异常类 (Phase 1 新增)
    "FormulaParseError",
    "UnknownFunctionError",
    "InvalidSyntaxError",
    "EmptyExpressionError",
    "RegistryError",
    "DuplicateFunctionError",
 ]
--- a/src/factors/engine.py
+++ b/src/factors/engine.py
@@ -1,817 +0,0 @@
 """FactorEngine - 因子计算引擎统一入口。
 提供从表达式注册到结果输出的完整执行链路：
 接收研究员的表达式 -> 调用编译器解析依赖 -> 调用路由器连接数据库拉取并组装核心宽表
 -> 调用翻译器生成物理执行计划 -> 将计划提交给计算引擎执行并行运算。
 """
 from __future__ import annotations
 from dataclasses import dataclass, field
 from typing import Any, Dict, List, Optional, Set, Union
 from concurrent.futures import ProcessPoolExecutor, ThreadPoolExecutor
 import threading
 import polars as pl
 from src.factors.dsl import (
    Node,
    Symbol,
    FunctionNode,
    BinaryOpNode,
    UnaryOpNode,
    Constant,
 )
 from src.factors.compiler import DependencyExtractor
 from src.factors.translator import PolarsTranslator
 from src.data.storage import Storage
@dataclass
 class DataSpec:
    """数据规格定义。
    描述因子计算所需的数据表和字段。
    Attributes:
        table: 数据表名称
        columns: 需要的字段列表
        lookback_days: 回看天数（用于时序计算）
    """
    table: str
    columns: List[str]
    lookback_days: int = 1
@dataclass
 class ExecutionPlan:
    """执行计划。
    包含完整的执行所需信息：数据源、转换逻辑、输出格式。
    Attributes:
        data_specs: 数据规格列表
        polars_expr: Polars 表达式
        dependencies: 依赖的原始字段
        output_name: 输出因子名称
    """
    data_specs: List[DataSpec]
    polars_expr: pl.Expr
    dependencies: Set[str]
    output_name: str
 class DataRouter:
    """数据路由器 - 按需取数、组装核心宽表。
    负责根据数据规格从数据源拉取数据，并组装成统一的宽表格式。
    支持内存数据源（用于测试）和真实数据库连接。
    Attributes:
        data_source: 数据源，可以是内存 DataFrame 字典或数据库连接
        is_memory_mode: 是否为内存模式
    """
    def __init__(self, data_source: Optional[Dict[str, pl.DataFrame]] = None) -> None:
        """初始化数据路由器。
        Args:
            data_source: 内存数据源，字典格式 {表名: DataFrame}
                        为 None 时自动连接 DuckDB 数据库
        """
        self.data_source = data_source or {}
        self.is_memory_mode = data_source is not None
        self._cache: Dict[str, pl.DataFrame] = {}
        self._lock = threading.Lock()
        # 数据库模式下初始化 Storage
        if not self.is_memory_mode:
            self._storage = Storage()
        else:
            self._storage = None
    def fetch_data(
        self,
        data_specs: List[DataSpec],
        start_date: str,
        end_date: str,
        stock_codes: Optional[List[str]] = None,
    ) -> pl.DataFrame:
        """根据数据规格获取并组装核心宽表。
        Args:
            data_specs: 数据规格列表
            start_date: 开始日期 (YYYYMMDD)
            end_date: 结束日期 (YYYYMMDD)
            stock_codes: 股票代码列表，None 表示全市场
        Returns:
            组装好的核心宽表 DataFrame
        Raises:
            ValueError: 当数据源中缺少必要的表或字段时
        """
        if not data_specs:
            raise ValueError("数据规格不能为空")
        # 收集所有需要的表和字段
        required_tables: Dict[str, Set[str]] = {}
        max_lookback = 0
        for spec in data_specs:
            if spec.table not in required_tables:
                required_tables[spec.table] = set()
            required_tables[spec.table].update(spec.columns)
            max_lookback = max(max_lookback, spec.lookback_days)
        # 调整日期范围以包含回看期
        adjusted_start = self._adjust_start_date(start_date, max_lookback)
        # 从数据源获取各表数据
        table_data = {}
        for table_name, columns in required_tables.items():
            df = self._load_table(
                table_name=table_name,
                columns=list(columns),
                start_date=adjusted_start,
                end_date=end_date,
                stock_codes=stock_codes,
            )
            table_data[table_name] = df
        # 组装核心宽表
        core_table = self._assemble_wide_table(table_data, required_tables)
        # 过滤到实际请求日期范围
        core_table = core_table.filter(
            (pl.col("trade_date") >= start_date) & (pl.col("trade_date") <= end_date)
        )
        return core_table
    def _load_table(
        self,
        table_name: str,
        columns: List[str],
        start_date: str,
        end_date: str,
        stock_codes: Optional[List[str]] = None,
    ) -> pl.DataFrame:
        """加载单个表的数据。
        Args:
            table_name: 表名
            columns: 需要的字段
            start_date: 开始日期
            end_date: 结束日期
            stock_codes: 股票代码过滤
        Returns:
            过滤后的 DataFrame
        """
        cache_key = f"{table_name}_{start_date}_{end_date}_{stock_codes}"
        with self._lock:
            if cache_key in self._cache:
                return self._cache[cache_key]
        if self.is_memory_mode:
            df = self._load_from_memory(
                table_name, columns, start_date, end_date, stock_codes
            )
        else:
            df = self._load_from_database(
                table_name, columns, start_date, end_date, stock_codes
            )
        with self._lock:
            self._cache[cache_key] = df
        return df
    def _load_from_memory(
        self,
        table_name: str,
        columns: List[str],
        start_date: str,
        end_date: str,
        stock_codes: Optional[List[str]] = None,
    ) -> pl.DataFrame:
        """从内存数据源加载数据。"""
        if table_name not in self.data_source:
            raise ValueError(f"内存数据源中缺少表: {table_name}")
        df = self.data_source[table_name]
        # 确保必需字段存在
        for col in columns:
            if col not in df.columns and col not in ["ts_code", "trade_date"]:
                raise ValueError(f"表 {table_name} 缺少字段: {col}")
        # 过滤日期和股票
        df = df.filter(
            (pl.col("trade_date") >= start_date) & (pl.col("trade_date") <= end_date)
        )
        if stock_codes is not None:
            df = df.filter(pl.col("ts_code").is_in(stock_codes))
        # 选择需要的列
        select_cols = ["ts_code", "trade_date"] + [
            c for c in columns if c in df.columns
        ]
        return df.select(select_cols)
    def _load_from_database(
        self,
        table_name: str,
        columns: List[str],
        start_date: str,
        end_date: str,
        stock_codes: Optional[List[str]] = None,
    ) -> pl.DataFrame:
        """从 DuckDB 数据库加载数据。
        利用 Storage.load_polars() 方法，支持 SQL 查询下推。
        """
        if self._storage is None:
            raise RuntimeError("Storage 未初始化")
        # 检查表是否存在
        if not self._storage.exists(table_name):
            raise ValueError(f"数据库中不存在表: {table_name}")
        # 构建查询参数
        # Storage.load_polars 目前只支持单个 ts_code，需要处理列表情况
        if stock_codes is not None and len(stock_codes) == 1:
            ts_code_filter = stock_codes[0]
        else:
            ts_code_filter = None
        try:
            # 从数据库加载原始数据
            df = self._storage.load_polars(
                name=table_name,
                start_date=start_date,
                end_date=end_date,
                ts_code=ts_code_filter,
            )
        except Exception as e:
            raise RuntimeError(f"从数据库加载表 {table_name} 失败: {e}")
        # 如果 stock_codes 是列表且长度 > 1，在内存中过滤
        if stock_codes is not None and len(stock_codes) > 1:
            df = df.filter(pl.col("ts_code").is_in(stock_codes))
        # 检查必需字段
        for col in columns:
            if col not in df.columns and col not in ["ts_code", "trade_date"]:
                raise ValueError(f"表 {table_name} 缺少字段: {col}")
        # 选择需要的列
        select_cols = ["ts_code", "trade_date"] + [
            c for c in columns if c in df.columns
        ]
        return df.select(select_cols)
    def _assemble_wide_table(
        self,
        table_data: Dict[str, pl.DataFrame],
        required_tables: Dict[str, Set[str]],
    ) -> pl.DataFrame:
        """组装多表数据为核心宽表。
        使用 left join 合并各表数据，以第一个表为基准。
        Args:
            table_data: 表名到 DataFrame 的映射
            required_tables: 表名到字段集合的映射
        Returns:
            组装后的宽表
        """
        if not table_data:
            raise ValueError("没有数据可组装")
        # 以第一个表为基准
        base_table_name = list(table_data.keys())[0]
        result = table_data[base_table_name]
        # 与其他表 join
        for table_name, df in table_data.items():
            if table_name == base_table_name:
                continue
            # 使用 ts_code 和 trade_date 作为 join 键
            result = result.join(
                df,
                on=["ts_code", "trade_date"],
                how="left",
            )
        return result
    def _adjust_start_date(self, start_date: str, lookback_days: int) -> str:
        """根据回看天数调整开始日期。
        Args:
            start_date: 原始开始日期 (YYYYMMDD)
            lookback_days: 需要回看的交易日数
        Returns:
            调整后的开始日期
        """
        # 简化的日期调整：假设每月30天，向前推移
        # 实际应用中应该使用交易日历
        year = int(start_date[:4])
        month = int(start_date[4:6])
        day = int(start_date[6:8])
        total_days = lookback_days + 30  # 额外缓冲
        day -= total_days
        while day <= 0:
            month -= 1
            if month <= 0:
                month = 12
                year -= 1
            day += 30
        return f"{year:04d}{month:02d}{day:02d}"
    def clear_cache(self) -> None:
        """清除数据缓存。"""
        with self._lock:
            self._cache.clear()
        # 数据库模式下清理 Storage 连接（可选）
        if not self.is_memory_mode and self._storage is not None:
            # Storage 使用单例模式，不需要关闭连接
            pass
 class ExecutionPlanner:
    """执行计划生成器。
    整合编译器和翻译器，生成完整的执行计划。
    Attributes:
        compiler: 依赖提取器
        translator: Polars 翻译器
    """
    def __init__(self) -> None:
        """初始化执行计划生成器。"""
        self.compiler = DependencyExtractor()
        self.translator = PolarsTranslator()
    def create_plan(
        self,
        expression: Node,
        output_name: str = "factor",
        data_specs: Optional[List[DataSpec]] = None,
    ) -> ExecutionPlan:
        """从表达式创建执行计划。
        Args:
            expression: DSL 表达式节点
            output_name: 输出因子名称
            data_specs: 预定义的数据规格，None 时自动推导
        Returns:
            执行计划对象
        """
        # 1. 提取依赖
        dependencies = self.compiler.extract_dependencies(expression)
        # 2. 翻译为 Polars 表达式
        polars_expr = self.translator.translate(expression)
        # 3. 推导或验证数据规格
        if data_specs is None:
            data_specs = self._infer_data_specs(dependencies, expression)
        return ExecutionPlan(
            data_specs=data_specs,
            polars_expr=polars_expr,
            dependencies=dependencies,
            output_name=output_name,
        )
    def _infer_data_specs(
        self,
        dependencies: Set[str],
        expression: Node,
    ) -> List[DataSpec]:
        """从依赖推导数据规格。
        根据表达式中的函数类型推断回看天数需求。
        基础行情字段（open, high, low, close, vol, amount, pre_close, change, pct_chg）
        默认从 pro_bar 表获取。
        Args:
            dependencies: 依赖的字段集合
            expression: 表达式节点
        Returns:
            数据规格列表
        """
        # 计算最大回看窗口
        max_window = self._extract_max_window(expression)
        lookback_days = max(1, max_window)
        # 基础行情字段集合（这些字段从 pro_bar 表获取）
        pro_bar_fields = {
            "open",
            "high",
            "low",
            "close",
            "vol",
            "amount",
            "pre_close",
            "change",
            "pct_chg",
            "turnover_rate",
            "volume_ratio",
        }
        # 将依赖分为 pro_bar 字段和其他字段
        pro_bar_deps = dependencies & pro_bar_fields
        other_deps = dependencies - pro_bar_fields
        data_specs = []
        # pro_bar 表的数据规格
        if pro_bar_deps:
            data_specs.append(
                DataSpec(
                    table="pro_bar",
                    columns=sorted(pro_bar_deps),
                    lookback_days=lookback_days,
                )
            )
        # 其他字段从 daily 表获取
        if other_deps:
            data_specs.append(
                DataSpec(
                    table="daily",
                    columns=sorted(other_deps),
                    lookback_days=lookback_days,
                )
            )
        return data_specs
    def _extract_max_window(self, node: Node) -> int:
        """从表达式中提取最大窗口大小。
        Args:
            node: AST 节点
        Returns:
            最大窗口大小，无时序函数返回 1
        """
        if isinstance(node, FunctionNode):
            window = 1
            # 检查函数参数中的窗口大小
            for arg in node.args:
                if (
                    isinstance(arg, Constant)
                    and isinstance(arg.value, int)
                    and arg.value > window
                ):
                    window = arg.value
            # 递归检查子表达式
            for arg in node.args:
                if isinstance(arg, Node) and not isinstance(arg, Constant):
                    window = max(window, self._extract_max_window(arg))
            return window
        elif isinstance(node, BinaryOpNode):
            return max(
                self._extract_max_window(node.left),
                self._extract_max_window(node.right),
            )
        elif isinstance(node, UnaryOpNode):
            return self._extract_max_window(node.operand)
        return 1
 class ComputeEngine:
    """计算引擎 - 执行并行运算。
    负责将执行计划应用到数据上，支持并行计算。
    Attributes:
        max_workers: 最大并行工作线程数
        use_processes: 是否使用进程池（CPU 密集型任务）
    """
    def __init__(
        self,
        max_workers: int = 4,
        use_processes: bool = False,
    ) -> None:
        """初始化计算引擎。
        Args:
            max_workers: 最大并行工作线程数
            use_processes: 是否使用进程池代替线程池
        """
        self.max_workers = max_workers
        self.use_processes = use_processes
    def execute(
        self,
        plan: ExecutionPlan,
        data: pl.DataFrame,
    ) -> pl.DataFrame:
        """执行计算计划。
        Args:
            plan: 执行计划
            data: 输入数据（核心宽表）
        Returns:
            包含因子结果的 DataFrame
        """
        # 检查依赖字段是否存在
        missing_cols = plan.dependencies - set(data.columns)
        if missing_cols:
            raise ValueError(f"数据缺少必要的字段: {missing_cols}")
        # 执行计算
        result = data.with_columns([plan.polars_expr.alias(plan.output_name)])
        return result
    def execute_batch(
        self,
        plans: List[ExecutionPlan],
        data: pl.DataFrame,
    ) -> pl.DataFrame:
        """批量执行多个计算计划。
        Args:
            plans: 执行计划列表
            data: 输入数据
        Returns:
            包含所有因子结果的 DataFrame
        """
        result = data
        for plan in plans:
            result = self.execute(plan, result)
        return result
    def execute_parallel(
        self,
        plans: List[ExecutionPlan],
        data: pl.DataFrame,
    ) -> pl.DataFrame:
        """并行执行多个计算计划。
        Args:
            plans: 执行计划列表
            data: 输入数据
        Returns:
            包含所有因子结果的 DataFrame
        """
        # 检查计划间依赖
        independent_plans = []
        dependent_plans = []
        available_cols = set(data.columns)
        for plan in plans:
            if plan.dependencies <= available_cols:
                independent_plans.append(plan)
                available_cols.add(plan.output_name)
            else:
                dependent_plans.append(plan)
        # 并行执行独立计划
        if independent_plans:
            ExecutorClass = (
                ProcessPoolExecutor if self.use_processes else ThreadPoolExecutor
            )
            with ExecutorClass(max_workers=self.max_workers) as executor:
                futures = {
                    executor.submit(self._execute_single, plan, data): plan
                    for plan in independent_plans
                }
                results = []
                for future in futures:
                    plan = futures[future]
                    try:
                        result_col = future.result()
                        results.append((plan.output_name, result_col))
                    except Exception as e:
                        raise RuntimeError(f"计算因子 {plan.output_name} 失败: {e}")
                # 合并结果
                for name, series in results:
                    data = data.with_columns([series.alias(name)])
        # 顺序执行依赖计划
        for plan in dependent_plans:
            data = self.execute(plan, data)
        return data
    def _execute_single(
        self,
        plan: ExecutionPlan,
        data: pl.DataFrame,
    ) -> pl.Series:
        """执行单个计划并返回结果列。
        Args:
            plan: 执行计划
            data: 输入数据
        Returns:
            计算结果序列
        """
        result = self.execute(plan, data)
        return result[plan.output_name]
 class FactorEngine:
    """因子计算引擎 - 系统统一入口。
    提供从表达式到结果的完整执行链路，是研究员使用系统的唯一接口。
    执行流程:
        1. 注册表达式 -> 调用编译器解析依赖
        2. 调用路由器连接数据库拉取并组装核心宽表
        3. 调用翻译器生成物理执行计划
        4. 将计划提交给计算引擎执行并行运算
        5. 返回包含因子结果的数据表
    Attributes:
        router: 数据路由器
        planner: 执行计划生成器
        compute_engine: 计算引擎
        registered_expressions: 注册的表达式字典
    """
    def __init__(
        self,
        data_source: Optional[Dict[str, pl.DataFrame]] = None,
        max_workers: int = 4,
    ) -> None:
        """初始化因子引擎。
        Args:
            data_source: 内存数据源，为 None 时使用数据库连接
            max_workers: 并行计算的最大工作线程数
        """
        self.router = DataRouter(data_source)
        self.planner = ExecutionPlanner()
        self.compute_engine = ComputeEngine(max_workers=max_workers)
        self.registered_expressions: Dict[str, Node] = {}
        self._plans: Dict[str, ExecutionPlan] = {}
    def register(
        self,
        name: str,
        expression: Node,
        data_specs: Optional[List[DataSpec]] = None,
    ) -> FactorEngine:
        """注册因子表达式。
        Args:
            name: 因子名称
            expression: DSL 表达式
            data_specs: 数据规格，None 时自动推导
        Returns:
            self，支持链式调用
        Example:
            >>> from src.factors.api import close, ts_mean
            >>> engine = FactorEngine()
            >>> engine.register("ma20", ts_mean(close, 20))
        """
        self.registered_expressions[name] = expression
        # 预创建执行计划
        plan = self.planner.create_plan(
            expression=expression,
            output_name=name,
            data_specs=data_specs,
        )
        self._plans[name] = plan
        return self
    def compute(
        self,
        factor_names: Union[str, List[str]],
        start_date: str,
        end_date: str,
        stock_codes: Optional[List[str]] = None,
    ) -> pl.DataFrame:
        """计算指定因子的值。
        完整的执行流程：取数 -> 组装 -> 翻译 -> 计算。
        Args:
            factor_names: 因子名称或名称列表
            start_date: 开始日期 (YYYYMMDD)
            end_date: 结束日期 (YYYYMMDD)
            stock_codes: 股票代码列表，None 表示全市场
        Returns:
            包含因子结果的数据表
        Raises:
            ValueError: 当因子未注册或数据不足时
        Example:
            >>> result = engine.compute("ma20", "20240101", "20240131")
            >>> result = engine.compute(["ma20", "rsi"], "20240101", "20240131")
        """
        # 标准化因子名称
        if isinstance(factor_names, str):
            factor_names = [factor_names]
        # 1. 获取执行计划
        plans = []
        for name in factor_names:
            if name not in self._plans:
                raise ValueError(f"因子未注册: {name}")
            plans.append(self._plans[name])
        # 2. 合并数据规格并获取数据
        all_specs = []
        for plan in plans:
            all_specs.extend(plan.data_specs)
        # 3. 从路由器获取核心宽表
        core_data = self.router.fetch_data(
            data_specs=all_specs,
            start_date=start_date,
            end_date=end_date,
            stock_codes=stock_codes,
        )
        if len(core_data) == 0:
            raise ValueError("未获取到任何数据，请检查日期范围和股票代码")
        # 4. 执行计算
        if len(plans) == 1:
            result = self.compute_engine.execute(plans[0], core_data)
        else:
            result = self.compute_engine.execute_batch(plans, core_data)
        return result
    def list_registered(self) -> List[str]:
        """获取已注册的因子列表。
        Returns:
            因子名称列表
        """
        return list(self.registered_expressions.keys())
    def get_expression(self, name: str) -> Optional[Node]:
        """获取已注册的表达式。
        Args:
            name: 因子名称
        Returns:
            表达式节点，未注册时返回 None
        """
        return self.registered_expressions.get(name)
    def clear(self) -> None:
        """清除所有注册的表达式和缓存。"""
        self.registered_expressions.clear()
        self._plans.clear()
        self.router.clear_cache()
    def preview_plan(self, factor_name: str) -> Optional[ExecutionPlan]:
        """预览因子的执行计划。
        Args:
            factor_name: 因子名称
        Returns:
            执行计划，未注册时返回 None
        """
        return self._plans.get(factor_name)
--- a/src/factors/engine/init.py
+++ b/src/factors/engine/init.py
@@ -0,0 +1,28 @@
 """因子计算引擎模块。
 提供完整的因子计算引擎组件：
 - DataSpec: 数据规格定义
 - ExecutionPlan: 执行计划
 - DataRouter: 数据路由器
 - ExecutionPlanner: 执行计划生成器
 - ComputeEngine: 计算引擎
 - FactorEngine: 因子计算引擎（统一入口）
 """
 from src.factors.engine.data_spec import DataSpec, ExecutionPlan
 from src.factors.engine.data_router import DataRouter
 from src.factors.engine.planner import ExecutionPlanner
 from src.factors.engine.compute_engine import ComputeEngine
 from src.factors.engine.factor_engine import FactorEngine
 __all__ = [
    "DataSpec",
    "ExecutionPlan",
    "DataRouter",
    "ExecutionPlanner",
    "ComputeEngine",
    "FactorEngine",
 ]
 # 类型导出（用于类型注解）
 # FunctionRegistry 从 src.factors.registry 导入
--- a/src/factors/engine/compute_engine.py
+++ b/src/factors/engine/compute_engine.py
@@ -0,0 +1,155 @@
 """计算引擎。
 执行并行运算，负责将执行计划应用到数据上。
 """
 from concurrent.futures import ProcessPoolExecutor, ThreadPoolExecutor
 from typing import Any, Dict, List, Optional, Set, Union
 import polars as pl
 from src.factors.engine.data_spec import ExecutionPlan
 class ComputeEngine:
    """计算引擎 - 执行并行运算。
    负责将执行计划应用到数据上，支持并行计算。
    Attributes:
        max_workers: 最大并行工作线程数
        use_processes: 是否使用进程池（CPU 密集型任务）
    """
    def __init__(
        self,
        max_workers: int = 4,
        use_processes: bool = False,
    ) -> None:
        """初始化计算引擎。
        Args:
            max_workers: 最大并行工作线程数
            use_processes: 是否使用进程池代替线程池
        """
        self.max_workers = max_workers
        self.use_processes = use_processes
    def execute(
        self,
        plan: ExecutionPlan,
        data: pl.DataFrame,
    ) -> pl.DataFrame:
        """执行计算计划。
        Args:
            plan: 执行计划
            data: 输入数据（核心宽表）
        Returns:
            包含因子结果的 DataFrame
        """
        # 检查依赖字段是否存在
        missing_cols = plan.dependencies - set(data.columns)
        if missing_cols:
            raise ValueError(f"数据缺少必要的字段: {missing_cols}")
        # 执行计算
        result = data.with_columns([plan.polars_expr.alias(plan.output_name)])
        return result
    def execute_batch(
        self,
        plans: List[ExecutionPlan],
        data: pl.DataFrame,
    ) -> pl.DataFrame:
        """批量执行多个计算计划。
        Args:
            plans: 执行计划列表
            data: 输入数据
        Returns:
            包含所有因子结果的 DataFrame
        """
        result = data
        for plan in plans:
            result = self.execute(plan, result)
        return result
    def execute_parallel(
        self,
        plans: List[ExecutionPlan],
        data: pl.DataFrame,
    ) -> pl.DataFrame:
        """并行执行多个计算计划。
        Args:
            plans: 执行计划列表
            data: 输入数据
        Returns:
            包含所有因子结果的 DataFrame
        """
        # 检查计划间依赖
        independent_plans = []
        dependent_plans = []
        available_cols = set(data.columns)
        for plan in plans:
            if plan.dependencies <= available_cols:
                independent_plans.append(plan)
                available_cols.add(plan.output_name)
            else:
                dependent_plans.append(plan)
        # 并行执行独立计划
        if independent_plans:
            ExecutorClass = (
                ProcessPoolExecutor if self.use_processes else ThreadPoolExecutor
            )
            with ExecutorClass(max_workers=self.max_workers) as executor:
                futures = {
                    executor.submit(self._execute_single, plan, data): plan
                    for plan in independent_plans
                }
                results = []
                for future in futures:
                    plan = futures[future]
                    try:
                        result_col = future.result()
                        results.append((plan.output_name, result_col))
                    except Exception as e:
                        raise RuntimeError(f"计算因子 {plan.output_name} 失败: {e}")
                # 合并结果
                for name, series in results:
                    data = data.with_columns([series.alias(name)])
        # 顺序执行依赖计划
        for plan in dependent_plans:
            data = self.execute(plan, data)
        return data
    def _execute_single(
        self,
        plan: ExecutionPlan,
        data: pl.DataFrame,
    ) -> pl.Series:
        """执行单个计划并返回结果列。
        Args:
            plan: 执行计划
            data: 输入数据
        Returns:
            计算结果序列
        """
        result = self.execute(plan, data)
        return result[plan.output_name]
--- a/src/factors/engine/data_router.py
+++ b/src/factors/engine/data_router.py
@@ -0,0 +1,304 @@
 """数据路由器。
 按需取数、组装核心宽表。
 负责根据数据规格从数据源拉取数据，并组装成统一的宽表格式。
 支持内存数据源（用于测试）和真实数据库连接。
 """
 from typing import Any, Dict, List, Optional, Set, Union
 import threading
 import polars as pl
 from src.factors.engine.data_spec import DataSpec
 from src.data.storage import Storage
 class DataRouter:
    """数据路由器 - 按需取数、组装核心宽表。
    负责根据数据规格从数据源拉取数据，并组装成统一的宽表格式。
    支持内存数据源（用于测试）和真实数据库连接。
    Attributes:
        data_source: 数据源，可以是内存 DataFrame 字典或数据库连接
        is_memory_mode: 是否为内存模式
    """
    def __init__(self, data_source: Optional[Dict[str, pl.DataFrame]] = None) -> None:
        """初始化数据路由器。
        Args:
            data_source: 内存数据源，字典格式 {表名: DataFrame}
                        为 None 时自动连接 DuckDB 数据库
        """
        self.data_source = data_source or {}
        self.is_memory_mode = data_source is not None
        self._cache: Dict[str, pl.DataFrame] = {}
        self._lock = threading.Lock()
        # 数据库模式下初始化 Storage
        if not self.is_memory_mode:
            self._storage = Storage()
        else:
            self._storage = None
    def fetch_data(
        self,
        data_specs: List[DataSpec],
        start_date: str,
        end_date: str,
        stock_codes: Optional[List[str]] = None,
    ) -> pl.DataFrame:
        """根据数据规格获取并组装核心宽表。
        Args:
            data_specs: 数据规格列表
            start_date: 开始日期 (YYYYMMDD)
            end_date: 结束日期 (YYYYMMDD)
            stock_codes: 股票代码列表，None 表示全市场
        Returns:
            组装好的核心宽表 DataFrame
        Raises:
            ValueError: 当数据源中缺少必要的表或字段时
        """
        if not data_specs:
            raise ValueError("数据规格不能为空")
        # 收集所有需要的表和字段
        required_tables: Dict[str, Set[str]] = {}
        max_lookback = 0
        for spec in data_specs:
            if spec.table not in required_tables:
                required_tables[spec.table] = set()
            required_tables[spec.table].update(spec.columns)
            max_lookback = max(max_lookback, spec.lookback_days)
        # 调整日期范围以包含回看期
        adjusted_start = self._adjust_start_date(start_date, max_lookback)
        # 从数据源获取各表数据
        table_data = {}
        for table_name, columns in required_tables.items():
            df = self._load_table(
                table_name=table_name,
                columns=list(columns),
                start_date=adjusted_start,
                end_date=end_date,
                stock_codes=stock_codes,
            )
            table_data[table_name] = df
        # 组装核心宽表
        core_table = self._assemble_wide_table(table_data, required_tables)
        # 过滤到实际请求日期范围
        core_table = core_table.filter(
            (pl.col("trade_date") >= start_date) & (pl.col("trade_date") <= end_date)
        )
        return core_table
    def _load_table(
        self,
        table_name: str,
        columns: List[str],
        start_date: str,
        end_date: str,
        stock_codes: Optional[List[str]] = None,
    ) -> pl.DataFrame:
        """加载单个表的数据。
        Args:
            table_name: 表名
            columns: 需要的字段
            start_date: 开始日期
            end_date: 结束日期
            stock_codes: 股票代码过滤
        Returns:
            过滤后的 DataFrame
        """
        cache_key = f"{table_name}_{start_date}_{end_date}_{stock_codes}"
        with self._lock:
            if cache_key in self._cache:
                return self._cache[cache_key]
        if self.is_memory_mode:
            df = self._load_from_memory(
                table_name, columns, start_date, end_date, stock_codes
            )
        else:
            df = self._load_from_database(
                table_name, columns, start_date, end_date, stock_codes
            )
        with self._lock:
            self._cache[cache_key] = df
        return df
    def _load_from_memory(
        self,
        table_name: str,
        columns: List[str],
        start_date: str,
        end_date: str,
        stock_codes: Optional[List[str]] = None,
    ) -> pl.DataFrame:
        """从内存数据源加载数据。"""
        if table_name not in self.data_source:
            raise ValueError(f"内存数据源中缺少表: {table_name}")
        df = self.data_source[table_name]
        # 确保必需字段存在
        for col in columns:
            if col not in df.columns and col not in ["ts_code", "trade_date"]:
                raise ValueError(f"表 {table_name} 缺少字段: {col}")
        # 过滤日期和股票
        df = df.filter(
            (pl.col("trade_date") >= start_date) & (pl.col("trade_date") <= end_date)
        )
        if stock_codes is not None:
            df = df.filter(pl.col("ts_code").is_in(stock_codes))
        # 选择需要的列
        select_cols = ["ts_code", "trade_date"] + [
            c for c in columns if c in df.columns
        ]
        return df.select(select_cols)
    def _load_from_database(
        self,
        table_name: str,
        columns: List[str],
        start_date: str,
        end_date: str,
        stock_codes: Optional[List[str]] = None,
    ) -> pl.DataFrame:
        """从 DuckDB 数据库加载数据。
        利用 Storage.load_polars() 方法，支持 SQL 查询下推。
        """
        if self._storage is None:
            raise RuntimeError("Storage 未初始化")
        # 检查表是否存在
        if not self._storage.exists(table_name):
            raise ValueError(f"数据库中不存在表: {table_name}")
        # 构建查询参数
        # Storage.load_polars 目前只支持单个 ts_code，需要处理列表情况
        if stock_codes is not None and len(stock_codes) == 1:
            ts_code_filter = stock_codes[0]
        else:
            ts_code_filter = None
        try:
            # 从数据库加载原始数据
            df = self._storage.load_polars(
                name=table_name,
                start_date=start_date,
                end_date=end_date,
                ts_code=ts_code_filter,
            )
        except Exception as e:
            raise RuntimeError(f"从数据库加载表 {table_name} 失败: {e}")
        # 如果 stock_codes 是列表且长度 > 1，在内存中过滤
        if stock_codes is not None and len(stock_codes) > 1:
            df = df.filter(pl.col("ts_code").is_in(stock_codes))
        # 检查必需字段
        for col in columns:
            if col not in df.columns and col not in ["ts_code", "trade_date"]:
                raise ValueError(f"表 {table_name} 缺少字段: {col}")
        # 选择需要的列
        select_cols = ["ts_code", "trade_date"] + [
            c for c in columns if c in df.columns
        ]
        return df.select(select_cols)
    def _assemble_wide_table(
        self,
        table_data: Dict[str, pl.DataFrame],
        required_tables: Dict[str, Set[str]],
    ) -> pl.DataFrame:
        """组装多表数据为核心宽表。
        使用 left join 合并各表数据，以第一个表为基准。
        Args:
            table_data: 表名到 DataFrame 的映射
            required_tables: 表名到字段集合的映射
        Returns:
            组装后的宽表
        """
        if not table_data:
            raise ValueError("没有数据可组装")
        # 以第一个表为基准
        base_table_name = list(table_data.keys())[0]
        result = table_data[base_table_name]
        # 与其他表 join
        for table_name, df in table_data.items():
            if table_name == base_table_name:
                continue
            # 使用 ts_code 和 trade_date 作为 join 键
            result = result.join(
                df,
                on=["ts_code", "trade_date"],
                how="left",
            )
        return result
    def _adjust_start_date(self, start_date: str, lookback_days: int) -> str:
        """根据回看天数调整开始日期。
        Args:
            start_date: 原始开始日期 (YYYYMMDD)
            lookback_days: 需要回看的交易日数
        Returns:
            调整后的开始日期
        """
        # 简化的日期调整：假设每月30天，向前推移
        # 实际应用中应该使用交易日历
        year = int(start_date[:4])
        month = int(start_date[4:6])
        day = int(start_date[6:8])
        total_days = lookback_days + 30  # 额外缓冲
        day -= total_days
        while day <= 0:
            month -= 1
            if month <= 0:
                month = 12
                year -= 1
            day += 30
        return f"{year:04d}{month:02d}{day:02d}"
    def clear_cache(self) -> None:
        """清除数据缓存。"""
        with self._lock:
            self._cache.clear()
        # 数据库模式下清理 Storage 连接（可选）
        if not self.is_memory_mode and self._storage is not None:
            # Storage 使用单例模式，不需要关闭连接
            pass
--- a/src/factors/engine/data_spec.py
+++ b/src/factors/engine/data_spec.py
@@ -0,0 +1,47 @@
 """数据规格和执行计划定义。
 定义因子计算所需的数据规格和执行计划结构。
 """
 from dataclasses import dataclass, field
 from typing import Any, Dict, List, Optional, Set, Union
 import polars as pl
@dataclass
 class DataSpec:
    """数据规格定义。
    描述因子计算所需的数据表和字段。
    Attributes:
        table: 数据表名称
        columns: 需要的字段列表
        lookback_days: 回看天数（用于时序计算）
    """
    table: str
    columns: List[str]
    lookback_days: int = 1
@dataclass
 class ExecutionPlan:
    """执行计划。
    包含完整的执行所需信息：数据源、转换逻辑、输出格式。
    Attributes:
        data_specs: 数据规格列表
        polars_expr: Polars 表达式
        dependencies: 依赖的原始字段
        output_name: 输出因子名称
        factor_dependencies: 依赖的其他因子名称（用于分步执行）
    """
    data_specs: List[DataSpec]
    polars_expr: pl.Expr
    dependencies: Set[str]
    output_name: str
    factor_dependencies: Set[str] = field(default_factory=set)
--- a/src/factors/engine/factor_engine.py
+++ b/src/factors/engine/factor_engine.py
@@ -0,0 +1,513 @@
 """因子计算引擎 - 系统统一入口。
 提供从表达式到结果的完整执行链路，是研究员使用系统的唯一接口。
 执行流程:
    1. 注册表达式 -> 调用编译器解析依赖
    2. 调用路由器连接数据库拉取并组装核心宽表
    3. 调用翻译器生成物理执行计划
    4. 将计划提交给计算引擎执行并行运算
    5. 返回包含因子结果的数据表
 """
 from typing import Any, Dict, List, Optional, Set, Union, TYPE_CHECKING
 import polars as pl
 if TYPE_CHECKING:
    from src.factors.registry import FunctionRegistry
 from src.factors.dsl import (
    Node,
    Symbol,
    BinaryOpNode,
    UnaryOpNode,
    FunctionNode,
 )
 from src.factors.translator import PolarsTranslator
 from src.factors.engine.data_spec import DataSpec, ExecutionPlan
 from src.factors.engine.data_router import DataRouter
 from src.factors.engine.planner import ExecutionPlanner
 from src.factors.engine.compute_engine import ComputeEngine
 class FactorEngine:
    """因子计算引擎 - 系统统一入口。
    提供从表达式到结果的完整执行链路，是研究员使用系统的唯一接口。
    执行流程:
        1. 注册表达式 -> 调用编译器解析依赖
        2. 调用路由器连接数据库拉取并组装核心宽表
        3. 调用翻译器生成物理执行计划
        4. 将计划提交给计算引擎执行并行运算
        5. 返回包含因子结果的数据表
    Attributes:
        router: 数据路由器
        planner: 执行计划生成器
        compute_engine: 计算引擎
        registered_expressions: 注册的表达式字典
        _registry: 函数注册表
        _parser: 公式解析器
    """
    def __init__(
        self,
        data_source: Optional[Dict[str, pl.DataFrame]] = None,
        max_workers: int = 4,
        registry: Optional["FunctionRegistry"] = None,
    ) -> None:
        """初始化因子引擎。
        Args:
            data_source: 内存数据源，为 None 时使用数据库连接
            max_workers: 并行计算的最大工作线程数
            registry: 函数注册表，None 时创建独立实例
        """
        from src.factors.registry import FunctionRegistry
        from src.factors.parser import FormulaParser
        self.router = DataRouter(data_source)
        self.planner = ExecutionPlanner()
        self.compute_engine = ComputeEngine(max_workers=max_workers)
        self.registered_expressions: Dict[str, Node] = {}
        self._plans: Dict[str, ExecutionPlan] = {}
        # 初始化注册表和解析器（支持注入外部注册表实现共享）
        self._registry = registry if registry is not None else FunctionRegistry()
        self._parser = FormulaParser(self._registry)
    def register(
        self,
        name: str,
        expression: Node,
        data_specs: Optional[List[DataSpec]] = None,
    ) -> "FactorEngine":
        """注册因子表达式。
        Args:
            name: 因子名称
            expression: DSL 表达式
            data_specs: 数据规格，None 时自动推导
        Returns:
            self，支持链式调用
        Example:
            >>> from src.factors.api import close, ts_mean
            >>> engine = FactorEngine()
            >>> engine.register("ma20", ts_mean(close, 20))
        """
        # 检测因子依赖（在注册当前因子之前检查其他已注册因子）
        factor_deps = self._find_factor_dependencies(expression)
        self.registered_expressions[name] = expression
        # 预创建执行计划
        plan = self.planner.create_plan(
            expression=expression,
            output_name=name,
            data_specs=data_specs,
        )
        # 添加因子依赖信息
        plan.factor_dependencies = factor_deps
        self._plans[name] = plan
        return self
    def add_factor(
        self,
        name: str,
        expression: Union[str, Node],
        data_specs: Optional[List[DataSpec]] = None,
    ) -> "FactorEngine":
        """注册因子（支持字符串或 Node 表达式）。
        这是 register 方法的增强版，支持字符串表达式解析。
        向后兼容：register 方法保持不变，继续只接受 Node 类型。
        遵循 Fail-Fast 原则：字符串表达式会立即解析，失败时立即抛出异常。
        Args:
            name: 因子名称
            expression: 字符串表达式或 Node 对象
            data_specs: 可选的数据规格
        Returns:
            self，支持链式调用
        Raises:
            TypeError: 当 expression 类型不支持时
            FormulaParseError: 当字符串解析失败时（立即报错）
        Example:
            >>> engine = FactorEngine()
            >>>
            >>> # 字符串方式（新功能）
            >>> engine.add_factor("ma20", "ts_mean(close, 20)")
            >>>
            >>> # Node 方式（与 register 相同）
            >>> from src.factors.api import close, ts_mean
            >>> engine.add_factor("ma20", ts_mean(close, 20))
            >>>
            >>> # 复杂表达式
            >>> engine.add_factor("alpha1", "cs_rank(close / open)")
            >>>
            >>> # 链式调用
            >>> (engine
            ...     .add_factor("ma5", "ts_mean(close, 5)")
            ...     .add_factor("ma10", "ts_mean(close, 10)")
            ...     .add_factor("golden_cross", "ma5 > ma10"))
        """
        if isinstance(expression, str):
            # Fail-Fast：立即解析，失败立即报错
            node = self._parser.parse(expression)
        elif isinstance(expression, Node):
            node = expression
        else:
            raise TypeError(
                f"表达式必须是 str 或 Node 类型，收到 {type(expression).__name__}"
            )
        # 委托给现有的 register 方法
        return self.register(name, node, data_specs)
    def compute(
        self,
        factor_names: Union[str, List[str]],
        start_date: str,
        end_date: str,
        stock_codes: Optional[List[str]] = None,
    ) -> pl.DataFrame:
        """计算指定因子的值。
        完整的执行流程：取数 -> 组装 -> 翻译 -> 计算。
        Args:
            factor_names: 因子名称或名称列表
            start_date: 开始日期 (YYYYMMDD)
            end_date: 结束日期 (YYYYMMDD)
            stock_codes: 股票代码列表，None 表示全市场
        Returns:
            包含因子结果的数据表
        Raises:
            ValueError: 当因子未注册或数据不足时
        Example:
            >>> result = engine.compute("ma20", "20240101", "20240131")
            >>> result = engine.compute(["ma20", "rsi"], "20240101", "20240131")
        """
        # 标准化因子名称
        if isinstance(factor_names, str):
            factor_names = [factor_names]
        # 1. 获取执行计划
        plans = []
        for name in factor_names:
            if name not in self._plans:
                raise ValueError(f"因子未注册: {name}")
            plans.append(self._plans[name])
        # 2. 合并数据规格并获取数据
        all_specs = []
        for plan in plans:
            all_specs.extend(plan.data_specs)
        # 3. 从路由器获取核心宽表
        core_data = self.router.fetch_data(
            data_specs=all_specs,
            start_date=start_date,
            end_date=end_date,
            stock_codes=stock_codes,
        )
        if len(core_data) == 0:
            raise ValueError("未获取到任何数据，请检查日期范围和股票代码")
        # 4. 按依赖顺序执行计算
        if len(plans) == 1:
            result = self.compute_engine.execute(plans[0], core_data)
        else:
            # 使用依赖感知的方式执行
            result = self._execute_with_dependencies(factor_names, core_data)
        return result
    def list_registered(self) -> List[str]:
        """获取已注册的因子列表。
        Returns:
            因子名称列表
        """
        return list(self.registered_expressions.keys())
    def get_expression(self, name: str) -> Optional[Node]:
        """获取已注册的表达式。
        Args:
            name: 因子名称
        Returns:
            表达式节点，未注册时返回 None
        """
        return self.registered_expressions.get(name)
    def clear(self) -> None:
        """清除所有注册的表达式和缓存。"""
        self.registered_expressions.clear()
        self._plans.clear()
        self.router.clear_cache()
    def preview_plan(self, factor_name: str) -> Optional[ExecutionPlan]:
        """预览因子的执行计划。
        Args:
            factor_name: 因子名称
        Returns:
            执行计划，未注册时返回 None
        """
        return self._plans.get(factor_name)
    def _execute_with_dependencies(
        self,
        factor_names: List[str],
        core_data: pl.DataFrame,
    ) -> pl.DataFrame:
        """按依赖顺序执行因子计算。
        支持 cs_rank 等需要依赖列已存在的场景。
        Args:
            factor_names: 因子名称列表
            core_data: 核心宽表数据
        Returns:
            包含所有因子结果的数据表
        """
        # 1. 拓扑排序
        sorted_names = self._topological_sort(factor_names)
        # 2. 按顺序执行
        result = core_data
        for name in sorted_names:
            plan = self._plans[name]
            # 创建新的执行计划，引用已计算的依赖列
            new_plan = self._create_optimized_plan(plan, result)
            # 执行计算
            result = self.compute_engine.execute(new_plan, result)
        return result
    def _create_optimized_plan(
        self,
        plan: ExecutionPlan,
        current_data: pl.DataFrame,
    ) -> ExecutionPlan:
        """创建优化的执行计划。
        将表达式中已计算的依赖因子替换为列引用。
        Args:
            plan: 原始执行计划
            current_data: 当前数据（包含已计算的依赖列）
        Returns:
            新的执行计划
        """
        from src.factors.dsl import Symbol
        # 获取当前数据中已存在的列
        existing_cols = set(current_data.columns)
        # 检查依赖列是否已存在
        deps_available = plan.factor_dependencies & existing_cols
        if not deps_available:
            # 没有可用的依赖列，直接返回原计划
            return plan
        # 获取原始表达式
        original_expr = self.registered_expressions[plan.output_name]
        # 创建新的表达式，用 Symbol 引用替换依赖因子
        def replace_with_symbol(node: Node) -> Node:
            """递归替换表达式中的依赖因子为 Symbol 引用。"""
            from typing import Any
            n: Any = node
            # 检查当前节点是否等于某个已计算依赖因子
            for dep_name in deps_available:
                dep_expr = self.registered_expressions[dep_name]
                if self._expressions_equal(node, dep_expr):
                    return Symbol(dep_name)
            # 递归处理子节点
            if isinstance(n, BinaryOpNode):
                new_left = replace_with_symbol(n.left)
                new_right = replace_with_symbol(n.right)
                if new_left is not n.left or new_right is not n.right:
                    return BinaryOpNode(n.op, new_left, new_right)
            elif isinstance(n, UnaryOpNode):
                new_operand = replace_with_symbol(n.operand)
                if new_operand is not n.operand:
                    return UnaryOpNode(n.op, new_operand)
            elif isinstance(n, FunctionNode):
                new_args = [replace_with_symbol(arg) for arg in n.args]
                if any(
                    new_arg is not old_arg for new_arg, old_arg in zip(new_args, n.args)
                ):
                    return FunctionNode(n.func_name, *new_args)
            return node
        # 替换表达式
        new_expr = replace_with_symbol(original_expr)
        # 重新翻译表达式
        translator = PolarsTranslator()
        new_polars_expr = translator.translate(new_expr)
        # 更新依赖集合
        new_factor_deps = plan.factor_dependencies - deps_available
        new_deps = plan.dependencies | deps_available
        return ExecutionPlan(
            data_specs=plan.data_specs,
            polars_expr=new_polars_expr,
            dependencies=new_deps,
            output_name=plan.output_name,
            factor_dependencies=new_factor_deps,
        )
    def _expressions_equal(self, expr1: Node, expr2: Node) -> bool:
        """比较两个表达式是否相等。
        用于检测因子间的依赖关系。
        Args:
            expr1: 第一个表达式
            expr2: 第二个表达式
        Returns:
            是否相等
        """
        from typing import Any
        e1: Any = expr1
        e2: Any = expr2
        if type(e1) != type(e2):
            return False
        if isinstance(e1, Symbol):
            return e1.name == e2.name
        from src.factors.dsl import Constant
        if isinstance(e1, Constant):
            return e1.value == e2.value
        if isinstance(e1, BinaryOpNode):
            return (
                e1.op == e2.op
                and self._expressions_equal(e1.left, e2.left)
                and self._expressions_equal(e1.right, e2.right)
            )
        if isinstance(e1, UnaryOpNode):
            return e1.op == e2.op and self._expressions_equal(e1.operand, e2.operand)
        if isinstance(e1, FunctionNode):
            if e1.func_name != e2.func_name or len(e1.args) != len(e2.args):
                return False
            return all(
                self._expressions_equal(a1, a2) for a1, a2 in zip(e1.args, e2.args)
            )
        return False
    def _find_factor_dependencies(self, expression: Node) -> Set[str]:
        """查找表达式依赖的其他因子。
        遍历已注册因子，检查表达式是否包含任何已注册因子的完整表达式。
        Args:
            expression: 待检查的表达式
        Returns:
            依赖的因子名称集合
        """
        deps: Set[str] = set()
        # 检查表达式本身是否等于某个已注册因子
        for name, registered_expr in self.registered_expressions.items():
            if self._expressions_equal(expression, registered_expr):
                deps.add(name)
                break
        # 递归检查子节点
        if isinstance(expression, BinaryOpNode):
            deps.update(self._find_factor_dependencies(expression.left))
            deps.update(self._find_factor_dependencies(expression.right))
        elif isinstance(expression, UnaryOpNode):
            deps.update(self._find_factor_dependencies(expression.operand))
        elif isinstance(expression, FunctionNode):
            for arg in expression.args:
                deps.update(self._find_factor_dependencies(arg))
        return deps
    def _topological_sort(self, factor_names: List[str]) -> List[str]:
        """按依赖关系对因子进行拓扑排序。
        确保依赖的因子先被计算。
        Args:
            factor_names: 因子名称列表
        Returns:
            排序后的因子名称列表
        Raises:
            ValueError: 当检测到循环依赖时
        """
        # 构建依赖图
        graph: Dict[str, Set[str]] = {}
        in_degree: Dict[str, int] = {}
        for name in factor_names:
            plan = self._plans[name]
            # 只考虑在本次计算范围内的依赖
            deps = plan.factor_dependencies & set(factor_names)
            graph[name] = deps
            in_degree[name] = len(deps)
        # Kahn 算法
        result = []
        queue = [name for name, degree in in_degree.items() if degree == 0]
        while queue:
            # 按原始顺序处理同级别的因子
            queue.sort(key=lambda x: factor_names.index(x))
            name = queue.pop(0)
            result.append(name)
            for other in factor_names:
                if name in graph[other]:
                    in_degree[other] -= 1
                    if in_degree[other] == 0:
                        queue.append(other)
        if len(result) != len(factor_names):
            raise ValueError("检测到因子循环依赖")
        return result
--- a/src/factors/engine/planner.py
+++ b/src/factors/engine/planner.py
@@ -0,0 +1,170 @@
 """执行计划生成器。
 整合编译器和翻译器，生成完整的执行计划。
 """
 from typing import Any, Dict, List, Optional, Set, Union
 from src.factors.dsl import (
    Node,
    Symbol,
    FunctionNode,
    BinaryOpNode,
    UnaryOpNode,
    Constant,
 )
 from src.factors.compiler import DependencyExtractor
 from src.factors.translator import PolarsTranslator
 from src.factors.engine.data_spec import DataSpec, ExecutionPlan
 class ExecutionPlanner:
    """执行计划生成器。
    整合编译器和翻译器，生成完整的执行计划。
    Attributes:
        compiler: 依赖提取器
        translator: Polars 翻译器
    """
    def __init__(self) -> None:
        """初始化执行计划生成器。"""
        self.compiler = DependencyExtractor()
        self.translator = PolarsTranslator()
    def create_plan(
        self,
        expression: Node,
        output_name: str = "factor",
        data_specs: Optional[List[DataSpec]] = None,
    ) -> ExecutionPlan:
        """从表达式创建执行计划。
        Args:
            expression: DSL 表达式节点
            output_name: 输出因子名称
            data_specs: 预定义的数据规格，None 时自动推导
        Returns:
            执行计划对象
        """
        # 1. 提取依赖
        dependencies = self.compiler.extract_dependencies(expression)
        # 2. 翻译为 Polars 表达式
        polars_expr = self.translator.translate(expression)
        # 3. 推导或验证数据规格
        if data_specs is None:
            data_specs = self._infer_data_specs(dependencies, expression)
        return ExecutionPlan(
            data_specs=data_specs,
            polars_expr=polars_expr,
            dependencies=dependencies,
            output_name=output_name,
        )
    def _infer_data_specs(
        self,
        dependencies: Set[str],
        expression: Node,
    ) -> List[DataSpec]:
        """从依赖推导数据规格。
        根据表达式中的函数类型推断回看天数需求。
        基础行情字段（open, high, low, close, vol, amount, pre_close, change, pct_chg）
        默认从 pro_bar 表获取。
        Args:
            dependencies: 依赖的字段集合
            expression: 表达式节点
        Returns:
            数据规格列表
        """
        # 计算最大回看窗口
        max_window = self._extract_max_window(expression)
        lookback_days = max(1, max_window)
        # 基础行情字段集合（这些字段从 pro_bar 表获取）
        pro_bar_fields = {
            "open",
            "high",
            "low",
            "close",
            "vol",
            "amount",
            "pre_close",
            "change",
            "pct_chg",
            "turnover_rate",
            "volume_ratio",
        }
        # 将依赖分为 pro_bar 字段和其他字段
        pro_bar_deps = dependencies & pro_bar_fields
        other_deps = dependencies - pro_bar_fields
        data_specs = []
        # pro_bar 表的数据规格
        if pro_bar_deps:
            data_specs.append(
                DataSpec(
                    table="pro_bar",
                    columns=sorted(pro_bar_deps),
                    lookback_days=lookback_days,
                )
            )
        # 其他字段从 daily 表获取
        if other_deps:
            data_specs.append(
                DataSpec(
                    table="daily",
                    columns=sorted(other_deps),
                    lookback_days=lookback_days,
                )
            )
        return data_specs
    def _extract_max_window(self, node: Node) -> int:
        """从表达式中提取最大窗口大小。
        Args:
            node: AST 节点
        Returns:
            最大窗口大小，无时序函数返回 1
        """
        if isinstance(node, FunctionNode):
            window = 1
            # 检查函数参数中的窗口大小
            for arg in node.args:
                if (
                    isinstance(arg, Constant)
                    and isinstance(arg.value, int)
                    and arg.value > window
                ):
                    window = arg.value
            # 递归检查子表达式
            for arg in node.args:
                if isinstance(arg, Node) and not isinstance(arg, Constant):
                    window = max(window, self._extract_max_window(arg))
            return window
        elif isinstance(node, BinaryOpNode):
            return max(
                self._extract_max_window(node.left),
                self._extract_max_window(node.right),
            )
        elif isinstance(node, UnaryOpNode):
            return self._extract_max_window(node.operand)
        return 1
--- a/src/factors/exceptions.py
+++ b/src/factors/exceptions.py
@@ -0,0 +1,144 @@
 """公式解析异常定义。
 提供清晰的错误信息，帮助用户快速定位公式解析问题。
 """
 import difflib
 from typing import List, Optional
 class FormulaParseError(Exception):
    """公式解析错误基类。
    Attributes:
        expr: 原始表达式字符串
        lineno: 错误所在行号（从1开始）
        col_offset: 错误所在列号（从0开始）
    """
    def __init__(
        self,
        message: str,
        expr: Optional[str] = None,
        lineno: Optional[int] = None,
        col_offset: Optional[int] = None,
    ):
        self.expr = expr
        self.lineno = lineno
        self.col_offset = col_offset
        # 构建详细错误信息
        full_message = self._format_message(message)
        super().__init__(full_message)
    def _format_message(self, message: str) -> str:
        """格式化错误信息，包含位置指示器。"""
        lines = [f"FormulaParseError: {message}"]
        if self.expr:
            lines.append(f"  公式: {self.expr}")
            # 添加错误位置指示器
            if self.col_offset is not None and self.lineno is not None:
                # 计算错误行在表达式中的起始位置
                expr_lines = self.expr.split("\n")
                if 1 <= self.lineno <= len(expr_lines):
                    error_line = expr_lines[self.lineno - 1]
                    lines.append(f"       {error_line}")
                    # 添加指向错误位置的箭头
                    pointer = " " * (self.col_offset + 7) + "^--- 此处出错"
                    lines.append(pointer)
        return "\n".join(lines)
 class UnknownFunctionError(FormulaParseError):
    """未知函数错误。
    当表达式中使用了未注册的函数时抛出。
    Attributes:
        func_name: 未知的函数名
        available: 可用函数列表
        suggestions: 模糊匹配建议列表
    """
    def __init__(
        self,
        func_name: str,
        available: List[str],
        expr: Optional[str] = None,
        lineno: Optional[int] = None,
        col_offset: Optional[int] = None,
    ):
        self.func_name = func_name
        self.available = available
        # 使用 difflib 获取模糊匹配建议
        self.suggestions = difflib.get_close_matches(
            func_name, available, n=3, cutoff=0.5
        )
        # 构建错误信息
        if self.suggestions:
            suggestion_str = ", ".join(f"'{s}'" for s in self.suggestions)
            hint_msg = f"你是不是想找: {suggestion_str}？"
        else:
            # 只显示前10个可用函数
            available_preview = ", ".join(available[:10])
            if len(available) > 10:
                available_preview += f", ... 等共 {len(available)} 个函数"
            hint_msg = f"可用函数预览: {available_preview}"
        msg = f"未知函数 '{func_name}'。{hint_msg}"
        super().__init__(
            message=msg,
            expr=expr,
            lineno=lineno,
            col_offset=col_offset,
        )
 class InvalidSyntaxError(FormulaParseError):
    """语法错误。
    当表达式语法不正确或不支持时抛出。
    """
    pass
 class UnsupportedOperatorError(InvalidSyntaxError):
    """不支持的运算符错误。
    当使用了不支持的运算符时抛出（如位运算、矩阵运算等）。
    """
    pass
 class EmptyExpressionError(FormulaParseError):
    """空表达式错误。"""
    def __init__(self):
        super().__init__("表达式不能为空或只包含空白字符")
 class RegistryError(Exception):
    """注册表错误基类。"""
    pass
 class DuplicateFunctionError(RegistryError):
    """函数重复注册错误。
    当尝试注册已存在的函数且未设置 force=True 时抛出。
    """
    def __init__(self, func_name: str):
        self.func_name = func_name
        super().__init__(
            f"函数 '{func_name}' 已存在。使用 force=True 覆盖，或选择其他名称。"
        )
--- a/src/factors/parser.py
+++ b/src/factors/parser.py
@@ -0,0 +1,411 @@
 """公式解析器 - 将字符串表达式转换为 DSL 节点树。
 基于 Python ast 模块实现，支持算术运算、比较运算、函数调用等。
 示例:
    >>> from src.factors.parser import FormulaParser
    >>> from src.factors.registry import FunctionRegistry
    >>> parser = FormulaParser(FunctionRegistry())
    >>> node = parser.parse("ts_mean(close, 20)")
    >>> print(node)
    ts_mean(close, 20)
 """
 import ast
 from typing import Any, Dict, Optional, TYPE_CHECKING
 from src.factors.dsl import Node, Symbol, Constant, BinaryOpNode, UnaryOpNode
 from src.factors.exceptions import (
    FormulaParseError,
    UnknownFunctionError,
    InvalidSyntaxError,
    EmptyExpressionError,
 )
 if TYPE_CHECKING:
    from src.factors.registry import FunctionRegistry
 # 运算符映射表
 BIN_OP_MAP: Dict[type, str] = {
    ast.Add: "+",
    ast.Sub: "-",
    ast.Mult: "*",
    ast.Div: "/",
    ast.Pow: "**",
    ast.FloorDiv: "//",
    ast.Mod: "%",
 }
 UNARY_OP_MAP: Dict[type, str] = {
    ast.UAdd: "+",
    ast.USub: "-",
    ast.Invert: "~",  # 不支持，应报错
 }
 COMPARE_OP_MAP: Dict[type, str] = {
    ast.Eq: "==",
    ast.NotEq: "!=",
    ast.Lt: "<",
    ast.LtE: "<=",
    ast.Gt: ">",
    ast.GtE: ">=",
 }
 class FormulaParser:
    """基于 AST 的公式解析器。
    将字符串表达式解析为 DSL 节点树，支持：
    - 符号引用（如 close, open）
    - 数值常量（如 20, 3.14）
    - 二元运算（如 +, -, *, /）
    - 一元运算（如 -x）
    - 函数调用（如 ts_mean(close, 20)）
    - 比较运算（如 close > open）
    Attributes:
        registry: 函数注册表，用于解析函数调用
    """
    def __init__(self, registry: "FunctionRegistry") -> None:
        """初始化解析器。
        Args:
            registry: 函数注册表，提供函数名到可调用对象的映射
        """
        self.registry = registry
    def parse(self, expr: str) -> Node:
        """解析字符串表达式为 Node 树。
        Args:
            expr: 公式字符串，如 "ts_mean(close, 20)"
        Returns:
            解析后的 Node 节点
        Raises:
            EmptyExpressionError: 表达式为空时抛出
            SyntaxError: Python 语法错误时抛出
            FormulaParseError: 解析失败时抛出
        Example:
            >>> parser.parse("close / open")
            BinaryOpNode("/", Symbol("close"), Symbol("open"))
        """
        # 检查空表达式
        if not expr or not expr.strip():
            raise EmptyExpressionError()
        # 解析为 Python AST
        try:
            tree = ast.parse(expr, mode="eval")
        except SyntaxError as e:
            # 将 SyntaxError 包装为 InvalidSyntaxError，统一异常类型
            raise InvalidSyntaxError(
                message=f"表达式语法错误: {e.msg}",
                expr=expr,
                lineno=e.lineno,
                col_offset=e.offset,
            ) from e
        # 递归访问 AST 节点
        try:
            return self._visit(tree.body, expr)
        except FormulaParseError:
            # 重新抛出 FormulaParseError（保留已有的位置信息）
            raise
        except Exception as e:
            # 将其他异常包装为 FormulaParseError
            if not isinstance(e, FormulaParseError):
                raise FormulaParseError(
                    message=f"解析失败: {str(e)}",
                    expr=expr,
                ) from e
            raise
    def _visit(self, node: ast.AST, expr: str) -> Node:
        """递归访问 AST 节点并转换为 DSL 节点。
        Args:
            node: Python AST 节点
            expr: 原始表达式字符串（用于错误报告）
        Returns:
            对应的 DSL 节点
        Raises:
            InvalidSyntaxError: 遇到不支持的语法时抛出
        """
        # 提取位置信息（如果节点有）
        lineno = getattr(node, "lineno", None)
        col_offset = getattr(node, "col_offset", None)
        try:
            if isinstance(node, ast.Name):
                return self._visit_Name(node)
            elif isinstance(node, ast.Constant):
                return self._visit_Constant(node, expr)
            elif isinstance(node, ast.BinOp):
                return self._visit_BinOp(node, expr)
            elif isinstance(node, ast.UnaryOp):
                return self._visit_UnaryOp(node, expr)
            elif isinstance(node, ast.Call):
                return self._visit_Call(node, expr)
            elif isinstance(node, ast.Compare):
                return self._visit_Compare(node, expr)
            else:
                raise InvalidSyntaxError(
                    message=f"不支持的语法: {type(node).__name__}",
                    expr=expr,
                    lineno=lineno,
                    col_offset=col_offset,
                )
        except FormulaParseError:
            # 重新抛出（保留已有的位置信息）
            raise
        except Exception as e:
            # 包装为 FormulaParseError，添加位置信息
            raise FormulaParseError(
                message=f"解析节点失败: {str(e)}",
                expr=expr,
                lineno=lineno,
                col_offset=col_offset,
            ) from e
    def _visit_Name(self, node: ast.Name) -> Symbol:
        """访问名称节点 - 永远转为 Symbol。
        注意：利用 AST 语法自然区分变量和函数调用：
        - log → Symbol("log")（数据列引用）
        - log(close) → 在 _visit_Call 中处理（函数调用）
        Args:
            node: AST 名称节点
        Returns:
            Symbol 节点
        """
        return Symbol(node.id)
    def _visit_Constant(self, node: ast.Constant, expr: str) -> Node:
        """访问常量节点。
        支持的类型：
        - int/float → Constant 节点
        - str → Symbol 节点（支持 ts_mean("close", 20) 语法）
        Args:
            node: AST 常量节点
            expr: 原始表达式字符串
        Returns:
            Constant 或 Symbol 节点
        Raises:
            InvalidSyntaxError: 不支持的常量类型
        """
        if isinstance(node.value, (int, float)):
            return Constant(node.value)
        elif isinstance(node.value, str):
            # 字符串常量转为 Symbol，支持 "close" 写法
            return Symbol(node.value)
        else:
            lineno = getattr(node, "lineno", None)
            col_offset = getattr(node, "col_offset", None)
            raise InvalidSyntaxError(
                message=f"不支持的常量类型: {type(node.value).__name__}",
                expr=expr,
                lineno=lineno,
                col_offset=col_offset,
            )
    def _visit_BinOp(self, node: ast.BinOp, expr: str) -> BinaryOpNode:
        """访问二元运算节点。
        Args:
            node: AST 二元运算节点
            expr: 原始表达式字符串
        Returns:
            BinaryOpNode 节点
        Raises:
            InvalidSyntaxError: 不支持的运算符
        """
        left = self._visit(node.left, expr)
        right = self._visit(node.right, expr)
        op = BIN_OP_MAP.get(type(node.op))
        if op is None:
            lineno = getattr(node, "lineno", None)
            col_offset = getattr(node, "col_offset", None)
            raise InvalidSyntaxError(
                message=f"不支持的运算符: {type(node.op).__name__}",
                expr=expr,
                lineno=lineno,
                col_offset=col_offset,
            )
        return BinaryOpNode(op, left, right)
    def _visit_UnaryOp(self, node: ast.UnaryOp, expr: str) -> Node:
        """访问一元运算节点。
        支持常量折叠优化：纯数值的一元运算直接计算结果。
        Args:
            node: AST 一元运算节点
            expr: 原始表达式字符串
        Returns:
            Constant（常量折叠）或 UnaryOpNode 节点
        Raises:
            InvalidSyntaxError: 不支持的运算符
        """
        operand = self._visit(node.operand, expr)
        op = UNARY_OP_MAP.get(type(node.op))
        lineno = getattr(node, "lineno", None)
        col_offset = getattr(node, "col_offset", None)
        if op is None:
            raise InvalidSyntaxError(
                message=f"不支持的一元运算符: {type(node.op).__name__}",
                expr=expr,
                lineno=lineno,
                col_offset=col_offset,
            )
        if op == "~":
            raise InvalidSyntaxError(
                message="位运算 '~' 不被支持",
                expr=expr,
                lineno=lineno,
                col_offset=col_offset,
            )
        # 常量折叠优化：纯数值直接计算
        if isinstance(operand, Constant) and isinstance(operand.value, (int, float)):
            if op == "-":
                return Constant(-operand.value)
            elif op == "+":
                return operand  # +5 就是 5
        # 非常量使用运算符重载
        if op == "-":
            return -operand
        elif op == "+":
            return +operand
        # 不应该到达这里
        raise InvalidSyntaxError(
            message=f"无法处理的一元运算符: {op}",
            expr=expr,
            lineno=lineno,
            col_offset=col_offset,
        )
    def _visit_Call(self, node: ast.Call, expr: str) -> Node:
        """访问函数调用节点。
        注意：只有在这里查注册表，处理函数调用。
        Args:
            node: AST 函数调用节点
            expr: 原始表达式字符串
        Returns:
            函数返回的 Node 节点
        Raises:
            InvalidSyntaxError: 不支持的函数调用语法
            UnknownFunctionError: 函数未注册
        """
        lineno = getattr(node, "lineno", None)
        col_offset = getattr(node, "col_offset", None)
        # 只支持简单函数调用（如 func(a, b)）
        if not isinstance(node.func, ast.Name):
            raise InvalidSyntaxError(
                message="只支持简单函数调用（如 func(a, b)）",
                expr=expr,
                lineno=lineno,
                col_offset=col_offset,
            )
        func_name = node.func.id
        func = self.registry.get(func_name)
        if func is None:
            raise UnknownFunctionError(
                func_name=func_name,
                available=self.registry.available_functions(),
                expr=expr,
                lineno=lineno,
                col_offset=col_offset,
            )
        # 解析位置参数
        args = [self._visit(arg, expr) for arg in node.args]
        # 解析关键字参数（如果有）
        kwargs = {}
        for keyword in node.keywords:
            kwargs[keyword.arg] = self._visit(keyword.value, expr)
        # 应用函数
        try:
            if kwargs:
                return func(*args, **kwargs)
            return func(*args)
        except TypeError as e:
            raise InvalidSyntaxError(
                message=f"函数 '{func_name}' 调用失败: {e}",
                expr=expr,
                lineno=lineno,
                col_offset=col_offset,
            ) from e
    def _visit_Compare(self, node: ast.Compare, expr: str) -> BinaryOpNode:
        """访问比较运算节点。
        注意：只支持简单二元比较，不支持链式比较（如 a < b < c）。
        Args:
            node: AST 比较节点
            expr: 原始表达式字符串
        Returns:
            BinaryOpNode 节点（使用比较运算符）
        Raises:
            InvalidSyntaxError: 链式比较或不支持的运算符
        """
        lineno = getattr(node, "lineno", None)
        col_offset = getattr(node, "col_offset", None)
        # Python 支持链式比较 (a < b < c)，这里简化为二元比较
        if len(node.ops) != 1 or len(node.comparators) != 1:
            raise InvalidSyntaxError(
                message="只支持简单二元比较（如 a > b），不支持链式比较",
                expr=expr,
                lineno=lineno,
                col_offset=col_offset,
            )
        left = self._visit(node.left, expr)
        op = COMPARE_OP_MAP.get(type(node.ops[0]))
        if op is None:
            raise InvalidSyntaxError(
                message=f"不支持的比较运算符: {type(node.ops[0]).__name__}",
                expr=expr,
                lineno=lineno,
                col_offset=col_offset,
            )
        right = self._visit(node.comparators[0], expr)
        return BinaryOpNode(op, left, right)
--- a/src/factors/registry.py
+++ b/src/factors/registry.py
@@ -0,0 +1,227 @@
 """函数注册表 - 管理字符串函数名到 Python 函数的映射。
 支持自动发现和手动注册，与 FormulaParser 配合使用。
 示例:
    >>> from src.factors.registry import FunctionRegistry
    >>> registry = FunctionRegistry(auto_scan=True)  # 自动加载 api.py 函数
    >>> registry.available_functions()[:5]
    ['abs', 'clip', 'cs_demean', 'cs_neutralize', 'cs_rank']
 """
 import inspect
 import typing
 from typing import Any, Callable, Dict, List, Optional, Set
 from src.factors.dsl import Node, FunctionNode
 from src.factors.exceptions import DuplicateFunctionError
 class FunctionRegistry:
    """函数注册表。
    管理字符串函数名到可调用对象的映射。
    自动从 api.py 加载标准函数，支持用户自定义函数注册。
    Attributes:
        _functions: 函数字典，name -> callable
    """
    def __init__(self, auto_scan: bool = True) -> None:
        """初始化注册表。
        Args:
            auto_scan: 是否自动扫描 api.py 模块，默认 True
        """
        self._functions: Dict[str, Callable] = {}
        if auto_scan:
            self._scan_api_module()
    def register(
        self, name: str, func: Callable, force: bool = False
    ) -> "FunctionRegistry":
        """注册自定义函数。
        Args:
            name: 函数名称（字符串形式）
            func: 可调用对象
            force: 是否强制覆盖已存在的函数，默认 False
        Returns:
            self（支持链式调用）
        Raises:
            DuplicateFunctionError: 当函数名已存在且 force=False 时
        Example:
            >>> registry = FunctionRegistry(auto_scan=False)
            >>> registry.register("my_func", lambda x: x * 2)
            >>> registry.get("my_func")(5)
            10
        """
        if name in self._functions and not force:
            raise DuplicateFunctionError(name)
        self._functions[name] = func
        return self
    def unregister(self, name: str) -> "FunctionRegistry":
        """注销函数。
        Args:
            name: 要注销的函数名
        Returns:
            self（支持链式调用）
        Raises:
            KeyError: 函数不存在时
        """
        if name not in self._functions:
            raise KeyError(f"函数 '{name}' 不存在")
        del self._functions[name]
        return self
    def get(self, name: str) -> Optional[Callable]:
        """获取函数。
        Args:
            name: 函数名称
        Returns:
            函数对象，不存在返回 None
        """
        return self._functions.get(name)
    def has(self, name: str) -> bool:
        """检查函数是否存在。
        Args:
            name: 函数名称
        Returns:
            是否存在
        """
        return name in self._functions
    def available_functions(self) -> List[str]:
        """返回所有可用函数名列表（按字母序）。
        Returns:
            排序后的函数名列表
        """
        return sorted(self._functions.keys())
    def clear(self) -> "FunctionRegistry":
        """清空所有注册的函数。
        Returns:
            self（支持链式调用）
        """
        self._functions.clear()
        return self
    def scan_module(
        self, module: Any, prefix: str = "", force: bool = False
    ) -> "FunctionRegistry":
        """扫描指定模块，自动注册符合条件的函数。
        扫描规则:
        1. 模块级别的函数（排除私有函数 _*）
        2. 返回类型注解为 Node 或 FunctionNode
        Args:
            module: 要扫描的模块对象
            prefix: 函数名前缀，用于避免命名冲突
            force: 是否强制覆盖已存在的函数
        Returns:
            self（支持链式调用）
        Example:
            >>> import my_custom_module
            >>> registry.scan_module(my_custom_module, prefix="custom_")
        """
        for name, obj in inspect.getmembers(module):
            # 只处理非私有函数
            if not inspect.isfunction(obj) or name.startswith("_"):
                continue
            # 检查是否应该注册
            if self._should_register(obj):
                full_name = prefix + name
                self.register(full_name, obj, force=force)
        return self
    def _scan_api_module(self) -> None:
        """自动扫描 api.py 模块，注册所有符合条件的函数。
        这是默认的自动扫描行为，在 __init__ 中调用。
        """
        try:
            from src.factors import api
            self.scan_module(api)
        except ImportError:
            # api 模块可能不存在，静默跳过
            pass
    def _should_register(self, func: Callable) -> bool:
        """检查函数是否应该被注册。
        基于类型提示检查函数返回类型，只注册返回 Node 或 FunctionNode 的函数。
        Args:
            func: 要检查的函数
        Returns:
            是否应该注册该函数
        """
        try:
            hints = typing.get_type_hints(func)
            return_type = hints.get("return")
            if return_type is None:
                return False
            # 处理 Union 类型（如 Union[Node, FunctionNode]）
            origin = typing.get_origin(return_type)
            args = typing.get_args(return_type)
            if origin is typing.Union:
                # Union 类型，检查任一参数
                return any(self._is_node_type(arg) for arg in args)
            else:
                # 单一类型
                return self._is_node_type(return_type)
        except Exception:
            return False
    def _is_node_type(self, typ: Any) -> bool:
        """检查类型是否是 Node 或 FunctionNode 的子类。
        Args:
            typ: 要检查的类型
        Returns:
            是否是 Node 相关类型
        """
        if not isinstance(typ, type):
            return False
        return issubclass(typ, (Node, FunctionNode))
    def __len__(self) -> int:
        """返回已注册函数数量。"""
        return len(self._functions)
    def __contains__(self, name: str) -> bool:
        """检查是否包含某个函数名。"""
        return name in self._functions
    def __repr__(self) -> str:
        """返回注册表字符串表示。"""
        return f"FunctionRegistry({len(self._functions)} functions: {self.available_functions()[:5]}...)"