NewStock/code/data/update/update_stk_limit.ipynb

{
 "cells": [
  {
   "cell_type": "code",
   "id": "500802dc-7a20-48b7-a470-a4bae3ec534b",
   "metadata": {
    "ExecuteTime": {
     "end_time": "2025-04-08T13:37:12.814092Z",
     "start_time": "2025-04-08T13:37:11.953133Z"
    }
   },
   "source": [
    "import tushare as ts\n",
    "\n",
    "ts.set_token('3a0741c702ee7e5e5f2bf1f0846bafaafe4e320833240b2a7e4a685f')\n",
    "pro = ts.pro_api()"
   ],
   "outputs": [],
   "execution_count": 1
  },
  {
   "cell_type": "code",
   "id": "5a84bc9da6d54868",
   "metadata": {
    "ExecuteTime": {
     "end_time": "2025-04-08T13:37:35.724923Z",
     "start_time": "2025-04-08T13:37:12.820096Z"
    }
   },
   "source": [
    "import pandas as pd\n",
    "import time\n",
    "\n",
    "h5_filename = '../../../data/stk_limit.h5'\n",
    "key = '/stk_limit'\n",
    "max_date = None\n",
    "with pd.HDFStore(h5_filename, mode='r') as store:\n",
    "    df = store[key][['ts_code', 'trade_date']]\n",
    "    print(df.sort_values(by='trade_date', ascending=True).tail())\n",
    "    print(df.info())\n",
    "    max_date = df['trade_date'].max()\n",
    "\n",
    "print(max_date)\n",
    "trade_cal = pro.trade_cal(exchange='', start_date='20170101', end_date='20250420')\n",
    "trade_cal = trade_cal[trade_cal['is_open'] == 1]  # 只保留交易日\n",
    "trade_dates = trade_cal[trade_cal['cal_date'] > max_date]['cal_date'].tolist()\n",
    "start_date = min(trade_dates)\n",
    "print(start_date)"
   ],
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "        ts_code trade_date\n",
      "4721  600284.SH   20250408\n",
      "4722  600285.SH   20250408\n",
      "4723  600287.SH   20250408\n",
      "4712  600272.SH   20250408\n",
      "5     000008.SZ   20250408\n",
      "<class 'pandas.core.frame.DataFrame'>\n",
      "Index: 10315620 entries, 0 to 14151\n",
      "Data columns (total 2 columns):\n",
      " #   Column      Dtype \n",
      "---  ------      ----- \n",
      " 0   ts_code     object\n",
      " 1   trade_date  object\n",
      "dtypes: object(2)\n",
      "memory usage: 236.1+ MB\n",
      "None\n",
      "20250408\n",
      "20250409\n"
     ]
    }
   ],
   "execution_count": 2
  },
  {
   "cell_type": "code",
   "id": "bb3191de-27a2-4c89-a3b5-32a0d7b9496f",
   "metadata": {
    "scrolled": true,
    "ExecuteTime": {
     "end_time": "2025-04-08T13:37:36.896959Z",
     "start_time": "2025-04-08T13:37:35.931558Z"
    }
   },
   "source": [
    "from concurrent.futures import ThreadPoolExecutor, as_completed\n",
    "\n",
    "all_daily_data = []\n",
    "\n",
    "# API 调用计数和时间控制变量\n",
    "api_call_count = 0\n",
    "batch_start_time = time.time()\n",
    "\n",
    "\n",
    "def get_data(trade_date):\n",
    "    time.sleep(0.1)\n",
    "    stk_limit_data = pro.stk_limit(trade_date=trade_date)\n",
    "    if stk_limit_data is not None and not stk_limit_data.empty:\n",
    "        return stk_limit_data\n",
    "\n",
    "\n",
    "with ThreadPoolExecutor(max_workers=2) as executor:\n",
    "    future_to_date = {executor.submit(get_data, td): td for td in trade_dates}\n",
    "\n",
    "    for future in as_completed(future_to_date):\n",
    "        trade_date = future_to_date[future]  # 获取对应的交易日期\n",
    "        try:\n",
    "            result = future.result()  # 获取任务执行的结果\n",
    "            if result is not None:\n",
    "                all_daily_data.append(result)\n",
    "            print(f\"任务 {trade_date} 完成\")\n",
    "        except Exception as e:\n",
    "            print(f\"获取 {trade_date} 数据时出错: {e}\")\n",
    "\n"
   ],
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "任务 20250418 完成\n",
      "任务 20250417 完成\n",
      "任务 20250416 完成\n",
      "任务 20250415 完成\n",
      "任务 20250414 完成\n",
      "任务 20250411 完成\n",
      "任务 20250409 完成\n",
      "任务 20250410 完成\n"
     ]
    }
   ],
   "execution_count": 3
  },
  {
   "cell_type": "code",
   "id": "96a81aa5890ea3c3",
   "metadata": {
    "ExecuteTime": {
     "end_time": "2025-04-08T13:37:37.699901Z",
     "start_time": "2025-04-08T13:37:36.909744Z"
    }
   },
   "source": [
    "print(all_daily_data)\n",
    "# 将所有数据合并为一个 DataFrame\n",
    "all_daily_data_df = pd.concat(all_daily_data, ignore_index=True)"
   ],
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "[]\n"
     ]
    },
    {
     "ename": "ValueError",
     "evalue": "No objects to concatenate",
     "output_type": "error",
     "traceback": [
      "\u001B[1;31m---------------------------------------------------------------------------\u001B[0m",
      "\u001B[1;31mValueError\u001B[0m                                Traceback (most recent call last)",
      "Cell \u001B[1;32mIn[4], line 3\u001B[0m\n\u001B[0;32m      1\u001B[0m \u001B[38;5;28mprint\u001B[39m(all_daily_data)\n\u001B[0;32m      2\u001B[0m \u001B[38;5;66;03m# 将所有数据合并为一个 DataFrame\u001B[39;00m\n\u001B[1;32m----> 3\u001B[0m all_daily_data_df \u001B[38;5;241m=\u001B[39m pd\u001B[38;5;241m.\u001B[39mconcat(all_daily_data, ignore_index\u001B[38;5;241m=\u001B[39m\u001B[38;5;28;01mTrue\u001B[39;00m)\n",
      "File \u001B[1;32mE:\\Python\\anaconda\\envs\\new_trader\\Lib\\site-packages\\pandas\\core\\reshape\\concat.py:382\u001B[0m, in \u001B[0;36mconcat\u001B[1;34m(objs, axis, join, ignore_index, keys, levels, names, verify_integrity, sort, copy)\u001B[0m\n\u001B[0;32m    379\u001B[0m \u001B[38;5;28;01melif\u001B[39;00m copy \u001B[38;5;129;01mand\u001B[39;00m using_copy_on_write():\n\u001B[0;32m    380\u001B[0m     copy \u001B[38;5;241m=\u001B[39m \u001B[38;5;28;01mFalse\u001B[39;00m\n\u001B[1;32m--> 382\u001B[0m op \u001B[38;5;241m=\u001B[39m _Concatenator(\n\u001B[0;32m    383\u001B[0m     objs,\n\u001B[0;32m    384\u001B[0m     axis\u001B[38;5;241m=\u001B[39maxis,\n\u001B[0;32m    385\u001B[0m     ignore_index\u001B[38;5;241m=\u001B[39mignore_index,\n\u001B[0;32m    386\u001B[0m     join\u001B[38;5;241m=\u001B[39mjoin,\n\u001B[0;32m    387\u001B[0m     keys\u001B[38;5;241m=\u001B[39mkeys,\n\u001B[0;32m    388\u001B[0m     levels\u001B[38;5;241m=\u001B[39mlevels,\n\u001B[0;32m    389\u001B[0m     names\u001B[38;5;241m=\u001B[39mnames,\n\u001B[0;32m    390\u001B[0m     verify_integrity\u001B[38;5;241m=\u001B[39mverify_integrity,\n\u001B[0;32m    391\u001B[0m     copy\u001B[38;5;241m=\u001B[39mcopy,\n\u001B[0;32m    392\u001B[0m     sort\u001B[38;5;241m=\u001B[39msort,\n\u001B[0;32m    393\u001B[0m )\n\u001B[0;32m    395\u001B[0m \u001B[38;5;28;01mreturn\u001B[39;00m op\u001B[38;5;241m.\u001B[39mget_result()\n",
      "File \u001B[1;32mE:\\Python\\anaconda\\envs\\new_trader\\Lib\\site-packages\\pandas\\core\\reshape\\concat.py:445\u001B[0m, in \u001B[0;36m_Concatenator.__init__\u001B[1;34m(self, objs, axis, join, keys, levels, names, ignore_index, verify_integrity, copy, sort)\u001B[0m\n\u001B[0;32m    442\u001B[0m \u001B[38;5;28mself\u001B[39m\u001B[38;5;241m.\u001B[39mverify_integrity \u001B[38;5;241m=\u001B[39m verify_integrity\n\u001B[0;32m    443\u001B[0m \u001B[38;5;28mself\u001B[39m\u001B[38;5;241m.\u001B[39mcopy \u001B[38;5;241m=\u001B[39m copy\n\u001B[1;32m--> 445\u001B[0m objs, keys \u001B[38;5;241m=\u001B[39m \u001B[38;5;28mself\u001B[39m\u001B[38;5;241m.\u001B[39m_clean_keys_and_objs(objs, keys)\n\u001B[0;32m    447\u001B[0m \u001B[38;5;66;03m# figure out what our result ndim is going to be\u001B[39;00m\n\u001B[0;32m    448\u001B[0m ndims \u001B[38;5;241m=\u001B[39m \u001B[38;5;28mself\u001B[39m\u001B[38;5;241m.\u001B[39m_get_ndims(objs)\n",
      "File \u001B[1;32mE:\\Python\\anaconda\\envs\\new_trader\\Lib\\site-packages\\pandas\\core\\reshape\\concat.py:507\u001B[0m, in \u001B[0;36m_Concatenator._clean_keys_and_objs\u001B[1;34m(self, objs, keys)\u001B[0m\n\u001B[0;32m    504\u001B[0m     objs_list \u001B[38;5;241m=\u001B[39m \u001B[38;5;28mlist\u001B[39m(objs)\n\u001B[0;32m    506\u001B[0m \u001B[38;5;28;01mif\u001B[39;00m \u001B[38;5;28mlen\u001B[39m(objs_list) \u001B[38;5;241m==\u001B[39m \u001B[38;5;241m0\u001B[39m:\n\u001B[1;32m--> 507\u001B[0m     \u001B[38;5;28;01mraise\u001B[39;00m \u001B[38;5;167;01mValueError\u001B[39;00m(\u001B[38;5;124m\"\u001B[39m\u001B[38;5;124mNo objects to concatenate\u001B[39m\u001B[38;5;124m\"\u001B[39m)\n\u001B[0;32m    509\u001B[0m \u001B[38;5;28;01mif\u001B[39;00m keys \u001B[38;5;129;01mis\u001B[39;00m \u001B[38;5;28;01mNone\u001B[39;00m:\n\u001B[0;32m    510\u001B[0m     objs_list \u001B[38;5;241m=\u001B[39m \u001B[38;5;28mlist\u001B[39m(com\u001B[38;5;241m.\u001B[39mnot_none(\u001B[38;5;241m*\u001B[39mobjs_list))\n",
      "\u001B[1;31mValueError\u001B[0m: No objects to concatenate"
     ]
    }
   ],
   "execution_count": 4
  },
  {
   "cell_type": "code",
   "execution_count": 5,
   "id": "ad9733a1-2f42-43ee-a98c-0bf699304c21",
   "metadata": {
    "ExecuteTime": {
     "end_time": "2025-04-08T13:37:37.748574900Z",
     "start_time": "2025-04-06T15:34:48.693158Z"
    }
   },
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "所有每日基础数据获取并保存完毕！\n"
     ]
    }
   ],
   "source": [
    "\n",
    "\n",
    "# 将数据保存为 HDF5 文件（table 格式）\n",
    "all_daily_data_df.to_hdf(h5_filename, key='stk_limit', mode='a', format='table', append=True, data_columns=True)\n",
    "\n",
    "print(\"所有每日基础数据获取并保存完毕！\")"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "id": "7e777f1f-4d54-4a74-b916-691ede6af055",
   "metadata": {
    "ExecuteTime": {
     "end_time": "2025-04-08T13:37:37.762102Z",
     "start_time": "2025-04-06T15:34:48.977771Z"
    }
   },
   "outputs": [],
   "source": []
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3 (ipykernel)",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.11.11"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 5
}