COCO研究院

 找回密碼
 註冊
搜索
查看: 12555|回復: 17

[數據] pythone 鉅亨網抓歷史資料

[複製鏈接]
發表於 18-12-27 14:21 | 顯示全部樓層 |閱讀模式
證交所一直擋,pythone 改成 sleep 5s 也沒用,多抓幾支就幾個小時,無奈只能改從其他網站抓了,
從原本的檔案更改,鉅亨網好像沒有下載的選項,目前卡在要無法送出資料,麻煩各大大有空時指導下,感謝。
改成這樣, 開始跟結束日期格式是對了,不過無法送出查詢


原始檔.tar

4.5 KB, 下載次數: 306

鉅亨網.tar

2.5 KB, 下載次數: 322

發表於 18-12-27 17:11 | 顯示全部樓層
給個證交所要下載的網頁畫面,我來試試
發表於 18-12-27 18:16 | 顯示全部樓層
到底是要抓什麼?                           
 樓主| 發表於 18-12-28 11:17 | 顯示全部樓層
各位大大
   證交所是因為會擋,所以要改從鉅亨網抓歷史資料
   證交所抓檔案原程式檔如附件,需要在 C:\stock 資料夾內才能執行


stock.7z

214.27 KB, 下載次數: 337

 樓主| 發表於 18-12-28 16:52 | 顯示全部樓層
本帖最後由 阿俊 於 18-12-28 16:57 編輯

BeLikeCheetah 大   
    要改成抓鉅亨網的個股歷史股價,一樓的附件不是完全的,4樓的附件才是原本抓 完整證交所資料用的,

   不過目前抓證交所資料就算 sleep time 改成 5 秒,也是會攔 ip ,所以打算改抓鉅亨網的個股歷史收盤資料,

   不過還不太會分析網站,所以目前改到一樓的檔案時遇到瓶頸...

發表於 18-12-28 21:40 | 顯示全部樓層
阿俊 發表於 18-12-28 16:52
BeLikeCheetah 大   
    要改成抓鉅亨網的個股歷史股價,一樓的附件不是完全的,4樓的附件才是原本抓 完 ...

不能只抓盤後資料>每日收盤行情就好嗎? 裡面有所有股票的當日開高低收量
 樓主| 發表於 18-12-29 22:41 | 顯示全部樓層
BeLikeCheetah 發表於 18-12-28 21:40
不能只抓盤後資料>每日收盤行情就好嗎? 裡面有所有股票的當日開高低收量 ...

BeLikeCheetah
      如果是抓每日成交,需要每日抓一次,我沒有每天看股票,通常一星期整理一次看看有沒有啥超跌的股可以選
      我只跑比較大波段,不常常殺進殺出的,資本沒那麼雄厚,心臟也沒那麼強。  


      再麻煩各位大大撥空幫忙看下,感恩


 樓主| 發表於 19-1-20 12:46 | 顯示全部樓層
Hi 各位先進 :

      近日終於有比較長的時間可以靜下來想想,並查詢網上的範例,終於有一點小小的進度。
      目前已經完成可以將 鉅亨網的資料下載,並存成 CSV 檔 , 如照片1 。

      但問題又來了,因為進入的日期都是往前預設一個月,如照片2。
      但我想要先改成我要的日期再抓資料,
      不知道版上的高手可以幫忙解惑一下嗎??

      附上程式碼供各位參考 (檔案要放在 E:\Information\Investment 才能執行)


照片1

照片1

照片2

照片2

code.7z

83.92 KB, 下載次數: 242

程式檔

發表於 19-1-20 13:06 | 顯示全部樓層
本帖最後由 Simon 於 19-1-20 13:08 編輯
阿俊 發表於 19-1-20 12:46
Hi 各位先進 :

      近日終於有比較長的時間可以靜下來想想,並查詢網上的範例,終於有一點小小的進度。 ...

請參閱 https://tw.saowen.com/a/99ff3a49 ... a0f738dff685fe3ad9a
1.先取得該物件的名稱
2.設定該物件參數
3.執行查詢

 樓主| 發表於 19-1-21 12:19 | 顯示全部樓層
Simon 發表於 19-1-20 13:06
請參閱 https://tw.saowen.com/a/99ff3a498678981e901d989c1f1581c7f2d3ecaabf325a0f738dff685fe3ad9a
1. ...

Dear simon 大:
      看了下日期是沒有唯讀屬性,應該不需移除屬性,所以清空格式再輸入我要的資料日期
      結果清空後,會變空白,無法代入我要的起始日,直接變成歷史最早資料日


    driver.find_element_by_id('ctl00_ContentPlaceHolder1_startText').clear()

    driver.find_element_by_id('ctl00_ContentPlaceHolder1_startText').send_keys(classSelectTextStart)

      又或者使用 js 直接將數值改為我要的起始日,也是一樣變成從歷史最早資料開始

    jsstart = "$('input[id=ctl00_ContentPlaceHolder1_startText]').attr('value','classSelectTextStart')"

      請問要從哪方面下手??


01.JPG
 樓主| 發表於 19-1-21 21:43 | 顯示全部樓層
Simon 發表於 19-1-21 18:54
阿俊大您好,
因為PYTHON太久沒用了, 都忘光光了
所以立馬雙手奉上剛剛自己寫的C# 執行檔

Dear simon 大:
   使用 C# 不會遇到證交所擋 IP 嗎??  我使用 python 每隔 5秒 抓一次,
    大概抓個 200 檔就被檔 ip 了。要再過 1~3 分鐘才能再抓,所以我才改抓鉅亨網

    不然我也懶得改程式.....,不是專業人員改的很痛苦

發表於 19-1-22 20:07 | 顯示全部樓層
本帖最後由 Simon 於 19-1-22 20:23 編輯
阿俊 發表於 19-1-21 21:43
Dear simon 大:
   使用 C# 不會遇到證交所擋 IP 嗎??  我使用 python 每隔 5秒 抓一次,
    大概抓個 2 ...

剛剛測試一下。。。
更新300-500檔股票。。。IP沒有被檔阿。。。
阿俊大可以試試看。。。
程式會自動休息2.5 sec 。
請注意:
程式會在放到2019/01/30日前。。。之後就會失效。。。






 樓主| 發表於 19-1-22 21:33 | 顯示全部樓層
Simon 發表於 19-1-22 20:07
剛剛測試一下。。。
更新300-500檔股票。。。IP沒有被檔阿。。。
阿俊大可以試試看。。。

Hi simon 大:
    檔案我昨天已經下載了,也試了不會擋 IP 。
    你可能誤解我的意思了,我是指一樣用程式 request 証交所,
    証交所那邊應該不知道每個人是用什麼程式抓資料,所以應該是用 IP 跟時間過濾,
    只要是密集蒐集就會擋個 3 分鐘,
    而您的程式竟然沒有擋...... ,好像蠻神奇的。小弟還蠻想知道原因的 ^_^

    還是您是用會員的身份登錄抓資料,所以才不會被擋啊??  


發表於 19-1-22 21:51 | 顯示全部樓層
本帖最後由 Simon 於 19-1-22 22:01 編輯
阿俊 發表於 19-1-22 21:33
Hi simon 大:
    檔案我昨天已經下載了,也試了不會擋 IP 。
    你可能誤解我的意思了,我是指一樣用程 ...

我沒有會員啦。。。只是用多執行緒去跑而已。。。
(其實我在程式裡面加上了AI。。。去阻擋證交所監控IP。。。你相信嗎?)
發表於 19-1-24 21:58 | 顯示全部樓層
感覺一堆高手....可能還要再複習一下Python了
您需要登錄後才可以回帖 登錄 | 註冊

本版積分規則

手機版|Archiver|站長信箱|廣告洽詢|COCO研究院

GMT+8, 24-12-27 23:06

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回復 返回頂部 返回列表
理財討論網站 |