COCO研究院

 找回密碼
 註冊
搜索
查看: 5623|回復: 17

"利用 Python 抓取資料導入 AB"問題

[複製鏈接]
發表於 13-12-6 14:15 | 顯示全部樓層 |閱讀模式
因為目前積分不夠所以無法PM

最近在研究用python下載每天上市股票和加權指數類收盤資料. 用calvinhorng兄分享的TSE_CLOSE下載了20040212-20131205的上市股票資料. 請問還可以抓到更早以前的資料嗎? TSE_CLOSE.py是否能改成包含每天加權指數類收盤資料. 為什麼下載出來的資料0001.TW是鴻運?

另外用TSE_VOL.bat下載歷史加權指數類收盤資料時, 天數調9000跑到最後會出現
TSE_VOL.JPG
調到天數10-20時又能正常下載?

感謝


發表於 13-12-6 22:15 | 顯示全部樓層
沒錯,2005年5月30日以前鴻運的證券代號是0001。
發表於 13-12-6 22:32 | 顯示全部樓層
證交所網站上的交易資訊 > 盤後資訊 > 每日收盤行情,

2004年2月11日起的資料可以用如下格式直接抓取csv檔,
http://www.twse.com.tw/ch/trading/exchange/MI_INDEX/MI_INDEX3_print.php?genpage=genpage/Report200402/A11220040211ALL_1.php&type=csv

2000年1月4日至2004年2月10日只能用如下格式抓取網頁,再自己寫程式轉成csv
http://www.twse.com.tw/ch/trading/exchange/MI_INDEX/MI_INDEX_oldtsec.php?input_date=89/01/04

還有一點要注意,證交所的資料在2004/02/10(含)以前提供的是成交張數,2004/02/11(含)以後提供的是成交股數。

發表於 13-12-6 22:46 | 顯示全部樓層
證券櫃檯買賣中心網站上的上櫃股票交易資訊 > 盤後資訊 > 上櫃股票行情,分成三種格式

2003年8月1日 ~ 2006年12月29日只能用如下格式抓取網頁,再自己寫程式轉成csv
http://www.gretai.org.tw/Hist/STOCK/AFTERTRADING/DAILY_CLOSE_QUOTES/RSTA3104_920801.html

2007年1月2日 ~ 2007年4月20日只能用如下格式抓取網頁,再自己寫程式轉成csv
http://www.gretai.org.tw/ch/stock/aftertrading/DAILY_CLOSE_quotes/RSTA3104_960102.html

2007年4月23日起的資料可以用如下格式直接抓取csv檔,
http://www.gretai.org.tw/ch/stock/aftertrading/DAILY_CLOSE_quotes/RSTA3104_960423.csv

三個時期的欄位格式都有小差異。

發表於 13-12-6 23:06 | 顯示全部樓層
原因很簡單,證交所的網站會不定時改版,不同時期的資料格式會有差異。
發表於 13-12-7 07:59 | 顯示全部樓層
pythonist 發表於 13-12-6 23:06
原因很簡單,證交所的網站會不定時改版,不同時期的資料格式會有差異。
...

這個理由讓握覺得自己還是要會改程式
明年之後開放當沖 搞不好會多一個違約交割股數的資料
 樓主| 發表於 13-12-8 19:17 | 顯示全部樓層
所以大家都是分開格式抓嗎?

假如有其他來源的歷史資料 跟用python抓到比較近期的資料. 用amibroker的import Wizard不知道可不可以把不同來源的資料整合一起.
發表於 13-12-9 07:33 | 顯示全部樓層
pythonist 發表於 13-12-6 23:06
原因很簡單,證交所的網站會不定時改版,不同時期的資料格式會有差異。
...

更簡單的原因是:裡面的員工沒有去做統合的工作

資料庫不敢轉移,怕會有問題...?

可能沒人願意花這個時間去做資料庫轉移的動作
 樓主| 發表於 13-12-9 08:02 | 顯示全部樓層
看起來好像只要ticker名字一樣 amibroker會自己合併.

請問哪裡可以一次下載到台股的歷史EOD資料 付費的也可以.
還是只能一個一個修改不同時期的資料格式...

發表於 13-12-9 17:45 | 顯示全部樓層
if you want EOD data OHLCV only, you can try
for example 1101
https://www.google.com/finance/historical?q=TPE%3A1101

Attached Goolge_F.rar (2.11 KB, 下載次數: 474) is the example Python and the batch
In the DN.bat command format as
c:\python33\python Google_F.py R:\OUT\ TPE:1101 1101 2013/11/01 2013/12/09

1. c:\python33\python is the path for python exeutable

2.  Google_F.py  is the python file

3. R:\OUT\  is the output directory

4. TPE:1101  symbol in Google Fianace; for tsmc is TPE:2330

5. Output file name

6. starting date

7. end date
發表於 13-12-31 22:33 | 顯示全部樓層
上櫃的網址改了,原有程式應該會失敗
發表於 14-1-1 11:04 | 顯示全部樓層
lwhuang 發表於 13-12-31 22:33
上櫃的網址改了,原有程式應該會失敗

櫃買中心網頁最近改版,從2013/12/27的資料就無法再用舊程式下載CSV檔了,當然也包含TWS4AB。
發表於 14-1-1 17:37 | 顯示全部樓層
calvinhorng 發表於 13-12-7 07:59
這個理由讓握覺得自己還是要會改程式
明年之後開放當沖 搞不好會多一個違約交割股數的資料
...

calvinhorng ,我最近運你寫的下載資料,可是OTC因為改版而下載不了,請問要如何去更改才能再度下載?
發表於 14-1-1 18:52 | 顯示全部樓層
pythonist 發表於 13-12-6 22:46
證券櫃檯買賣中心網站上的上櫃股票交易資訊 > 盤後資訊 > 上櫃股票行情,分成三種格式

2003年8月1日 ~ 200 ...

請問一下pythonist,12/31上櫃的程式bshtm_brokerBS無法下載資料,麻煩能提供程式那裡需要修改,感恩!!!謝謝
發表於 14-1-6 09:52 | 顯示全部樓層
版主大大可否教導一下,calvinhorng兄無私分享的python 下載程式。該如何使用呢??  已經下載了Python 到C:\Python33。TSE_CLOSE.bat 的內容三各參數。

C:\python33\python D:\TSE_CLOSE\TSE_CLOSE.py 3 D:\TSE\

可是這樣的狀況下,完全沒有任何東西在輸出目錄裡。
請教使用方法,感謝
您需要登錄後才可以回帖 登錄 | 註冊

本版積分規則

手機版|Archiver|站長信箱|廣告洽詢|COCO研究院

GMT+8, 24-11-22 06:43

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回復 返回頂部 返回列表
理財討論網站 |