Time series database (時間序列的資料庫)

wldtw2008 · 發表於 14-11-30 15:43

wcyjulian 發表於 14-11-29 11:04
能抓老鼠用來賺錢的就是好工具 :)
我們應該在做同樣的事, 一磚一瓦自己堆是好事, 就是得自己慢慢摸,有機會 ...

感謝您提供的資訊，實在是太專業了。如您所說，這個領域百家齊放，各領風騷，眼花撩亂啊。能在撩起袖子前先跟前輩交流減少選擇錯誤的消耗，真的很感謝，即便是一個英文字的關鍵字也是莫大的受惠啊。

如果realtime ticks可以抓到, ohlc不就可以自己算嗎?

是得，沒錯，有tick資料可以自己歸檔，不過如果有人幫我們直接就做好那真的是太棒了!!

wcyjulian · 發表於 14-12-1 00:23

本帖最後由 wcyjulian 於 14-12-1 01:42 編輯

能在撩起袖子前先跟前輩交流減少選擇錯誤的消耗，真的很感謝，即便是一個英文字的關鍵字也是莫大的受惠啊。

看到有些人利用知識跟資訊的落差, 在資本市場大賺其錢, 就覺得交易沒有所謂前背後背的差別 XD

如果沒有B.N.F 那種天生的敏感度, 那學學James Simons可能比較有機會, 身體也比較能保持健康一點, 前一篇回 solo的內容有我的line, 有需要歡迎線上一起討論

wldtw2008 · 發表於 15-2-28 12:08

小弟用Cassandra當DB，寫了一個python接收小弟的D2TQMini 的tick資料後寫入 Cassandra，保存所有商品的tick資料。
我用一台超爛的省電PC，ACER R3600 (CPU:ATOM 230)，不關機開了54天，收下來的資料約1.6G。

這是隨便查一個商品的資料

這個應用的重點是，我只寫了一個PY，然後所有的資料就全部保存進去(其實BidAsk報價我也有收過，但是太龐大後來我就不收了)，不需要設定哪些商品要存哪些不要存。並且強調他的穩定度，約60天不關機還能穩穩紀錄資料。

但後續還有要繼續做的事情還很多，現在想的到的是 1. 把些TICK資料轉畫歸檔成SEC、MIN、HOUR的OHLC, 2. 做一個接口讓R之類的統計軟體能直接來DB存取 3. 甚至把我的IBSIM與這個結合，當MC那種軟體來跟IBSIM要歷史回補時，就透Cassandra取出歷史資料。

想做的事情實在很多，時間太少了。

citrix · 發表於 15-3-12 03:13

我用的是自己定义的数据类型，从Metastock的二进制数据演变来的，用Amibroker就可以直接看Chart了

wldtw2008 · 發表於 15-3-28 21:03

更新一下#18的後續，
這個Cassandra Server我一直開著，到今天已經用了2.2G的空間。(現在都只收tick資料了，所收的商品有WTX,MTX,A50,STW,WTX委賣賣,NIFTY,N225M,和這些期貨商品的指數)

我後來寫了一個C的小程式，能去撈出只定商品指定日期區間，以日期排序後的tick，以台指為範例，20141209~20150327，我共存了156萬筆tick,把他們撈出來要花1020秒。

query語法為:'SELECT * from test1.tqdata6 where symbol='WTX' and datetime>='2014-01-01' and datetime<'2015-03-28' order by datetime
每個分頁4萬筆，總共51頁。

C的撈取tick的程式如附件。schema為:
CREATE TABLE test1.tqdata6 (
symbol text,
datetime timestamp,
keyval map<text, double>,
type int,
PRIMARY KEY (symbol, datetime)
) WITH CLUSTERING ORDER BY (datetime ASC)
AND bloom_filter_fp_chance = 0.01
AND caching = '{"keys":"ALL", "rows_per_partition":"NONE"}'
AND comment = ''
AND compaction = {'min_threshold': '4', 'class': 'org.apache.cassandra.db.compaction.SizeTieredCompactionStrategy', 'max_threshold': '32'}
AND compression = {'sstable_compression': 'org.apache.cassandra.io.compress.LZ4Compressor'}
AND dclocal_read_repair_chance = 0.1
AND default_time_to_live = 0
AND gc_grace_seconds = 864000
AND max_index_interval = 2048
AND memtable_flush_period_in_ms = 0
AND min_index_interval = 128
AND read_repair_chance = 0.0
AND speculative_retry = '99.0PERCENTILE';

wldtw2008 · 發表於 16-2-26 10:22

本帖最後由 wldtw2008 於 16-2-26 10:44 編輯

經過將近一年的開發與沉潛，這個TimeSeries DB 開發得差不多了，我把他打包成VirtualBox虛擬機的檔案，有興趣的可以去這裡下載：
https://drive.google.com/file/d/ ... G8/view?usp=sharing

下載後，使用VirtualBox 匯入、跑起來。登入的帳密是 tqdb / tqdb , sudo密碼是 tqdb。
RAM起碼要給2G以上。

開起來後，去編輯/home/tqdb/codes/tqdb/script_for_sys/profile_tqdb.sh 這個檔案，
把D2TQ_IP/D2TQ_PORT 設定好，然後存檔虛擬機重開機。開起來後他就自己會去D2TQ 取報價並且自動保存下來提供日後回補用。(全部需要設定的只有這裡)
目前虛擬機裡面開起來自動會跑三個24Hr假商品DEMO1、DEMO2、DEMO3

這個機器開起來後提供兩個PORT的服務，
一個是80，這是提供回補使用的，您可以以http://xxx.xxx.xxx.xxx:80 就知道效果(http://192.168.56.68/cgi-bin/q1m ... -2-23&END=2016-2-29)。
一個是8888，這是一個iPython的介面，可以使用python的語法方式把資料拉出、回測等等，您可以以http://xxx.xxx.xxx.xxx:8888 就知道效果。

這個TQDB我覺得還滿有用也滿方便的，只要開著他就會完美的服務，所有的TICK資料全部都會被收進去，每天凌晨把TICK變成1min，每周末把tick備份出來然後清掉，
再也不需要煩人的一個個商品去設定。(我自己的另一個工具IBSim，目前就是透過TQDB回補資料給MultiCharts，超完美!!)

有興趣的人可以抓下來玩玩。有問題可以問我。甚至幫我寫說明書、或幫我開發也行，TQDB專案我是用ApacheLicence方式釋放，
在虛擬機的/home/tqdb/codes下面就是TQDB @ github 的東西。
願意幫忙的朋友，我除了萬分感謝外，也會提供所有我能提供的工具、資訊、交易技巧，大家交個朋友!!
我這有很多東西可以被挖掘，您付出一點、我付出一點，最後我們都可以獲得更多更多。

以下是圖例
Port80, 查詢的截圖：

Port8888, iPython的圖：

howard2c · 發表於 16-2-26 14:51

看起來你花不少時間做這些工具, 佩服如果您再附上一個月的真實資料, 我會去看看.

還有, 澄清一下定義. Tick Data 資料應該是要包含時間, 委買價跟委買張數, 委賣價跟委賣張數. 成交資料則包括時間, 成交價格, 單筆成交量. 這定意對嗎? 還有, 你有想過要怎麼分析嗎?

wldtw2008 · 發表於 16-2-27 21:35

howard2c 發表於 16-2-26 14:51
看起來你花不少時間做這些工具, 佩服如果您再附上一個月的真實資料, 我會去看看.

還有, 澄清一下定義. ...

因為我查過市面上現成能用的工具，都找不到符合自己需求的，唯一有點想用的是KDB，但KDB好像不處理存資料的部分，只處理資料整併與分析前處理的部分。現在這個TQDB完全以我的需求在開發的。我的需求就是：開起來所有囉溝叟溝的所有的報價就自己收進去，然後轉成1min使用，並且以WebApi(http)提供資料下載(當初是要輸出給朋友用R去分析用)。資料的收集真的是苦工，做過的就知道了，有一個開起來就自動收集資料的工具能幫助，實在省事很多。
這一年來，我收了台金電指、摩台、印度、東証、ES、台指選擇權、與自己編纂的指數報價，還有一些非價格資訊，目前大概有130幾個商品的資料在裡面。。。有空我再找個不用的電腦，對外提供真實資料來展示好了。

TQDB經過這一年的開發，從最初只能收資料，到現在以WebAPI提供服務(能提供1min輸出、匯入)，又能搭配IBSim讓MC回補資料，從一個玩具變成一個可以真的使用的東西，當初真的也沒想到會走到這一步。

另外您說的Tick的定義，嚴格說來是如您所說。TQDB是可以收您說的這些東西，我一開始也的確有收所有的BID ASK的跳動，但幾經思量，我做為一個自然人屬於報價節點的最末端，報價經過上游的整併與延遲到我手上，基本上都失真了，也就是根本沒價值了。再加上實際收下來發現資料量實在太大，我就不收了。

至於分析的話，我還是以1Min為主。TQDB每個星期會自動把TICK資料匯出成TXT保存，先收下來日後有機會再來研究如何使用了。

f29825604 · 發表於 16-8-20 17:58

wldtw2008大大請問您
如果想用TQDB+IBSim讓MC即時回補盤中1Min資料
再組合成2Min,10Min,20Min,56Min
00642U,00631L,台指期
資料會不會有失誤呢?
感謝您!!
感激不盡!!

f29825604 · 發表於 16-8-21 12:27

A financial trading database with Cassandra

TQDB @ github
關鍵字
google
僅供參考!

wldtw2008 · 發表於 16-8-23 08:03

f29825604 發表於 16-8-20 17:58
wldtw2008大大請問您
如果想用TQDB+IBSim讓MC即時回補盤中1Min資料
再組合成2Min,10Min,20Min,56Min

我現在就是這樣用，效果非常滿意。

f29825604 · 發表於 16-8-23 09:18

wldtw2008 發表於 16-8-23 08:03
我現在就是這樣用，效果非常滿意。

讚讚讚!果然是重量級武器

問題:

有沒有考慮當1分資料源的供給伺服端
會不會花費很多建置成本

wldtw2008 · 發表於 16-8-23 17:07

f29825604 發表於 16-8-23 09:18
讚讚讚!果然是重量級武器

您的意思是對外服務嗎?
目前暫時沒有這個打算，因為工作、家庭(小孩還小很纏人)，ˊ實在沒有多餘的時間維運。

f29825604 · 發表於 16-8-25 18:06

本帖最後由 f29825604 於 16-8-25 18:30 編輯

wldtw2008大大請您
花一些時間看一下

https://yunpan.cn/ccPZUngCdCKTn

所有文件\-eleader-Strategy\eleader-Strategy\160328m61upt1

focus : 獲利成交次數比 100%

值不值得試看看在TQDB上面開發這個python策略
不是電腦挑選的
最沒效率的純手工打造
也不能保證一定會獲利

僅供參考!
祝福您!
闔家平安!

f29825604 · 發表於 16-8-26 12:15

突然想到
可以反向試試看
手工挑了一些圖
所有文件\-eleader-Strategy\eleader-Strategy\160328m61dnt1
僅供參考!
祝福您!
闔家平安!

		自動登錄	找回密碼
密碼			註冊

[其他程式語言] Time series database (時間序列的資料庫)

評分

評分

評分