1. 首頁
  2. 股票

關聯規則在股票分析及預測中的應用論文

關聯規則在股票分析及預測中的應用論文

摘要:證券市場中的漲跌起伏往往是瞬息萬變的,儘管如此,它還是存在著一定的規律:在某一段時間中,如果A股票出現上漲趨勢,則B股票必然會隨之上漲;如果A股票在tl時刻出現上漲趨勢,B股票在t2時(t2>tl)刻出現上漲趨勢,則C股票必然會在t3(t3>t2)時刻上漲。前一條規律能夠用來對股票之間的相互關係進行分析,後一條規律能夠用來對股票的漲跌進行預測,這些規律在投資者的實際決策過程中有著重要的參考價值和指導作用。

關鍵詞:資料關聯規則股票分析預測

1、選取資料

如果上市公司所經營的業務是相同或相近的,則在一段時間內股票價格的走勢就會呈現出相似性;在一定時間內,屬於同一個區域的上市公司也會受到區域經濟政策的直接影響,也會呈現出大體相同的變化形勢;如果上市公司之間具有關聯交易,相互持股、控股,則它們之間也會產生某種相互作用[37]。上述規則能夠透過關聯規則分析來發現,然而更重要的是發現另一種表面上沒有很強的相關性、但實際的股票價格卻具有很大關聯的規則。

設股票行情資料D={X1,X2,…,Xi,…,Xn。},其中Xi(1本文選取的研究物件是滬深300指數成分股,樣本時間是從2010年9月2日到2011年9月1日一年的資料。本文選取滬深300指數成分股為研究物件的主要原因具體如下:滬深300指數包含了各個行業的股票,並且覆蓋了滬深兩市60%以上的市值,將各個行業中規模較大,流動性較好的股票都包含在內;滬深300指數成分股包含了滬深股市中上市1個季度以上,而且不包含ST和*ST的股票,公司的經營情況一直很好,在一年內沒有發生過較重大的違法情況,股票價格也沒有明顯的異常波動等因素;滬深300指數從2006年編制以來,一直都是衡量上海和深圳股票市場的重要指標。綜合上述分析可知,滬深300指數成分股能很好反映出上海和深圳證券市場的總體特徵,具有很強的代表性。

選取樣本時間從2010年9月2日到2011年9月1日這段時間的`主要原因是:在這段時間中,大盤經歷了上漲波段和下跌波段,滬深300指數最低到1598,最高達3256,而且上漲時間和下跌時間大致相同。本文資料均來源於CASMAR資料庫,著重考慮股票價格變化之間存在的關聯關係,由於一天中股票價格有很多種,本文主要考慮的是收盤價。因此原始資料包含日期、股票程式碼、收盤價三個變數,經過處理資料中共有71268條記錄。

2、資料預處理

資料預處理是指在主要的處理以前對資料進行的一些處理。在我們實際生活的世界中,資料大多數都是不完整並且不一致的,根本沒有辦法直接使用資料探勘方法,或者會導致挖掘的結果不能讓人滿意。為了能夠有效的將資料探勘的質量提高,資料預處理技術便在這種形勢下產生了。資料預處理的方法有很多,具體包括:資料清理,資料整合,資料歸約,資料變換等[38]。在對資料進行挖掘之前,使用這些資料處理技術,能夠在很大程度上提高資料探勘模式的質量,並且有效的減少挖掘所使用的時間。我們所要研究的是在一段時間內,股票價格變動之間存在的關聯關係,因此只需對那些對投資有參考價值的資料進行研究。在投資過程中,關係到投資者收益的重要指標是收益率,在資料探勘中所選用的是每天的漲跌幅。首先以收盤價為依據,將每日的漲跌幅計算出來,日漲跌幅就是當日收盤價和上一個交易日收盤價之差與上一個交易日收盤價之比。計算公式如下:

在分析過程中我們所感興趣的是那些每天的漲跌幅大於一定幅度的股票,因為在股票市場中,大多數股票會隨著大盤指數的漲跌而不斷髮生變化,多數股票都會在大盤指數漲跌幅進行上下波動,所以只有漲跌幅超過一定範圍的股票才具有研究意義。因此我們在進行分析之前,引入最小日漲跌幅Min-UpRat。最小日漲跌幅的值是以具體的股票行情為依據並由使用者確定的,本文選取Min-UpRat為3%,這主要是從以下幾個方面考慮:現階段,中國的證券市場還處於發展階段,尚不成熟。股票在牛市中會存在隨大盤指數普遍上漲的情況,因此只有對那些漲勢較為劇烈的股票進行分析研究才會有實際意義。大部分股票在熊市中會出現普遍下跌的情況,出現上漲形勢的股票只有極少的一部分,漲勢能達到3%漲幅的股票更是少之又少。

在樣本中新增一個新的變數,極為win,當日漲跌幅大於最小日漲跌幅min-UpRat時,win就記為1,日漲跌幅小於或等於最小日漲跌幅min-UpRat時,win就記為0。在原始資料中,交易日期均為10個字元的字元型變數,共有244天。眾所周知,在進行資料探勘時,字元長度較大會佔用大量的記憶體,因此應該儘量用簡短的資料型變數來對其進行替換。所以為了節省空間進而提高執行的效率,我們重新對交易時間變數進行編碼,用1,2,…,244來標記。將股票程式碼均變為6位字元的字元型資料,共有300只股票,分別用1,2,…,300標識。在進行關聯規則挖掘時,直接處理物件是股票和日期的新編碼,間接處理物件是股票程式碼和交易日期,這樣便可有效減少記憶體的佔用,有利於提高挖掘效率。選取的原始資料有字元型證券程式碼,字元型交易日期,數值型收盤價,最後對對原始資料進行變換和預處理,然後計算出每個交易日各只股票的漲跌幅,保留win等於1(也就是日漲跌幅大於3%)的記錄,最終整理得出關聯規則模型預處理後的資料。

3、資料探索

一般情況下,在進行資料探勘之前可以先對資料進行初步探索,用描述性統計方法對資料進行初步的分析,從而對滬深300指數的一些基本性質進行簡單的瞭解。透過整理可以看出,從2010年9月2日到2011年9月l日這一年時間內,滬深300指數從2689.5下跌到了1599.6,而後又上升到3279.5。雖然股票指數有某種程度的變化和波動,但是總體變化趨勢是先下跌而後上漲。這種情況表明,在這一年中由於受到全球經濟的影響,股票市場先逐漸下降,隨著中國各項經濟政策的一系列措施的實施,中國證券市場又出現了回升的趨勢。

參考文獻:

[1]劉瀅.資料探勘在股票預測中的應用[D].長春理工大學.2010.

[2]楊希.基於資料探勘的股票預測研究[D].長春理工大學.2008.