當前位置:學問谷 >

行業範例 >股票 >

關聯規則在股票分析及預測中的應用論文

關聯規則在股票分析及預測中的應用論文

摘要:證券市場中的漲跌起伏往往是瞬息萬變的,儘管如此,它還是存在着一定的規律:在某一段時間中,如果A股票出現上漲趨勢,則B股票必然會隨之上漲;如果A股票在tl時刻出現上漲趨勢,B股票在t2時(t2>tl)刻出現上漲趨勢,則C股票必然會在t3(t3>t2)時刻上漲。前一條規律能夠用來對股票之間的相互關係進行分析,後一條規律能夠用來對股票的漲跌進行預測,這些規律在投資者的實際決策過程中有着重要的參考價值和指導作用。

關聯規則在股票分析及預測中的應用論文

關鍵詞:數據關聯規則股票分析預測

1、選取數據

如果上市公司所經營的業務是相同或相近的,則在一段時間內股票價格的走勢就會呈現出相似性;在一定時間內,屬於同一個區域的上市公司也會受到區域經濟政策的直接影響,也會呈現出大體相同的變化形勢;如果上市公司之間具有關聯交易,相互持股、控股,則它們之間也會產生某種相互作用[37]。上述規則能夠通過關聯規則分析來發現,然而更重要的是發現另一種表面上沒有很強的相關性、但實際的股票價格卻具有很大關聯的規則。

設股票行情數據D={X1,X2,…,Xi,…,Xn。},其中Xi(1本文選取的研究對象是滬深300指數成分股,樣本時間是從2010年9月2日到2011年9月1日一年的數據。本文選取滬深300指數成分股為研究對象的主要原因具體如下:滬深300指數包含了各個行業的股票,並且覆蓋了滬深兩市60%以上的市值,將各個行業中規模較大,流動性較好的股票都包含在內;滬深300指數成分股包含了滬深股市中上市1個季度以上,而且不包含ST和*ST的股票,公司的經營情況一直很好,在一年內沒有發生過較重大的違法情況,股票價格也沒有明顯的異常波動等因素;滬深300指數從2006年編制以來,一直都是衡量上海和深圳股票市場的重要指標。綜合上述分析可知,滬深300指數成分股能很好反映出上海和深圳證券市場的總體特徵,具有很強的代表性。

選取樣本時間從2010年9月2日到2011年9月1日這段時間的主要原因是:在這段時間中,大盤經歷了上漲波段和下跌波段,滬深300指數最低到1598,最高達3256,而且上漲時間和下跌時間大致相同。本文數據均來源於CASMAR數據庫,着重考慮股票價格變化之間存在的關聯關係,由於一天中股票價格有很多種,本文主要考慮的是收盤價。因此原始數據包含日期、股票代碼、收盤價三個變量,經過處理數據中共有71268條記錄。

2、數據預處理

數據預處理是指在主要的處理以前對數據進行的一些處理。在我們實際生活的世界中,數據大多數都是不完整並且不一致的,根本沒有辦法直接使用數據挖掘方法,或者會導致挖掘的結果不能讓人滿意。為了能夠有效的將數據挖掘的質量提高,數據預處理技術便在這種形勢下產生了。數據預處理的方法有很多,具體包括:數據清理,數據集成,數據歸約,數據變換等[38]。在對數據進行挖掘之前,使用這些數據處理技術,能夠在很大程度上提高數據挖掘模式的質量,並且有效的減少挖掘所使用的時間。我們所要研究的是在一段時間內,股票價格變動之間存在的關聯關係,因此只需對那些對投資有參考價值的數據進行研究。在投資過程中,關係到投資者收益的重要指標是收益率,在數據挖掘中所選用的是每天的漲跌幅。首先以收盤價為依據,將每日的漲跌幅計算出來,日漲跌幅就是當日收盤價和上一個交易日收盤價之差與上一個交易日收盤價之比。計算公式如下:

在分析過程中我們所感興趣的是那些每天的漲跌幅大於一定幅度的股票,因為在股票市場中,大多數股票會隨着大盤指數的漲跌而不斷髮生變化,多數股票都會在大盤指數漲跌幅進行上下波動,所以只有漲跌幅超過一定範圍的股票才具有研究意義。因此我們在進行分析之前,引入最小日漲跌幅Min-UpRat。最小日漲跌幅的'值是以具體的股票行情為依據並由用户確定的,本文選取Min-UpRat為3%,這主要是從以下幾個方面考慮:現階段,中國的證券市場還處於發展階段,尚不成熟。股票在牛市中會存在隨大盤指數普遍上漲的情況,因此只有對那些漲勢較為劇烈的股票進行分析研究才會有實際意義。大部分股票在熊市中會出現普遍下跌的情況,出現上漲形勢的股票只有極少的一部分,漲勢能達到3%漲幅的股票更是少之又少。

在樣本中添加一個新的變量,極為win,當日漲跌幅大於最小日漲跌幅min-UpRat時,win就記為1,日漲跌幅小於或等於最小日漲跌幅min-UpRat時,win就記為0。在原始數據中,交易日期均為10個字符的字符型變量,共有244天。眾所周知,在進行數據挖掘時,字符長度較大會佔用大量的內存,因此應該儘量用簡短的數據型變量來對其進行替換。所以為了節省空間進而提高運行的效率,我們重新對交易時間變量進行編碼,用1,2,…,244來標記。將股票代碼均變為6位字符的字符型數據,共有300只股票,分別用1,2,…,300標識。在進行關聯規則挖掘時,直接處理對象是股票和日期的新編碼,間接處理對象是股票代碼和交易日期,這樣便可有效減少內存的佔用,有利於提高挖掘效率。選取的原始數據有字符型證券代碼,字符型交易日期,數值型收盤價,最後對對原始數據進行變換和預處理,然後計算出每個交易日各只股票的漲跌幅,保留win等於1(也就是日漲跌幅大於3%)的記錄,最終整理得出關聯規則模型預處理後的數據。

3、數據探索

一般情況下,在進行數據挖掘之前可以先對數據進行初步探索,用描述性統計方法對數據進行初步的分析,從而對滬深300指數的一些基本性質進行簡單的瞭解。通過整理可以看出,從2010年9月2日到2011年9月l日這一年時間內,滬深300指數從2689.5下跌到了1599.6,而後又上升到3279.5。雖然股票指數有某種程度的變化和波動,但是總體變化趨勢是先下跌而後上漲。這種情況表明,在這一年中由於受到全球經濟的影響,股票市場先逐漸下降,隨着中國各項經濟政策的一系列措施的實施,中國證券市場又出現了回升的趨勢。

參考文獻:

[1]劉瀅.數據挖掘在股票預測中的應用[D].長春理工大學.2010.

[2]楊希.基於數據挖掘的股票預測研究[D].長春理工大學.2008.

  • 文章版權屬於文章作者所有,轉載請註明 https://xuewengu.com/flhy/gupiao/jknrw7.html