當前位置:學問谷 >

校園範例 >其他 >

數據挖掘分析《紅樓夢》

數據挖掘分析《紅樓夢》

背景介紹:生活的真諦是什麼?是從每個人自己不同愛好、不同擅長、不同的品味中,感受對於生活的獨特理解和個性化發現。所謂賭徒的生活的真諦就是下注時的快感;作家的生活的真諦就是用文學作品解剖生活;數學家生活的真諦就是探索和欣賞數學裏的奧祕;舞女的生活真諦就是在燈紅酒綠中體會人性的另一面;萬法歸宗呀,芸芸眾生只有看問題的角度不同,沒有絕對的對錯和高低。就象本文即將分享的一個用數據分析方法部分解密《紅樓夢》的前後作者一樣,《紅樓夢》後40回作者到底是曹雪芹還是另有其人?這個論題作為紅學研究最熱烈的話題當然並不是完全可以用純粹的數學推理來解決的,但是這裏分享的數學分析方法和思路,卻是實實在在可以讓有緣之人當作休閒的小食,不求充飢,但求有趣,從不同的角度和不同的視線觀察生活,就是人生的好享受。

數據挖掘分析《紅樓夢》

2007年10月10日南京“現代快報”報道,南京林業大學湯庚國教授另闢鼷徑,從海棠文化出發,分析《紅樓夢》前80回與後40回的差異。湯教授主要從人文花卉方面進行分析,發現《紅樓夢》前80回有16回涉及海棠,而後40回只有4回涉及海棠,以此説明前後差距明顯。受湯教授的啟發,東南大學數學系的韋博成先生(博導)從數學統計的專業角度對湯先生的發現進行數學證明,通過兩個獨立二項總體等價性檢驗,經過漸近正態公式計算,有92%的把握認為“前80回對於海棠花的關注程度大於後40回對於海棠花的關注程度”。根據該統計方法,韋博成先生再接再厲,對於《紅樓夢》中的若干重要的情景描述進行量化,得到相應的數據集。有了數據集就可以進行數理統計分析,比較前80回與後40回在文風上的差異,結果表明,《紅樓夢》前80回與後40回在某些重要的情景描述上確實有非常顯著的差異。研究者韋博成先生再三再四強調,他只是從數據分析的角度指出兩者的差異,尚不能説明《紅樓夢》前80回與後40回作者的不同,因為“這涉及到許多人文與社會方面的問題,這是數理統計方法所無能為力的。”

本數據分析的目的:用數理統計的方法(具體來説是兩個獨立二項總體等價性檢驗)來分析《紅樓夢》前80回與後40回在幾個重要的情景指標(包括飲食描寫、醫藥描寫、詩詞描寫、花卉描寫、樹木描寫,這裏“描寫”主要指出現的頻率)的差異,並據此反映的.文風來判斷《紅樓夢》前後兩大部分的差異的顯著性。至於這種顯著性是否能推導出作者的不同,並不是本研究的目的,説白了,本數據分析研究只是數學愛好者藉助自己對數學的愛好,表達對生活的有趣看法,娛自己娛他人,僅此而已,讀者不應求全責備!

本數據分析的數據準備:研究時收集的各個情景指標的數據,所採用的《紅樓夢》書稿來自北極星書庫,研究者將十回放一個文件,共生成12個word文件。對於書稿中有關花卉、樹木、飲食、醫藥、詩詞等方面的內容,採用人工查閲與關鍵詞搜索相結合的方法,以人工查閲為主,最後列表給出每一回涉及的上述五個指標的出現頻數。另外,本研究特別注意“偽數據”的刪除。比如統計作者對於花卉的描述頻數,但是書中也有一些“偽數據”(雖然也是花卉,但是與情景無關,比如梅花糕、桃花廟、海棠紅的棉襖等等,這些所謂的花卉並不是本研究所要記錄的,所以是“偽數據”,這些數據是不計入本研究統計資料的。

分析思路:在《紅樓夢》中,對於許多情景都是有非常深入的刻畫和描寫的,比如飲食描寫,全書有40餘回涉及到飲食文化的方方面面。本研究不考慮人文社會方面的問題,致力於數據分析統計,應用數理統計方法研究前80回和後40回的文風上的差異。以飲食為例,《紅樓夢》前80回有34回涉及飲食方面的描寫,後40回有8回涉及飲食描寫,根據這個數據,作者考慮以下等價性假設檢驗問題。原假設H0:“前80回與後40回對於飲食描寫的關注程度相同。”; 對立假設H1:“前80回對於飲食描寫的關注程度大於後40回對飲食描寫的關注程度。” 通過Fisher精確條件檢驗或者漸進正態檢驗,可以發現上述哪個假設更加有理由有把握是真的。

分析的結論:研究表明,飲食和花卉的顯著性最高,即有充分的理由(99%)認為,前80回與後40回在飲食與花卉的描述上有明顯的差異,其判錯的概率不到1%;對於醫藥、樹木、這兩個指標,有90%的把握認為,前80回與後40回在這些指標的描述上是有差異的;不過,對於詩詞的描述,並沒有充分的理由發現前80回與後40回的差異。

  • 文章版權屬於文章作者所有,轉載請註明 https://xuewengu.com/flxy/qita/6516r.html