當前位置:學問谷 >

校園範例 >讀書筆記 >

數據挖掘讀書筆記

數據挖掘讀書筆記

導語:數據挖掘(Data Mining)是一項較新的數據庫技術,它基於由日常積累的大量數據所構成的數據庫,從中發現潛在的、有價值的信息——稱為知識,用於支持決策。以下小編為大家介紹數據挖掘讀書筆記文章,歡迎大家閲讀參考!

數據挖掘讀書筆記

  數據挖掘讀書筆記1

1、數據挖掘要解決的問題

可伸縮(算法在處理各種規模的數據時都有很好的性能。隨着數據的增大,效率不會下降很快。)

高維性(簡單的説就是多維數據的意思。平時我們經常接觸的是一維數據或者可以寫成表形式的二維數據,高維數據也可以類推,不過維數較高的時候,直觀表示很難。)

異種數據和複雜數據

數據的所有權與分佈(分佈式數據挖掘:應付分佈式海量數據的現代方法)

非傳統的分析(傳統方法:基於一種假設-檢驗模式;數據挖掘分析-時機性樣本,而不是隨機樣本)

2、數據挖掘任務

1)預測任務(目標變量/因變量:被預測的屬性;説明變量/自變量:用來做預測的屬性)

2)描述任務

A預測建模:分類-預測離散的目標變量和迴歸-預測連續的目標變量

B關聯分析

C聚類分析

D異常檢測(識別其特徵顯著不同於其他數據的觀測值。這樣的觀測值稱為異常點或離羣點)

3、屬性的四種類型

1)標稱

2)序數

3)區間

4)比率

(布爾變量:Boolean Variable (布爾型變量) 是有兩種邏輯狀態的變量,它包含兩個值:真和假。如果在表達式中使用了布爾型變量,那麼將根據變量值的真假而賦予整型值1或0。)

  數據挖掘讀書筆記2

1. 確定業務對象

清晰地定義出業務問題,認清數據挖掘的目的是數據挖掘的重要一步.挖掘的最後結構是不可預測的,但要探索的問題應是有預見的,為了數據挖掘而數據挖掘則帶有盲目性,是不會成功的.

2. 數據準備

1)數據清理

消除噪聲或不一致數據。

2)數據集成

多種數據源可以組合在一起

3)數據選擇

搜索所有與業務對象有關的內部和外部數據信息,並從中選擇出適用於數據挖掘應用的數據.

4)數據變換

將數據轉換成一個分析模型.這個分析模型是針對挖掘算法建立的.建立一個真正適合挖掘算法的分析模型是數據挖掘成功的關鍵.

3. 數據挖掘

對所得到的經過轉換的數據進行挖掘.除了完善從選擇合適的挖掘算法外,其餘一切工作都能自動地完成.

4. 結果分析

解釋並評估結果.其使用的分析方法一般應作數據挖掘操作而定,通常會用到可視化技術.

5. 知識的同化

將分析所得到的知識集成到業務信息系統的組織結構中去.

3、 數據挖掘熱點

8.1電子商務網站的數據挖掘

在對網站進行數據挖掘時,所需要的數據主要來自於兩個方面:一方面是客户的背景信息,此部分信息主要來自於客户的登記表;而另外一部分數據主要來自瀏覽者的點擊流,此部分數據主要用於考察客户的行為表現。但有的時候,客户對自己的背景信息十分珍重,不肯把這部分信息填寫在登記表上,這就會給數據分析和挖掘帶來不便。在這種情況之下,就不得不從瀏覽者的表現數據中來推測客户的背景信息,進而再加以利用。就分析和建立模型的技術和算法而言,網站的數據挖掘和原來的數據挖掘差別並不是特別大,很多方法和分析思想都可以運用。所不同的是網站的數據格式有很大一部分來自於點擊流,和傳統的數據庫格式有區別。因而對電子商務網站進行數據挖掘所做的主要工作是數據準備。

8.2生物基因的數據挖掘

生物基因數據挖掘則完全屬於另外一個領域,在商業上很難講有多大的價值,但對於人類卻受益非淺。例如,基因的組合千變萬化,得某種病的人的基因和正常人的基因到底差別多大?能否找出其中不同的地方,進而對其不同之處加以改變,使之成為正常基因?這都需要數據挖掘技術的支持。對於生物信息或基因的數據挖掘和通常的數據挖掘相比,無論在數據的複雜程度、數據量還有分析和建立模型的算法而言,都要複雜得多。從分析算法上講,更需要一些新的和好的算法。現在還遠沒有達到成熟的地步。

8.3文本的數據挖掘

在現實世界中,可獲取的大部分信息是存儲在文本數據庫中的,由來自各種數據源的大量文檔組成。由於電子形式的信息量的飛速增長,文本數據庫得到飛速的發展。文檔數據庫中存儲最多的數據是所謂的半結構化數據(semistructure data),它既不是完全無結構的,也不是完全結構化的。在最近數據庫領域研究中已由大量有關半結構化數據的建模和實現方面的研究。而且,信息檢索技術已經被用來處理費結構化文檔。傳統的信息檢索已經不適應日益增長的大量文本數據處理的需要。因此,文檔挖掘就成為數據挖掘中一個日益流行而重要的流行課題。

8.4Web數據挖掘

Web上有海量的數據信息,怎樣對這些數據進行復雜的應用成了現今數據庫技術的研究熱點。數據挖掘就是從大量的數據中發現隱含的規律性的內容,解決數據的應用質量問題。充分利用有用的數據,廢棄虛偽無用的數據,是數據挖掘技術的最重要的應用。顯然,面向Web的數據挖掘比面向單個數據倉庫的數據挖掘要複雜得多。因為它面臨如下諸多挑戰:

1、 對於有效的數據倉庫和數據挖掘而言,Web的存儲量實在是太龐大了。

2、 Web頁面的複雜性遠比任何傳統的文本文檔複雜得多。

3、 Web是一個動態性極強得信息源。

4、 Web面對的是一個廣泛形形色色的用户羣體。

5、 Web上的信息只有很小的一部分是相關的或有用的。

一般的,Web數據挖掘可分為三類:Web內容挖掘(Web content mining),Web結構挖掘(Web structure mining),Web使用紀律挖掘(Web usage mining)。

面向Web的數據挖掘是一項複雜的技術,由於上述種種挑戰的存在,因而面向Web的數據挖掘成了一個難以解決的問題。而XML的出現為解決Web數據挖掘的難題帶來了機會。由於XML能夠使不同來源的結構化的.數據很容易地結合在一起,因而使搜索多樣的不兼容的數據庫能夠成為可能,從而為解決Web數據挖掘難題帶來了希望。XML的擴展性和靈活性允許XML描述不同種類應用軟件中的數據,從而能描述蒐集的Web頁中的數據記錄。同時,由於基於XML的數據是自我描述的,數據不需要有內部描述就能被交換和處理。作為表示結構化數據的一個工業標準,XML為組織、軟件開發者、Web站點和終端使用者提供了許多有利條件。相信在以後,隨着XML作為在Web上交換數據的一種標準方式的出現,面向Web的數據挖掘將會變得非常輕鬆。

4、 數據挖掘的未來

當前,DMKD研究方興未艾,其研究與開發的總體水平相當於數據庫技術在70年代所處的地位,迫切需要類似於關係模式、DBMS系統和SQL查詢語言等理論和方法的指導,才能使DMKD的應用得以普遍推廣。DMKD的研究還會形成更大的高潮,研究焦點可能會集中到以下幾個方面:

發現語言的形式化描述,即研究專門用於知識發現的數據挖掘語言,也許會像SQL語言一樣走向形式化和標準化。

尋求數據挖掘過程中的可視化方法,使知識發現的過程能夠被用户理解,也便於在知識發現的過程中進行人機交互。

研究在網絡環境下的數據挖掘技術(WebMining),特別是在因特網上建立DMKD服務器,並且與數據庫服務器配合,實現WebMining。

加強對各種非結構化數據的開採(DataMining for Audio & Video),如對文本數據、圖形數據、視頻圖像數據、聲音數據乃至綜合多媒體數據的開採。

交互式發現。

知識的維護更新。

但是,不管怎樣,需求牽引與市場推動是永恆的,DMKD將首先滿足信息時代用户的急需,大量的基於DMKD的決策支持軟件產品將會問世。只有從數據中有效地提取信息,從信息中及時地發現知識,才能為人類的思維決策和戰略發展服務。也只有到那時,數據才能夠真正成為與物質、能源相媲美的資源,信息時代才會真正到來。

  • 文章版權屬於文章作者所有,轉載請註明 https://xuewengu.com/flxy/dushu/pk9oqm.html