社會調研數據分析方法
社會調研數據的一般維數較高,加上一些因素,數據類型主要為二元變量、離散變量、序數變量等為主,所以對於社會調研數據的分析和處理大都基於統計學,只對與單一的目標進行統計學分析。下面是小編整理的社會調研數據分析方法,歡迎查看,希望幫助到大家。
社會調研數據分析方法
超圖是離散數學中重要的內容,是對圖論的推廣。超圖是有限集合的子系統,它是一個由頂點的集合V和超邊集合E組成的二元對,超圖的一條邊可以有多個頂點的特性,這與一般的圖有很大不同。超圖分為有向超圖與無向超圖兩類,在無向超圖的每條超邊上添加方向後得到的有向二元對就是有向超圖。
超圖在許多領域有廣泛的應用。大家可以利用無向超圖表示每一道題的選擇情況,先將這每一題的每一個選項設成一個節點,然後將三維矩陣從上向下投影,如果某一題的若干個選項同時被一個人選擇,就用一條超邊包圍這些節點,那麼選這些選項的人越多,投影得到的超邊就越濃。這樣就用超圖表示了問卷中每道題的信息,可以進行聚類處理。
利用有向超圖,可以將關聯規則表示成有向超圖的形式,在得到了關聯規則後,設實際中得到的關聯規則的形式為:前項和後項都是由多個項組成的集合。該文定義一條關聯規則由一條有向超邊表示,有向超邊的頭節點表示關聯規則的前項下面是小編整理的大四學年年度自我鑑定,歡迎查看,希望幫助到大家。,有向超邊的尾節點表示關聯規則的後項。每條有向超邊的頭節點和尾節點均可以為多個,如此便成功表示了複合規則,從而可以使用相關算法進行宂餘規則檢測。
通過基於有向超圖的宂餘規則檢測就可以將關聯規則之間存在着的大量宂餘檢測出,減少挖掘資源的浪費,從而增加了挖掘結果的有效性。
傳統的聚類方法都對原始數據計算它們之間的距離來得到相似度,然後通過相似度進行聚類,這樣的方法對於低維數據有良好的效果,但是對於高維數據卻不能產生很好的聚類效果,因為高維數據的分佈有其特殊性。通過超圖模型的分割實現對高維數據的聚類卻能產生較好的效果。它先將原始數據之間關係轉化成超圖,數據點表示成超圖的節點,數據點間的關係用超邊的權重來表示。然後對超圖進行分割,除去相應的超邊使得權重大的超邊中的點聚於一個類中,同時使被除去的超邊權重之和最小。這樣就通過對超圖的分割實現了對數據的聚類。具體的算法流程如下。
首先,將數據點之間的關係轉化為超圖,數據點表示為超圖節點。如果某幾個數據點的支持度大於一定閾值,則它們能構成一個頻繁集,就將它們用一條超邊連接,超邊的權重就是這一頻繁集的置信度,重複同樣的方法就可以得超邊和權重。
然後,在基礎此上,通過超圖分割實現數據的聚類。若設將數據分成k類,則就是對超圖的k類分割,不斷除去相應的超邊,直到將數據分為k類,且每個分割中數據都密切相關為止,同時保持每次被除去的超邊權重和最小,最終得到的分割就是聚類的結果。
如圖所示是基於超圖算法的選題型調查問卷的分析技術的流程圖,主要包括4個主要部分,一是用向量表示調查問卷結果,二是將向量表示的調查問卷轉化為三維矩陣數學模型表示調查問卷結果,三是使用超圖算法進行優化,四是根據要求顯示調查問卷結果。
社會調研數據的特點
(1)相關性
對於一個樣本個體而言,它具有本身的多個特徵,這些特徵之間就具有一定的相關性。對於多個樣本而言,個體與個體的特徵之間具有相關性。如果樣本隨時間而變化,那麼該樣本在不同時刻的特徵之間又具有相關性。因此,由於上述多個原因使得社會調查數據具有了複雜的相關性,傳統的統計學調查難以解決這樣的問題。
(2)離散性
因為社會調查數據是通過自填式問卷、網絡調查數據庫等方法得到,所以社會調查數據一般以離散變量為主,且這些數據之間只有標示作用,並沒有嚴格的邏輯關係。
(3)模糊性
社會調查數據當中不可避免的會接觸到各種表達方式和概念,因此,它具有模糊性。因為由自填式問卷或結構式訪問的方法得到的社會調查數據具有以上特點,所以在實際應用中基於統計學的處理方法只能籠統的顯示數據的部分特性,如頻數、離散程度等[2]。對於數據之間的關係只能分析出維數極少的大致的關係。而且利用軟件進行數據挖掘時,因為現有的'軟件中的數據挖掘算法對於數據類型和格式要求較高,所以能應用到的數據挖掘算法很少。就算是數據要求較低的關聯分析,其結果也存在大量的宂餘。因此,我們需要建立一個合適的社會調查數據的數學模型來完善原先的方法並使跟多的數據挖掘方法可以運用到其中,使得結果更準確。
社會調研數據的建模
1、三維矩陣的定義
三維矩陣的定義:由n個p×q階的矩陣組成的n×p×q階的矩陣A稱為三維矩陣,又稱立體陣。Ak,i,j表示三維矩陣A的第k層,第i行,第j列上的元素。其中n,p,q分別表示三維矩陣的高度,厚度和寬度。
2、三維矩陣模型的建立
調查問卷的題目一般有三種類型:單選題、多選題和排序題。這三類題目都可以表示成向量的形式,其中每一道單選題、多選題可以表示成一個向量,排序題可以表示成多個向量組成的矩陣。對於單選題和多選題,可以按選項的順序可以表示成一個向量,其中選中的用“1”表示,未選中的項用“0”表示。對於排序題,可以表示成一個n×n的方陣,,其中n表示該排序題的選項數,。這樣,每一題就可以定義為空間中的一個維度,從而所有的題目就可以構成一個N維空間。每份調查問卷的信息用一個M×N矩陣表示(M為題目的最大選項數),其在每一維上的選擇稱之為一個元素,這樣每份問卷的信息就包括了N個元素。以第1,2,3題數據為例,其中第1題為單選題選擇“B”,用向量 (0,1, 0。。0)T 表示為一個元素,第2題為多選題選擇“ACE”,用向量 (1, 0,1, 0,1, 0。。0)T 表示為一個元素,第3題為排序題順序為CBADEFIHG,用矩陣表示,每一個列向量是一個元素,如圖所示。
那麼,假設有一問卷信息用一個大小為M×N的矩陣表示。K份的問卷信息就可以用K個大小為M×N的矩陣表示。將這K個矩陣疊加,形成一個三維矩陣。這個三維矩陣就是我們建立的三維矩陣數學模型,如圖所示。
在圖中我們看到,該三維矩陣數學模型有三個座標軸,它們分別是題目、人數、選項。題目軸以每一道題為一個單位;人數軸以每一份問卷為一個單位;選項軸的刻度A,B,C,D,E,F等題目選項,其個數為該調查問卷中選項最多的題目的選項個數。在此基礎之上,這樣的三維矩陣具有以下性質。
(1) 在題目軸中選取對應的題目,將三維矩陣面向豎切得到截面1(如圖2中01所示),截面2表示每一道題所有人選擇的信息。
(2) 在人數軸中選取對應的人,將三維矩陣橫切得到橫截面1(如圖2中02所示),橫截面1表示對應的人選擇所有題目的信息。
在得到三維矩陣後,可對它進行像素化處理,置1的元素用黑點代替,置0元素的則空白,在得到像素化三維矩陣後我們可以將三維矩陣沿着人數維度上向下投影,這樣就可以得到一個具有濃黑不一的點的平面。通過這些點的濃度,可以知道每一選項選擇的人數。接下來我們可用灰度級表示點的濃度,篩選出濃度大於一定程度的點,在此基礎上進行後續算法處理。
上述三維矩陣數學模型具有數學三維矩陣的所有性質,可依據調查問卷的需求進行轉置,加權、相乘、篩選等數學處理,另外在數學處理的基礎上,採用超圖理論可以大大豐富了調查問卷的處理方法。
相關文章
-
社會調查數據分析方法
逝者如斯夫,不捨晝夜。轉眼間,大二學期已經結束。一年的紀律委員工作讓我受益匪淺,接下來我將具體彙報總結本學期的工作。回首往事卻歷歷在目,20xx年是我進入大學的第一年,在那一年裏,我曾暗下決心要嚴格要求自己,用不平凡的 -
市場調研數據分析方法
你們有最喜歡的顏色嗎?我最喜歡的顏色是綠色,因為綠色是生命的顏色。你們喜歡綠色嗎?綠色是春天的顏色。春天,小草生出了嫩芽,小河化了,魚兒在河裏嬉戲,在河裏玩耍。小樹長出了嫩綠的芽。綠色是夏天的顏色。夏天,小夥伴們在陽 -
數據分析與辦公軟件:數據分析方法
對比分析法與目標不同時期(同、環比,活動前後或有無)不同單位(行業、公司、地區、部門)同一時間條件下對不同主體的同類指標的靜態比較,叫橫向比較,如不同部門、不同地區、不同國家相比較等對同一主體在不同時期的`指標 -
市場調查數據分析方法
我們在做市場調研前,必須有一個自己的調研思路:我們要調研的對象,需要收集的數據,需要達到的效果等。以下是小編為大家精心蒐集和整理的市場調查數據分析方法,給你們參考!(1)對比分析法將兩個或兩個以上的數據進行對比分析,分 -
服裝核心數據分析與調整方法
説到重陽節的時候,很多人都會想到九九重陽節,重陽節當天也是老年節。你知道九九重陽節意義嗎?下面本站小編精心整理了九九重陽節意義的相關資料,希望可以幫到你!九九重陽節意義每到重陽節來臨之際,子女回家陪爹媽嘮嘮、幫 -
大數據理論指導交通數據分析的方法
智慧城市智慧交通的大力建設下,海量多源異構的`交通數據能提供的信息內容更加豐富,如何利用大數據的理論來指導交通數據分析?或者説有什麼比較好的將兩者結合的落腳點?近期成立的深圳市綜合交通運行指揮中心囊括深圳全 -
北京哪幾所高校有數據分析或數據挖掘方向的研究生專業?
2016年招標師考試雖然還沒到,但是我們都要提前做好複習的準備,有針對性地制定備考計劃。下面是本站小編為考生搜索整理的關於招標師考試《招標採購專業實務》練習題,供參考練習,希望對您有所幫助。 練習題一 單項選 -
數據分析方法論-層次分析法(一)示例
最近都在研究這些東西,會把這些東西逐步加入到我自己開發的數據分析系統裏頭,希望都一定時間應該可以把這個數據分析軟件開放出來.什麼是層次分析法層次分析法(The analytic hierarchy process)簡稱AHP,在20世紀70年代中 -
培訓需求的調研與數據分析
沒有調查,就沒有發言權!對於任何一個培訓項目也是同樣的道理,沒有培訓需求的調研,培訓就變得只是一種形式。俗話説:“好的開始,是成功的一半”。將培訓需求的調研這一步走好,培訓項目的成功就有了前提保證。 談及培訓需求的 -
黃金分析方法中經濟數據分析的雙向性
科學技術報告、學位論文、學術論文以及其它類似文件是主要的科技信息源,是記錄科學技術進步的歷史性文件.為了統一這些文件的撰寫、編輯、印刷、出版、發行,便於處理、儲存、檢索、利用、交流、傳播.現將中華人民共和國