當前位置:學問谷 >

校園範例 >電影 >

基於支持向量機迴歸多屬性智能電視電影推薦論文

基於支持向量機迴歸多屬性智能電視電影推薦論文

傳統協同過濾推薦技術存在新用户難以推薦的冷啟動問題。尤其在智能電視網絡、視頻網站等,只有用户信息,沒有瀏覽或評分記錄,智能電視電影系統難以有效推薦。而基於內容過濾技術可有效解決新用户冷啟動問題對於新用户,ChenLin提出向用户推薦“專家用户”瀏覽的電影…。施鳳仙等提出基於用户屬性分類區分用户興趣度的協同過濾算法按比重分配用户相似性和商品的用户興趣度。但它們的關係並不一定是線性的。而支持向量機在解決非線性迴歸問題有着不錯的效果。

基於支持向量機迴歸多屬性智能電視電影推薦論文

支持向量機算法在文本分類、模式識別等分類問題有很好的效果,並被引入非線性迴歸領域,展示了不錯的性能。王宏宇建立的基於電影屬性支持向量機迴歸的用户模型131,提高了推薦精度。但只是根據電影的屬性和評分,並沒有考慮電影的用户屬性分類。Liu在GoogleNews用户個性化新聞推薦中,利用用户點擊新聞類別的歷史記錄,建立了用户長期和短期興趣模型'MahiyeUluyagmm?提出j'基於電影特徵集的推薦系統,但並沒有有效解決多個特徵集結合問題本文根據電影用户歷史評分。基於不同年齡段用户對電影喜愛程度不同,電影按用户屬性有不同的概申?評分,並採用支持向量機迴歸結合用户多個屬性,本文根據電影用户歷史評分,基於電影被不同年齡段用户喜愛程度不同,計算得出電影年齡段概率評分。由於每個電影評分用户數量不同,採用min—max方法標準化概率評分,使數據具有可比性。針對用户不同的屬性,如年齡段、職業等,採用支持向量機迴歸的方法擬合電影不同屬性概申—評分,解決不同屬性結合的問題。實驗採用movielens數據集評測了算法的召回率,並與傳統基於電影的knn推薦算法做廣對比,實驗證明本文采用的方法提高了召回率,並可為新用户產生推薦。

1理論基礎

1.1min—max標準化

在數據分析之前’通常需要先將數據標準化’利用標準化後的數據進行數據分析不同數a的用户對電影評過分,所以電影的??性評分概率可能在不同的以間,為了消除這種影響,需要將數據標準化處理,以解決數據指標之間的可比性…本文采川min—max標準化方法,也稱為離差標準化,就是對原始數據的線性變換,使結果函數為式中:

為樣本數據最小值;&?為樣本數據最大值;x為樣本數據。

1.2支持向量機迴歸

迴歸問題是從訓練樣本中學習輸人輸出變量之間的關係/U)。考慮一個訓練樣本數據集丨Ui,yi),(x2,y2),,(xi,y。),"■r{x?yJ)o對於i=l,2,3,其中每個ac,eR"表不樣本的輸人空間,與其相對應的目標值y,,迴歸問題的思想是從中學習一個閒數,給定^的值,能夠預測y,的值。一般的SVR函數形式為

式中:和6是要尋找的確定最優超平面的參數值,中U)代表了從R”到高維空間的一個非線性變換,^標是找出和6的值,使迴歸風險係數最小化,迴歸風險係數為

其中:廠(?)是損失函數,常數C>0,表示對估計偏差的懲罰度,最常用的損失函數Vapnik提出的e—敏感度函數為

此處的H標是確定適當的參數值和6,從而使/GO逼近未知0標函數。如果yu,)與y,的差值的絕對值大於6:,損失函數廠(?)的值等於/U)的估計與期望響應y,的差值的絕對值再減去e,否則損失函數值為0。原問題可以表示為

使用拉格朗日乘子法得到對偶問題是

使用二次優化方法求解和《二進而得出《,。設置偏移量6=0,ft由參數和懲罰因子C就控制了式(10)逼近閒數的VC維丨…

式中:/C(u)表7K核函數

2基於支持向量機迴歸的用户多屬性推薦算法

2.1電影對用户屬性的概率評分

電影用户評分矩陣,是電影被用户評分的歷史記錄,而每個用户都有年齡段、職業等屬性。電影被某個年齡段的用户評分大小及個數,反映了這個年齡段的用户對電影的喜愛程度。本文用7個年齡段代表人的年齡。借鑑貝葉斯定電影受某個年齡段的喜愛程度可表示為

式中:m.(aget)表示年齡段的先驗概率;)表小?電影被用户評分的總個數;m表示電影被這個年齡段評分的總和;而)表示電影對各個年齡段的概申。評分。

求出每個電影對年齡段的概率評分,每個電影被不同用户數量評分,所以用min—max方法標準化電影的屬性概申。評分。

偽代碼如下:

2.2單屬性預測用户對電影的評分

為用户《推薦最喜歡的前iV個電影一根據用户u的年齡段和電影的年齡段概率評分。預測用户對每個電影的評分:根據預測評分大小,為用户推薦預測if分最大的前/V個電影。

2.3支持向量機迴歸用户多屬性模型

不同年齡段A。不同電影,的概申。評分不同。同理,不同職業,電影的概率評分也不同:對於用户,年齡段、職業的組合,決定了用户的喜好,但它們並非是線性的:因而構建一個SVK用户多屬性迴歸模型。

迴歸模型的輸人和輸出,從用户對電影t'的年齡段概率評分、職業概率評分到實際評分r,實際評分和概率評分都是標準化後的數據:特定年齡段和職業有着鮮明喜好的用户u。?展檳P湍芎芎玫腦げ餛淦?謾DP塗曬菇ㄎ?/p>

式中:r,是用户u給電影i的實際評分,m(ageM)是電影Z對用户年齡段A的概率評分_Zte丨0,丨,…,6j,共7個年齡段。m(ocup,lt+)是電影!_對用户職業s的`概率評分。se{0,1,…,181,共19個職業類型。

線性迴歸模型並不能取得很好的迴歸效果,召回率甚至小於單個屬性概率評分的結果。支持向量機迴歸通過核函數尺U,*)將數據從輸人空間非線性變換到高維空間,從而使得數據在該空間中被轉換成線性組合的。用支持向tt機迴歸的方法構建非線性迴歸模沏,基於式(10),可構建支持向量機迴歸的用户多??性模型

求解模型時,使用序列最小優化方法求解算法,求解該支持向量機迴歸問題。

2.4多屬性預測用户電影評分

為每個用户構建SVR迴歸模型,並利用模塑,輸人用户IW性、電影屬性概率評分,輸出電影預測評分並排序。

已知用户u的年齡段、職業,預測用户對電影的評分。首先利用用户屬性,得出用户對每個電影的年齡段和職業??性概率評分m(ageI;_)和m(ocu/)Ii)。輸人到支持向量機迴歸模型,得出預測評分6。預測評分最高的前/V個電影推薦給用户。

3實驗設計及結果分析

31數據集和評測方法

採用mwieiens數據集,943個用户對1682個電影的10萬個評分數據。用户的年齡段和職業屬性。訓練(train)數據集採用全部10萬個評分,驗證(test)數據集採用20%的評分數據使用C++語言,在Windows平台編寫程序,實現了基於支持向僦機迴歸的用户多屬性推薦算法。

智能電視電影系統的最終0的是為用户推薦感興趣的電影,本文沒有采用RMSE指標。而是採用召回率評測為用户推薦前/V個電影。推薦的電影個數和用户實際選擇的電影個數的比值,即召回率評測。召回率式為hitCouiits

3.2實驗結果及分析

實驗首先評測了單個屬性前30的召回率。評測用户年齡段屬性、職業屬性的召回率。出於降低計算複雜度的考慮,隨機選擇了200個用户的召回率。做了8次重複實驗,得出召回率的平均值。召回率結果見表1。

本文使用libsvm工具訓練基於支持向量機迴歸的用户多??性推薦模?,並預測評分。核函數採用徑向基核exp(I2)。需要找出最優的g和懲罰因子C,本文使用網格搜索來尋找最優的g和C。網格?人骶褪淺⑹願髦?,C)對值,然後進行交叉驗證,找出精確度最高的(g,C)對。網格搜索參數g和C的範圍e{0.6,0.8,…,3.0),懲罰因子Ce丨0.02,0.04,0.10,0.40,0.70,1.00)。詳細設置見圖1。

比較了本文的算法和基於電影的KNN算法的召回率,基於電影KNN算法的參數A取值100,就是取最相似的100個電影。相似性公式採用.08相關係數。

由圖1的網格搜索交叉驗證圖可知,SVK參數g取1.6,C取0.4時召?章蝕鐗?最大值。

由表1可知,基於支持向量機迴歸用户多屬性推薦算法15.25%的召回率高於單個屬性的召回率由表2的實驗數據,基於支持向量機?展橛沒Ф嗍糶?5.25%的f{W率遠?l亍基於電影的KNN推薦算法5.12%的召回率。實驗結果表明基於支持向量機迴歸用户多屬性推薦算法提高了召回率,並可為新用户產生有效推薦。

4結論

本文主要對智能電視電影系統新用户難以推薦的冷啟動問題進行了深人研究。採用年齡段對電影的概率評分來表示對電影喜愛程度的方法,解決用户按誠性選擇電影的M題。採用支持向tt機迴歸方法訓練用户多屬性模型,有效解決了用户多屬性結合問題。訓練數據都用min—max方法標準化,使數據具有可比性由實驗結果可知,該基於支持向量機迴歸用户多屬性推薦模型提高了召回宇—,有效解決了新用户推薦的冷啟動問題。

  • 文章版權屬於文章作者所有,轉載請註明 https://xuewengu.com/flxy/dianying/l3eryp.html