文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.2015.11.039
中文引用格式: 馬力,王蕓,楊琳. 基于MoodCast模型的用戶行為分析與預測[J].電子技術應用,2015,41(11):140-143.
英文引用格式: Ma Li,Wang Yun,Yang Lin. Analysis and prediction of user behavior based on MoodCast model[J].Application of Electronic Technique,2015,41(11):140-143.
0 引言
情感是人類對客觀外界事物態度的體驗,人們在社交網絡中的行為直接反映其在真實世界中的活動和情感。這促使傳統意義上的主觀心理學概念的情感在網絡空間和人類社會中顯現出一致性、通用性和重要性,成為影響人類個體、社會及網絡社會智能活動的重要因素。
目前大部分系統只是支持網絡宏觀分析(如網絡結構分析和可視化分析),而對網絡微觀分析(如個體用戶行為分析、影響力分析等)卻鮮有研究。情感動態分析目前主要研究集中在心理學和社會學領域,重點關注人類情感的動因,包括某種具體的情感是如何演化形成、情感隨時間的動態變化、或者朋友們之間的情感如何相互影響[3]。文獻[6]研究了幸福感在社交網絡中的動態傳播,揭示了在社交網絡中,幸福感最多通過三層聯系在人群中進行傳播。文獻[7]在此基礎上對孤獨感的動因進行了更進一步的研究,指出在社交網絡中孤獨感有著和幸福感相似的傳播模式。但這些工作中的絕大部分只定性地在一定規模的社交網絡數據上進行統計分析及測試驗證,缺乏對社交網絡情感及其動態演變的定量計算。為此,本文將用戶情感傳播因素應用到社交網絡中,研究情感主觀范疇與網絡行為有機相融合的計算建模問題,為準確度量人類的情感提供新的技術途徑。
1 基于MoodCast模型的情感分析與預測
動態因子圖情感預測模型(Emotion Prediction via Dynamic Continuous Factor Graph Model,MoodCast)是由清華大學教授唐杰提出,主要用于定量計算社交網絡中用戶的情感以及分析預測其行為分析。MoodCast是結合用戶的動態狀態信息(如地點、活動和屬性)和用戶的社會關系對其情感的影響而建立的模型。MoodCast中將主體情緒的變化建模成動態連續網絡Gt的函數:Gt=(V,Et,Xt,Yt)。其中V是用戶的集合,假設有n個用戶,e∈Et是指在t時刻用戶vi和用戶vj創建的連接。Xt是社交網絡上所有用戶在連續時間屬性變化的集合,Yt是在社交網絡上所有用戶情感狀態改變的集合。假設用戶所處環境不變,即Xt=X[3],則用戶的情緒僅根據時間關聯因子函數和社會關聯因子函數而變化,所以用戶的情緒可以表述為式(1):
其中,h(Gt)為時間關聯因子函數,它表示用戶的最近過去時刻t′情感狀態yt′對時刻t的情感狀態yt的影響程度。由于時間影響具有連續性,即t時刻前的m個時刻為t-1,t-2,…,t-m,根據MoodCast模型,之前狀態的時隔越短對情緒預測的影響越深刻,因此預測情感的變量主要是最近的過去狀態,歸一化過去各時間的影響總和,如式(2)所示:
g(Gt)為社會關聯因子函數,它表示用戶vj在t′時刻的情感y對用戶vi在t時刻情感的影響。Fowle、Whitfield和Christakis研究發現一個社會網絡中用戶傳播幸福三度分離,即三度之內用戶比之外感到幸福的可能性更大,用戶的情緒影響只在兩階內比較顯著,且影響因子的系數分別為18%、11%[6]。研究中忽略主體之間聯系的密切度,二值化為一階社交網絡用戶間聯系矩陣E(dij),
dij=0 i和j沒有聯系1 i和j有聯系
矩陣E(dij)平方后得二階社交網絡用戶間聯系矩陣E2(eij),
eij=0 i和j沒有二階聯系1 i和j有二階聯系(是“朋友的朋友”)
社會關系方面研究社交網絡中其他用戶vj對用戶vi的影響,而主對角線為自身對自身的影響,所以聯系矩陣的主對角線為0。社交網絡用戶有多個聯系人,我們對En×n進行列標準化如式(3)所示:
假設用戶情緒是自身情緒在時間上的延續及社交關系對用戶情緒影響的和,則形式上用戶情感狀態的預測函數表示為:f(V,Et+1,Xt+1|Gt)→Yt+1
2 基于情感傳播的用戶廣告點擊行為預測模型
由于廣告是短文本,特征向量表示會異常稀疏,廣告文本去除停用詞后剩余更少,所以通過經驗點擊率將剩余文本中的關鍵詞作為廣告標簽。
設詞t在M條廣告中出現的次數為N(t),則t平均在每條廣告中出現N(t)|M次。設t在一條廣告a中出現的次數為n(t,a),則t在廣告a的重要性如式(8):
g(t,a)>1,與N(t)呈負相關,與n(t,a)呈正相關(即詞t在廣告a中出現次數越多越重要)。廣告a中的所有詞為ti(i=1,2,…,n),讓ti按其比重g(t,a)排序,得到詞序列t(ki∈{1,2,…,n})
篩選后的詞序列t(ki∈{1,2,…,i})就是廣告a的標簽,因為求詞比重和詞序列均與M無關,所以可將M設為常整數。
P(1|t1),P(1|t2),…,P(1|tn)是估算出現的標簽t1,t2,…,tn的廣告點擊率。根據貝葉斯公式,對任意詞t出現時,廣告被點擊的概率是:
式(10)中,表示廣告被點擊。
如式(12),(t1 t2…tn)的取值可大于等式后半部分,所以互作用不獨立。正如我們日常購物,影響因素眾多,除去主導因素,剩余因素的影響比較小,而“折扣”、“清倉”標簽的加強效果也不是累加的。所以添加修正因子函數關于i的減函數(tK,ti),得:
通過樣本針對每個標簽t獲得?姿(t,i),再擬合i,用經驗概率估算對所有標簽t1,t2,t3,…生成矩陣M?琢,其中:
我們也可以設定閾值忽略點擊率很小的標簽,最終可以估算?仔1(t1 t2…tn)=P(?棕1|t1 t2…tn)。
本文基于情感傳播機制的用戶行為分析主要是通過在每一次會話中用戶點擊廣告的概率,預測一次會話,主要受用戶的查詢和廣告特征的影響。用戶的查詢直接決定了用戶有沒有點擊廣告的意愿,廣告特征在用戶查看廣告條件下,影響廣告的點擊率。設s代表一次會話的特征向量,令查詢中的關鍵字為向量q,廣告特征(標簽)為l,則s=(q,l)。設用戶點擊廣告為1,不點擊廣告為?棕0,則令:
其中,用最小二乘法擬合,因為q,l在點擊率中所占權重不確定性會使整個s估計聯合概率產生較大誤差。生活中我們的行為受情緒的影響,所以在廣告點擊模型中加入情緒因素:
其中yt為情緒預測模型,如式(13)所示。
本文采用指數形式加入情緒因素是因為情緒對點擊率的影響是整體的,會貫穿不同點擊率變化的過程。用系數來解決影響程度的不確定性。
3 仿真與驗證
用戶情感服從X~N(0,1)正態分布,設0.5為情感“中立”,大于0.5為情感“積極”,情感值越大越積極,小于0.5為情感“消極”,情感值越低越低落。同時引用正態分布的期望與方差來觀察情緒變化與波動程度對預測情緒的影響。
實驗主要驗證聯系人情感變化與波動程度對用戶未來情感的影響程度。首先,設定不同情感期望值來分析聯系人情感狀態對用戶情感的影響。圖1~圖3顯示不同情感狀態的用戶受聯系人情感變化的影響,所有曲線均趨于平緩。圖4綜合處于不同水平的自身情緒的實驗結果曲線看出聯系人的情緒變化有可能明顯改變用戶情緒。圖5通過改變不同水平情緒的聯系人的比重來觀察對自身情緒的影響程度,看出當某水平情緒的聯系人所占比重較大時,可明顯改變自身的情緒水平。圖6設定不同情緒波動程度的聯系人來分析對自身情緒波動的影響,發現當聯系人情緒方差較小時,自身情緒波動穩定,當聯系人情緒方差大于研究對象時,自身情緒波動變大。
上圖顯示該情感預測模型的有效性,而聯系人的情緒明顯影響自身的行為,本文在廣告點擊模型中加入情緒元素的影響:
假設影響水平參數a=1,a的取值為正數即可,把聯系人行為與自身之前行為設為正態變量,變量的期望值與聯系人情緒水平變化一致,因為聯系人行為明顯影響自身情緒預測值,上述實驗已證,考慮點擊率受多種獨立因素影響,設變量服從正態分布。
圖7、圖8表明了聯系人的不同情緒變化對用戶點擊率預測的影響,三條線的斜率都是正的,說明了社交網絡用戶情感對點擊率呈現正向影響。
4 結束語
本文將用戶情感的預測模型引入到用戶廣告點擊行為預測中,有效證明了用戶的情緒受到社會關聯因子的影響,而影響程度與社會關聯因子的取值有關,并且情感對用戶行為有正向作用。但對用戶情感的細微變化研究不夠,未來擬對社交網絡中用戶情感傳播的微觀機理進行深入研究。
參考文獻
[1] JACKSON P,MOULINIER I.Natural language processing foronline applications:text retrieval,extraction and categoriza-tion[M].John Benjamins Publishing Company,2007.
[2] FELDMAN R,SANGER J.The text mining handbook[M].Cambridge University Press.2006.
[3] 唐杰,賈珈,楊洋,等.社交網絡數據的情感計算[J].中國計算機學會通訊,2014,10(5):18-24.
[4] BERRY M,CASTELLANOS M.Survey of text mining II:clustering,classification and retrieval[J].Springer,2007.
[5] WHITFIELD J.The Secret of Happiness:Grinning on the Internet[J].Nature,2008.
[6] FOWLER J H,CHRISTAKIS N A.Dynamic spread of happiness in a large social network:longitudinal analysis over 20 years in the Framingham heart study[J].British Medical Journal,2008.
[7] CACIOPPO J T,FOWLER J H,CHRISTAKIS N A.Alone in the crowd:the structure and spread of loneliness in a large social network[J].Journal of Personality and Social Psychology,2009.
[8] Qi Yudong,Qu Ning,Xie Xiaofang.Web Information Systems and Mining(WISM).IEEE.2010.
[9] BOLLEN J,MAO H,ZENG X J.Twitter mood predicts the stock market.Computational Science,2011,2(1):1-8.
[10] GOYAL K A,SADASIVAM A.A critical analysis of rational& emotional approaches in car selling[J].Int’l J.Business Research and Management,2010,1(2):59-63.
[11] 楊琳.基于社交網絡的用戶行為分析及預測[D].西安:西安郵電大學,2013.