<address id="japib"><nav id="japib"></nav></address>

<cite id="japib"></cite>

        一種融合性格線索的微博情感分類

        賈莉 江濤 馬寧 孟家豪

        引用本文:
        Citation:

        一種融合性格線索的微博情感分類

          作者簡介: 賈 莉(1994?),女,河南人,碩士生, 主要研究自然語言處理. E-mail:743507179@qq.com;
          通訊作者: 江濤, xinxiyuanjt@126.com
        • 中圖分類號: TP391

        A Weibo sentiment classification combined with the clues of personality

          Corresponding author: JIANG Tao, xinxiyuanjt@126.com ;
        • CLC number: TP391

        • 摘要: 現有的文本情感分析模型很少融入性格線索,但不同性格的用戶卻具有不盡相同的情感表達方式. 結合心理學中Big-Five性格模型,提出一種融合性格線索的微博情感分類模型PBiLSTM. 該模型將微博句子文本的情感特征與用戶性格線索進行融合,增加新的情感判別維度,并利用BiLSTM能夠提取文本全局特征的優勢,有效提升了模型情感分類的能力. 實驗結果表明,融合性格線索的微博情感分析模型PBiLSTM的準確率可以達到93.68%,并在多項性能指標上都取得了很好的結果.
        • 圖 1  PBiLSTM模型框架

          Figure 1.  The framework of PBiLSTM model

          圖 2  用戶性格評價指標

          Figure 2.  User personality evaluation index

          圖 3  用戶交互主動性與微博情感極性的關系

          Figure 3.  Relationship between the interaction of users and the emotional polarity of Weibo

          圖 4  用戶微博影響力與情感極性的關系

          Figure 4.  Relationship between user influence and emotional polarity

          表 1  PBiLSTM模型實驗參數

          Table 1.  Experimental parameters of PBiLSTM

          參數數值參數數值
          詞向量維度 200 損失函數 二元交叉熵
          層數 2 優化函數 Adam
          隱藏層大小 128 Epochs 60
          Dropout rate 0.5
          下載: 導出CSV

          表 2  5種模型對比實驗結果

          Table 2.  Comparative experimental results of 5 models

          模型準確率召回率F
          LSTM 0.9091 0.9097 0.9088
          BiLSTM 0.9135 0.9137 0.9132
          SVM 0.8753 0.8734 0.8750
          PLSTM 0.9202 0.9196 0.9207
          PBiLSTM 0.9368 0.9318 0.9324
          下載: 導出CSV

          表 3  BiLSTM模型和PBiLSTM模型實驗結果實例

          Table 3.  Examples of experimental results for BiLSTM and PBiLSTM models

          實例用戶性格微博文本BiLSTMPBiLSTM
          1 HA、HE、HC 我是小妖怪,逍遙游自在,殺人不眨眼,吃人不放鹽 消極 積極
          2 LA、LE、HC 人的成見是一座大山 積極 消極
          3 HA、HE 相比原作軟科幻的末日背景,在設定方面電影版還是強化很多科幻元素 積極 積極
          4 HA、HE 上海,人類最后的堡壘 消極 積極
          下載: 導出CSV
          幸运快三
        • [1] 韓萍, 孫佳慧, 方澄, 等. 基于情感融合和多維自注意力機制的微博文本情感分析[J]. 計算機應用, 2019, 39(S1): 75-78. Han P, Sun J H, Fang C, et al. Micro-blog sentiment analysis based on emotional fusion and multi-dimensional self-attention mechanism[J]. Journal of Computer Applications, 2019, 39(S1): 75-78.
          [2] 來純曉, 李艷翠, 金松林. 基于貼吧的高校網絡輿情預警和引導系統研究[J]. 智能計算機與應用, 2019, 9(4): 16-20. DOI:  10.3969/j.issn.2095-2163.2019.04.005. Lai C X, Li Y C, Jin S L. Research on college net-work public opinion early warning and guidance system based on post bar[J]. Intelligent Computer and Applications, 2019, 9(4): 16-20.
          [3] 繆裕青, 汪俊宏, 劉同來, 等. 圖文融合的微博情感分析方法[J]. 計算機工程與設計, 2019, 40(4): 1 099-1 105. Miao Y Q, Wang J H, Liu T L, et al. Joint visual-textual approach for microblog sentiment analysis[J]. Computer Engineering and Design, 2019, 40(4): 1 099-1 105.
          [4] 劉平, 崔宗藝, 周煒翔, 等. 基于行為信息的微博用戶性格預測研究[J]. 北京信息科技大學學報:自然科學版, 2019, 34(3): 32-38. Liu P, Cui Z Y, Zhou W X, et al. Personality prediction of microblog user based on behavior information[J]. Journal of Beijing Information Science & Technology University: Natural Science Edition, 2019, 34(3): 32-38.
          [5] 聶穎杰. 基于情感認知和個性化特征的用戶興趣分析方法研究與實現[D]. 石家莊: 河北科技大學, 2019.

          Nie Y J.Research and implementation of user interest analysis method based on emotional cognition and personalized features[D]. Shijiazhuang: Hebei University of Science and Technology, 2019.
          [6] 袁婷婷. 微博文本情感分析研究[D]. 烏魯木齊: 新疆大學, 2019.

          Yuan T T. Micoblog text sentiment analysis research[D]. Urumqi: Xinjiang University, 2019.
          [7] 毛焱穎. 基于注意力雙層LSTM的長文本情感分類方法[J]. 重慶電子工程職業學院學報, 2019, 28(2): 118-125. Mao Y Y. Long text emotion classification method based on the attention double-layer LSTM[J]. Journal of Chongqing Vocational College of Electronic Engineering, 2019, 28(2): 118-125.
          [8] 孟仕林, 趙蘊龍, 關東海, 等. 融合情感與語義信息的情感分析方法[J]. 計算機應用, 2019, 39(7): 1 931-1 935. DOI:  10.11772/j.issn.1001-9081.2018112375. Meng S L, Zhao Y L, Guan D H, et al. Sentiment analysis method combining sentiment and semantic information[J]. Journal of Computer Applications, 2019, 39(7): 1 931-1 935.
          [9] 邵良杉, 周玉. 基于語義規則與RNN模型的在線評論情感分類研究[J]. 中文信息學報, 2019, 33(6): 124-131. DOI:  10.3969/j.issn.1003-0077.2019.06.018. Shao L S, Zhou Y. Semantic rules and RNN based sentiment classification for online reviews[J]. Journal of Chinese Information Processing, 2019, 33(6): 124-131.
          [10] 凌海彬. 基于多特征融合的微博情感分析研究[D]. 桂林: 桂林電子科技大學, 2019.

          Ling H B. Microblog sentiment analysis based on multi-features fusion[D]. Guilin: Guilin University of Electronic Science and Technology, 2019.
          [11] 謝麗星, 周明, 孫茂松. 基于層次結構的多策略中文微博情感分析和特征抽取[J]. 中文信息學報, 2012, 26(1): 73-83. DOI:  10.3969/j.issn.1003-0077.2012.01.011. Xie L X, Zhou M, Sun M S. Hierarchical structure based hybrid approach to sentiment analysis of Chinese microblog and its feature extraction[J]. Journal of Chinese Information Processing, 2012, 26(1): 73-83.
          [12] 余凱, 賈磊, 陳雨強, 等. 深度學習的昨天、今天和明天[J]. 計算機研究與發展, 2013, 50(9): 1 799-1 804. DOI:  10.7544/issn1000-1239.2013.20131180. Yu K, Jia L, Chen Y Q, et al. Deep learning: Yesterday, today, tomorrow[J]. Journal of Computer Research and Development, 2013, 50(9): 1 799-1 804.
          [13] 李洋, 董紅斌. 基于CNN和BiLSTM網絡特征融合的文本情感分析[J]. 計算機應用, 2018, 38(11): 29-34. Li Y, Dong H B. Text sentiment analysis based on feature fusion of convolution neural network and bidirectional long short-term memory network[J]. Journal of Computer Applications, 2018, 38(11): 29-34.
          [14] 凌海彬, 繆裕青, 張萬楨, 等. 多特征融合的圖文微博情感分析[J]. 計算機應用研究, 2020: 37(7): 1 935-1 951. DOI:  10.19734/j.issn.1001-3695.2018.12.0929

          Ling H S,Miao Y Q,Zhang W Z,et al.Multimedia sentiment analysis on microblog basedon multi-feature Fusion[J].Application Research of Computers, 2020: 37(7): 1 935-1 951.
          [15] Lin J, Mao W, Zeng D D. Personality-based refinement for sentiment classification in microblog[J]. Knowledge-Based Systems, 2017, 132(132): 204-214.
          [16] 黃發良, 馮時, 王大玲, 等. 基于多特征融合的微博主題情感挖掘[J]. 計算機學報, 2017, 40(4): 872-888. Huang F L, Feng S, Wang D L, et al. Mining topic sentiment in microblogging based on multi-feature fusion[J]. Journal of Computer Science, 2017, 40(4): 872-888.
          [17] Golbeck J, Robles C, Edmondson M, et al. Predicting personality from Twitter[C]//IEEE 3rd International Conference on Privacy, Security, Risk and Trust, Boston, Massachusetts, 2011: 149-156.
          [18] Bai S, Hao B, Li A, et al. Predicting big five personality traits of microblog users[C]//IEEE/WIC/ACM International Joint Conferences on Web Intelligence (WI) and Intelligent Agent Technologies (IAT), Atlanta, GA, USA, 2013: 501-508.
          [19] Liu F, Perez J, Nowson S. A language-independent and compositional model for personality trait recognition from short texts[J]. arxiv: 1610.04345
          [20] Majumder N, Poria S, Gelbukh A, et al. Deep learning-based document modeling for personality detection from Text[J]. IEEE Intelligent Systems, 2017, 32(2): 74-79. DOI:  10.1109/MIS.2017.23.
          [21] 王新勝, 馬樹章. 融合用戶自身因素與互動行為的微博用戶影響力計算方法[J]. 計算機科學, 2020, 47(1): 96-101. DOI:  10.11896/jsjkx.181202253. Wang X S, Ma S Z. Method of Weibo user influence calculation integrating users' own factors and interaction behavior[J]. Computer Science, 2020, 47(1): 96-101.
          [22] 袁婷婷, 楊文忠, 仲麗君, 等.基于性格的微博情感分析模型PLSTM[J].計算機應用研究, 2020, 37(2): 342-346.

          Yuan T T,Yang W Z, Zhong L J, et al. Personality-based microblog sentiment analysismodel PLSTM[J].Application Research of Computers, 2020, 37(2): 342-346.
        • [1] 張林森包崇明周麗華孔兵 . 基于混合特征和XGBoost算法的微博轉發預測. 云南大學學報(自然科學版), 2020, 42(5): 836-845. doi: 10.7540/j.ynu.20190647
          [2] 趙小明張群岳昆 . 基于靜電場理論和PageRank算法的微博用戶相關性分析. 云南大學學報(自然科學版), 2015, 37(2): 207-214. doi: 10.7540/j.ynu.20140430
          [3] 姬晨郭延哺金宸段云浩李維華 . 一種基于卷積神經網絡的跨領域情感分析. 云南大學學報(自然科學版), 2019, 41(2): 253-258. doi: 10.7540/j.ynu.20180050
          [4] 任思睿黃銘 . 基于改進的長短期記憶網絡的調制識別算法. 云南大學學報(自然科學版), 2020, 42(): 1-7. doi: 10.7540/j.ynu.20200075
          [5] 楊志軍毛磊丁洪偉 . 基于長短期記憶網絡的輪詢系統性能預測. 云南大學學報(自然科學版), 2020, 42(6): 1046-1052. doi: 10.7540/j.ynu.20190351
          [6] 張曉珊呂世懂劉倫劉川周降生廉明王晨孟慶雄 . 頂空固相微萃取與氣相色譜-質譜法〖KH*2〗分析月光白茶香氣成分. 云南大學學報(自然科學版), 2014, 36(5): 740-749. doi: 10.7540/j.ynu.20140059
          [7] 王東孫彬張紹武 . 微信息進程與流量檢測指令分布下的傾向性檢測模型*. 云南大學學報(自然科學版), 2016, 38(5): 714-723. doi: 10.7540/j.ynu.20150811
          [8] 石茂林李洪友 . 鈦合金微弧氧化工藝參數與陶瓷膜數學模型的建立及實驗研究. 云南大學學報(自然科學版), 2015, 37(1): 102-110. doi: 10.7540/j.ynu.20140298
          [9] 陳智斌 . 網絡中信息傳播的最短時間算法. 云南大學學報(自然科學版), 2003, 25(6): 483-486.
          [10] 李華宏王曼閔穎朱莉楊竹云 . 昆明市雨季短時強降水特征分析及預報研究. 云南大學學報(自然科學版), 2019, 41(3): 518-525. doi: 10.7540/j.ynu.20180367
          [11] 李華宏許彥艷王曼許迎杰 . 低緯高原一次短時強降水過程的綜合分析. 云南大學學報(自然科學版), 2020, 42(3): 515-524. doi: 10.7540/j.ynu.20190328
          [12] 王銘石磊 . 協方差分析模型的影響分析. 云南大學學報(自然科學版), 2003, 25(5): 391-394.
          [13] 石磊李琰何利平 . 線性模型中基于穩健診斷的局部影響分析. 云南大學學報(自然科學版), 2004, 26(1): 1-5.
          [14] 白全紅劉勇陳菁菁張蕾孟捷 . 基于Logistic模型的烤煙收購質量控制分析. 云南大學學報(自然科學版), 2014, 36(S1): 1-5. doi: 10.7540/j.ynu.20140049
          [15] 嚴銘姣肖梅玲楊旸陳揚 . 地震人群疏散動力模型及仿真分析. 云南大學學報(自然科學版), 2016, 38(2): 238-244. doi: 10.7540/j.ynu.20150707
          [16] 堵錫華李靖田林李昭周俊陳艷吳瓊 . 杜松籽油香氣成分的理論分析模型. 云南大學學報(自然科學版), 2019, 41(1): 136-143. doi: 10.7540/j.ynu.20180414
          [17] 施令飛何曉宇沈堅KiprotichPaul魏顯虎張宗科邱鳳婷 . 基于SLEUTH模型的內羅畢城市擴張預測分析. 云南大學學報(自然科學版), 2020, 42(6): 1101-1109. doi: 10.7540/j.ynu.20190632
          [18] 胡翠林謝平過龍根周永東王圣瑞 . 洱海微囊藻晝夜垂直遷移研究. 云南大學學報(自然科學版), 2018, 40(2): 363-371. doi: 10.7540/j.ynu.20170664
          [19] 周慶谷桂初 . 半導體微盤的回音壁模式研究. 云南大學學報(自然科學版), 2005, 27(6): 544-547.
          [20] 高國明康國發 . 衛星地磁場模型和IGRF模型與中國地磁臺觀測值的比較分析. 云南大學學報(自然科學版), 2010, 32(5): 547-552 .
        • 加載中
        圖(4)表(3)
        計量
        • 文章訪問數:  612
        • HTML全文瀏覽量:  616
        • PDF下載量:  20
        • 被引次數: 0
        出版歷程
        • 收稿日期:  2019-10-29
        • 錄用日期:  2020-03-23
        • 網絡出版日期:  2020-06-03
        • 刊出日期:  2020-09-22

        一種融合性格線索的微博情感分類

          作者簡介:賈 莉(1994?),女,河南人,碩士生, 主要研究自然語言處理. E-mail:743507179@qq.com
          通訊作者: 江濤, xinxiyuanjt@126.com
        • 1. 西北民族大學 中國民族語言文字信息技術教育部重點實驗室,甘肅 蘭州 730030
        • 2. 西北民族大學 絲綢之路信息港?中西亞信息研究院,甘肅 蘭州 730030

        摘要: 現有的文本情感分析模型很少融入性格線索,但不同性格的用戶卻具有不盡相同的情感表達方式. 結合心理學中Big-Five性格模型,提出一種融合性格線索的微博情感分類模型PBiLSTM. 該模型將微博句子文本的情感特征與用戶性格線索進行融合,增加新的情感判別維度,并利用BiLSTM能夠提取文本全局特征的優勢,有效提升了模型情感分類的能力. 實驗結果表明,融合性格線索的微博情感分析模型PBiLSTM的準確率可以達到93.68%,并在多項性能指標上都取得了很好的結果.

        English Abstract

        • 微博已經成為人們分享信息和表達情感最廣泛使用的社交媒體平臺之一. 人們常常會發表帶有個人情感傾向性的微博文本,這些信息中包含著不同的情感傾向,不僅反映了用戶所持有的觀點和態度,也可能會對社交網絡輿情的傳播產生巨大的影響. 目前,情感分析在輿情分析、市場營銷等領域都有重要的應用價值[1-3].

          微博數據中不僅包含微博原文,而且還包括粉絲數、等級、評論數等用戶個人信息和行為信息. 這些信息不但能夠客觀地刻畫出微博用戶行為特征,而且還可以反映出用戶的性格特征和當時的心理活動. 性格開放的人富有想象力、創造力和好奇心;性格外向的人傾向于積極主動與他人進行交流互動;性格神經質的人發表的內容較為消極;性格謹慎的人發表的原創微博相對較少,更多地關注其他用戶發表的內容[4-5]. 心理學研究表明,人們的表達和說話方式受到性格的影響,情感表達方式相似的人往往擁有相同的性格[6]. 針對微博情感分析中對用戶性格關注度不足的問題,本文提出一種融合性格線索的微博情感分類模型PBiLSTM(Personality Bidirectional Long Short Term Memory,融合性格的雙向長短時記憶網絡),通過用戶行為信息構造性格特征,結合文本語義信息實現微博文本情感分類.

          • 情感分類是情感分析的主要任務之一,其目的是根據文本所表達的情感傾向性(積極、消極或中性)將文本分為不同的類別. 目前情感分類的主要方法大致分為兩類[7-9]:基于情感詞典的方法和基于機器學習的方法. 基于情感詞典的方法主要通過現有的情感知識(情感詞典、極性詞典等)及制定的表達規則來判定文本的情感傾向性[10]. 謝麗星等[11]根據微博文本的特點,提出了基于層次結構的多策略情感分析框架,將微博特征如表情符號、鏈接等與微博文本的句子構成特征相結合進行情感分類. 但是,該過程中僅考慮了微博文本特征,而沒有注意到用戶性格屬性對情感表達方式的影響,擁有不同性格的用戶在表達過程使用的詞語或者表情符號會有所不同.

            目前主流的方法是基于機器學習模型進行情感傾向性的判別. 其主要是通過從語料庫中自動挖掘的文本特征構建情感分類器. 分類器的性能在很大程度上依賴于適當的機器學習算法和有效的文本特征,這些特征可以區別于不同的類別. 深度學習是機器學習的一種范式,近年來引起工業界和學術界的廣泛關注[12]. 李洋等[13]提出一種卷積神經網絡(Convolutional Neural Network,CNN)和雙向長短時記憶(Bidirectional Long Short Term Memory,BiLSTM)特征融合的模型,該方法充分利用了兩種互補模型CNN和BiLSTM的局部特征和全局特征的優勢,將所提取的特征進行融合,有效提升了文本情感分類的準確率. 但沒有考慮到不同性格用戶的表達風格也不盡相同.

            凌海彬等[14]首先將內容特征和用戶特征與微博句子進行融合,構建微博文本情感分類模型;然后構建基于參數遷移和微調的微博圖片情感分類模型;最后應用設計特征層和決策層的方法將文本和圖片模型進行融合. 該融合方法能夠獲得更好的分類性能, 該分類過程注意到用戶情感表達的差異和除文字外的特征,但是忽略了用戶性格屬性,沒有考慮將用戶屬性性格也作為特征的一部分,不同性格用戶在表達情感方式上有較大的差異.

          • 心理學上提出的性格模型,如Big Five模型和MBTI模型[15],其中Big Five模型是最具有影響力和被普遍接受的人格模型,在心理學和人工智能中被廣泛采用. 它從5個維度描述人的性格,即愉悅性(Agreeableness)、責任性(Conscientiousness)、外向性(Extroversion)、神經質(Neuroticism)和開放性(Openness). 從行為的角度看,愉悅性反映了個體的行為特征,如對他人的幫助、合作和同情;責任性包括自律、組織和周密的計劃,以及取得成就的需要;外向性與社交技能、健談能力和個人魅力直接相關;神經質一定程度上反映情緒穩定性,一個人神經質得分越高,就越容易陷入消極情緒;開放性反映了個體豐富的想象力、審美感受、奉獻精神和對新事物的好奇心[16].

          • 在社交網絡用戶性格傾向性預測方面,許多心理學和計算機領域的學者關注了Big Five模型中人們語言使用和人格特征之間關系的研究,人們開始使用機器學習技術預測社交媒體中用戶的性格特征[17]. Bai等[18]通過多任務回歸和增量回歸算法對微博用戶行為信息進行分析,可以很好地預測性格特征. 近年來,深度學習技術也被用于人格預測, Liu等[19]基于雙向遞歸網絡訓練的層次結構、向量詞和句子表示推斷用戶的性格特征. Majumder等[20]訓練卷積神經網絡,根據預先訓練好的詞嵌入獲取句子和文檔向量,并利用它們對用戶的五大人格特征進行分類.

          • 本文提出融合性格線索的微博情感分類模型PBiLSTM是一個多層循環神經網絡結構,由兩部分的BiLSTM模型組成分別對微博句子和性格特征句子(由高愉悅HA、低愉悅型LA、高外向型HE、低外向型LE、高責任型組成HC)進行處理,其中每一類性格特征句子由一系列的性格關鍵詞組成,模型的輸入為向量矩陣,向量矩陣由微博文本詞向量矩陣和情感特征特征矩陣組成. 利用word2vec開源工具將微博文本轉化為詞向量表示的形式,形成微博文本的詞向量矩陣W以及和性格特征文本的詞向量矩陣 F兩部分. 向量矩陣為n×d,其中n 為文本中詞語的個數,d 為詞向量的維度. BiLSTM模型由前向LSTM(F)和后向LSTM(B)組合而成. PBiLSTM模型的框架如圖1所示.

            圖  1  PBiLSTM模型框架

            Figure 1.  The framework of PBiLSTM model

          • 通過對所獲取微博數據進行處統計分析,發現用戶在微博中的行為與性格存在一定的聯系. 從用戶的行為提出能夠判斷用戶性格的3個指標屬性,這些指標能夠反映微博用戶的性格特征,用戶性格評價指標如圖2所示.

            圖  2  用戶性格評價指標

            Figure 2.  User personality evaluation index

          • 微博原創比率是指微博用戶所有微博中原創微博與非原創微博的比率. 外向型用戶反映了個體自信、善于交際、愛說話并且主動尋求積極情緒的特性. 當用戶微博原創比率為1,即所有的微博均為原創微博,則該用戶性格為外向型. 原創比率計算公式如下:

            $O(u) = \frac{{Y(u)}}{{F(u)}},$

            其中:$O(u)$表示用戶原創比率;$F(u)$表示用戶u發布的所有微博數;$Y(u)$表示用戶u的原創微博數.

          • 交互主動性重要程度由關注數、粉絲數兩部分構成. 粉絲數或關注數多的用戶通常具有一定的影響力,這些用戶更加注重自己的形象,傾向于發布積極的、具有正能量的微博. 這與愉悅型用戶具有慷慨、值得信賴、謙遜、愿意幫助別人的特點相一致,因此可通過粉絲數和關注數等互動性指標表征愉悅型用戶,用戶交互主動性計算公式如下:

            $J(u) = \sqrt {S(u)} + \sqrt {G(u)}, $

            其中:$J(u)$表示用戶u交互主動性;$S(u)$表示用戶u微博的粉絲數;$G(u)$表示用戶u微博的關注數.

            為了描述計算數據集中用戶交互主動性與用戶所發布的情感極性的關系,引入累積分布函數(Cumulative Distribution Function,CDF). 累積分布函數定義如下:

            ${F_x} = P(X \leqslant x),$

            其中:$P(X \leqslant x)$ 表示隨機變量$X$$\leqslant x$的概率;${F_x}$表示累積分布函數,即連續函數中所有$\leqslant x$的值出現概率的和. 累積分布函數又叫分布函數,是一個概率密度函數的積分,能完整描述一個實隨機變量X的概率分布. 通過對數據的統計分析,得到用戶交互主動性與微博情感極性之間的聯系,如圖3所示. 由圖3結果可知,發布積極微博的用戶交互主動性幾乎都<40,用戶交互主動性可以明顯區分消極和非消極微博,本文將用戶交互主動性$\geqslant $40標注為高愉悅型,<40的標注為低愉悅型.

            圖  3  用戶交互主動性與微博情感極性的關系

            Figure 3.  Relationship between the interaction of users and the emotional polarity of Weibo

          • 微博影響力主要通過微博被評論數、被點贊數和被轉發數體現,一定程度上代表著自我的贊同度和自我的價值[21]. 責任型性格的用戶更傾向于發布有條理的、有責任感的、有成就感的微博文本. 從微博內容中較難界定低責任性格,本文暫不考慮低責任型的性格[22]. 微博影響力計算公式如下:

            $I(u) = C(u) + L(u) + R(u),$

            其中:$I(u)$表示微博影響力;$C(u)$表示微博被評論數;$L(u)$表示微博被點贊數,$R(u)$表示微博被轉發數. 根據公式(4)可以得到數據集中微博影響力與情感極性的關系,結果如圖4所示. 由圖4結果可知,90%的消極微博的影響力都小于20,用戶微博影響力在一定程度上可以區分出積極和消極微博,因此將數據集中影響力$\geqslant $20的標注為高責任型.

            圖  4  用戶微博影響力與情感極性的關系

            Figure 4.  Relationship between user influence and emotional polarity

          • 實驗所用的數據集為網上爬取的新浪微博數據,主要包括電影《哪吒魔童降世》和《上海堡壘》兩大熱門微博話題文本及評論. 數據包含其微博內容以及作者基本信息,該數據集包含了11544條文本,并對每條文本都進行了情感極性的標注. 其中積極的有5867條,消極的5677條. 其中,80%用作訓練集,20%用作測試集. 實驗環境為Core i7 3.4 GHz,12 GB內存,Window10 64位操作系統,深度學習框架為Keras.

          • 實驗結果的優劣取決于實驗參數的選取,表1列出了本文實驗中所使用的模型參數包括詞向量維度、層數、迭代次數(Epochs)、退出率(dropout rate)、優化函數、損失函數等. 為了找到最優參數設置,采用固定參數的方法,在其他參數不變的情況下,調節某一個參數進行多次試驗,將最優參數作為超參數.

            參數數值參數數值
            詞向量維度 200 損失函數 二元交叉熵
            層數 2 優化函數 Adam
            隱藏層大小 128 Epochs 60
            Dropout rate 0.5

            表 1  PBiLSTM模型實驗參數

            Table 1.  Experimental parameters of PBiLSTM

            通過固定參數的方法,分別比較100維和200維的詞向量,同時分別對比了128和256層的隱藏層的大小,層數默認取2層. 通過對比發現詞向量設定為200維、隱藏層為128層時模型情感分類的性能最優. 選擇Adam作為隨機優化方法,該方法通過為不同的參數設計獨立的自適應性學習率,不斷迭代更新網絡參數加快模型收斂,使得模型的準確率達到最高.

          • 為了驗證融合性格線索模型的分類性能,分別將本文提出的模型PBiLSTM與LSTM模型、BiLSTM模型、SVM模型、PLSTM模型、PBiLSTM模型進行對比.

            實驗采用準確率、召回率、F值作為評價指標,實驗結果如表2所示.

            模型準確率召回率F
            LSTM 0.9091 0.9097 0.9088
            BiLSTM 0.9135 0.9137 0.9132
            SVM 0.8753 0.8734 0.8750
            PLSTM 0.9202 0.9196 0.9207
            PBiLSTM 0.9368 0.9318 0.9324

            表 2  5種模型對比實驗結果

            Table 2.  Comparative experimental results of 5 models

            通過對比實驗SVM模型、實驗LSTM模型和BiLSTM模型,可以看出:深度學習的文本分類性能明顯優于傳統的機器學習;利用BiLSTM模型進行微博文本情感分析比LSTM模型效果要好,BiLSTM模型解決梯度消失或梯度爆炸問題,同時充分考慮了詞在上下文的含義,使得該模型進行情感分類效果更好;本文所提模型擁有更高的準確率、召回率和F值,分類性能在對比實驗組中最好,說明性格特征的融入有助于微博文本情感分類.

          • 表3中實例1用戶擁有高愉悅型(HA)、高外向型(HE)、高責任型的性格(HC),實驗結果符合Big Five模型的規律. 同時,該實驗結果表明性格一定程度上會影響情感表達,融合性格線索的PBiLSTM模型對微博文本情感分類具有有效性. 針對性格文本進行訓練得出的情感分類器效果比通用的情感分類器更具有針對性. 實例3和實例4用戶擁有相同的性格高愉悅型(HA)、高外向型(HE)特征,通過對比實驗結果可知具有相同性格的用戶其表達情感的方式趨于一致. 通過對比表3中實例2和實例3,融合性格線索PBiLSTM模型相較于Bi-LSTM模型的情感分類效果更優,該模型能夠更準確地識別出微博文本的情感傾向性.

            實例用戶性格微博文本BiLSTMPBiLSTM
            1 HA、HE、HC 我是小妖怪,逍遙游自在,殺人不眨眼,吃人不放鹽 消極 積極
            2 LA、LE、HC 人的成見是一座大山 積極 消極
            3 HA、HE 相比原作軟科幻的末日背景,在設定方面電影版還是強化很多科幻元素 積極 積極
            4 HA、HE 上海,人類最后的堡壘 消極 積極

            表 3  BiLSTM模型和PBiLSTM模型實驗結果實例

            Table 3.  Examples of experimental results for BiLSTM and PBiLSTM models

          • 本文根據不同性格的用戶具有不同情感表達方式的特點,提出一種融合性格線索的微博情感分析模型PBiLSTM. 該模型既利用BiLSTM兼顧文本的全局特征,充分考慮了詞上下文語義信息,又通過用戶行為融合了用戶性格特征進行微博文本情感分析. 實驗表明,本文提出的用戶性格量化方法以及特征融合方法能夠提升現有BiLSTM算法的效果,情感分類的準確率有明顯提高. 未來將從心理學和社會學角度,引入更多影響情感的元素以提升情感分析的效果.

        參考文獻 (22)

        目錄

          /

          返回文章
          返回