<address id="japib"><nav id="japib"></nav></address>

<cite id="japib"></cite>

        融合主題和要素的漢柬可比語料獲取方法

        郭月江 嚴馨 劉小惠 余正濤 線巖團 莫源源

        引用本文:
        Citation:

        融合主題和要素的漢柬可比語料獲取方法

          作者簡介: 郭月江(1990-),男,黑龍江人,碩士,主要研究方向為自然語言處理.E-mail:540786046@qq.com.;
        • 基金項目:

          國家自然科學基金(61462055,61562049,61363044)

        • 中圖分類號: TP391

        A method of building Chinese-Khmer comparable corpus mixing with themes and elements

        • CLC number: TP391

        • 摘要: 為了有效地獲取可比語料,選取漢柬雙語新聞文檔作為可比語料庫的候選語料,提出一種融合發布時間要素、實體要素和主題分布的可比語料獲取方法.該方法首先計算文本的主題概率分布的JS距離,并融合各主題和要素特征,計算文本相似度;然后利用改進型的層次聚類算法對雙語文本進行聚類,最后從聚簇類結果中獲取可比語料.與基于詞典的文本相似度計算方法進行聚類相比,該文方法有更高的Purity和F值并且獲得的高質量的可比語料更多,說明了本文方法的有效性.
        • [1] TAO T,AHAI C X.Mining comparable bilingual text corpora for cross-language information integration[C].Proceedings of the 2005 ACM SIGKDD International Conference on Knowledge on Knowledge and Datamining,Chicago,Illinois,USA,2005:691-696.
          [2] SUN C N,ZHENG C,XIA Q S.Chinese text similarity computing based on LDA[J].Computer Technology and Development,2013,23(1):217-220.
          [3] YANG Y,JIN F,KAMEL,et al.Survey of clustering validity evaluation[J].Application Research of Computers,2008,25(6):1630-1632.
          [4] THUY Vu,Ai Ti Aw,ZHANG M.Feature-based method for document alignment in comparable news corpora[C].Proceedings of the 12th Conference of the European Chapter of the ACL.Athens Greece,2009:843-851.
          [5] TALVENSAARI T,LAURIKKALA J,JARVELIN K,et al.Creating and exploiting a comparable corpus in cross language information retrieval[J].ACM Transactions on Information Systems,2007,25(1):322-334.
          [6] OTERO P G,LOPEZ I G.Wikipedia as multilingual source of comparable corpora[C].Proceedings of the 3rd Workshop on BUCC,LREC2010,Malta,2010:21-25.
          [7] JUDITA P.Identifying comparable corpora using LDA[C].Proceedings of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies.Montr'eal,Canada,2012:558-562.
          [8] ZHU Z D,LI M,CHEN L,et al.Building comparable corpora based on bilingual LDA model[C].Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics,Sofia,Bulgaria,2013:278-282.
          [9] BLEI D M,NG A Y,JORDAN M I.Latent dirichlet allocation[J].Journal of Machine Learning Research,2003,3:993-1022.
          [10] 孫昌年,鄭誠,夏青松.基于LDA的中文文本相似度計算[J].計算機技術與發展,2013,23(1):217-220.
          [11] LI R P,LIU T.Application research on BP artificial neural network and LM algorithms in the fixed assets investment performance evaluation[C].Proc of the 7th International Conference on Machine Learning and Cybernetics,Kunming,2008:12-15.
          [12] JIN R,HAUPTMANN A G.Title generation for machine translated documents[C].IJCAI#x02019;01,Proc of the 17th International Joint Conference on Artificial Intelligence,2001:1229-1234.
          [13] HU X H,ZHANG X D,LU C M,et al.Exploiting wikipedia as external knowledge for document clustering[C].Proc of the 15th ACM SIGKDD Int#x02019;l Conf on Knowledge Discovery and Data Mining,2009:389-396 doi: 10.1145/1557019.1557066.
          [14] MURTAGH F.Clustering in massive data sets[M]//Handbook of Massive Data Sets.Springer US,2002:501-543.
          [15] MUNTEANU D S,FRASER A M,MARCU D.Improved machine translation performance via parallel sentence extraction from comparable corpora[C]//Proceeding of Hlt-Naacl,2004:265-272.
          [16] 楊燕,靳蕃,KAMEL,et al.聚類有效性評價綜述[J].計算機應用研究,2008,25(6):1630-1632.
          [17] CONRAD J G,AL-KOFAHI K,ZHAO Y,et al.Effective document clustering for large heterogeneous law firm collections[C]// Proceedings of the 10th International Conference on Artificial Intelligence and Law,ACM,2005:177-187.
        • [1] 談樹成趙娟娟楊林趙志芳蔣仁偉趙筱青 . 基于GIS和信息量-快速聚類模型的滑坡易發性研究——以云南省福貢縣為例. 云南大學學報(自然科學版), 2018, 40(6): 1148-1158. doi: 10.7540/j.ynu.20180268
          [2] 姜躍 . 基于云有序概念層次樹的時間序列距離計算模型. 云南大學學報(自然科學版), 2003, 25(2): 115-120.
          [3] 黃永平王麗珍 . 考慮對象方向關系的密度聚類算法. 云南大學學報(自然科學版), 2004, 26(3): 216-219.
          [4] 張中軍董仕 . 基于聚類融合的郵件社交網絡社區劃分方法. 云南大學學報(自然科學版), 2017, 39(2): 178-184. doi: 10.7540/j.ynu.20160469
          [5] 邢玉娟李恒杰胡建軍王萬軍 . WCCN聚類序列核函數在話者識別中的應用. 云南大學學報(自然科學版), 2013, 35(2): 167-172. doi: 10.7540/j.ynu.20120509
          [6] 朱雪峰馮早黃國勇李洋 . 基于聲學特征的埋地管道堵塞故障的聚類識別方法. 云南大學學報(自然科學版), 2018, 40(4): 665-675. doi: 10.7540/j.ynu.20170508
          [7] 李海燕鄒天寧李支堯張榆鋒陳建華施心陵 . 基于模糊C均值聚類能量最小化的超聲圖像分割. 云南大學學報(自然科學版), 2015, 37(1): 17-25. doi: 10.7540/j.ynu.20140344
          [8] 彭興媛劉瓊蓀王立威 . 基于條件互信息下聚類的樸素貝葉斯分類算法. 云南大學學報(自然科學版), 2011, 33(5): 517-520.
          [9] 梁珺劉云 . 基于WSN分布式聚類均衡路由算法的優化研究. 云南大學學報(自然科學版), 2014, 36(6): 830-835. doi: 10.7540/j.ynu.20140056
          [10] 徐廣義嚴馨余正濤周麗華 . 融合跨語言特征的柬埔寨語命名實體識別方法*. 云南大學學報(自然科學版), 2018, 40(5): 865-871. doi: 10.7540/j.ynu.20170593
          [11] 屈超純楊華康黃承興 . 一類最優投資模型與算法. 云南大學學報(自然科學版), 2002, 24(2): 81-84.
          [12] 段焰青李青青者為王明鋒夏建軍王欣林鄒楠鄧國賓 . 近紅外光譜相似度匹配分析方法鑒別煙支真偽. 云南大學學報(自然科學版), 2010, 32(4): 453-459 .
          [13] 楊富春聶彩仁何青海 . 一類帶交易費用的含參數Black-Scholes模型. 云南大學學報(自然科學版), 2003, 25(2): 85-87.
          [14] 聶彩仁何樹紅 . 一類廣義的Black-Scholes模型的數值解. 云南大學學報(自然科學版), 2002, 24(4): 241-244.
          [15] 羅碧梅賈云鋒婁爍爍 . 一類具有強Allee效應的捕食?食餌模型的共存性. 云南大學學報(自然科學版), 2019, 41(1): 13-17. doi: 10.7540/j.ynu.20180061
          [16] 項晶菁 . 一類帶有分段常數變量的蚊子種群模型動力學分析. 云南大學學報(自然科學版), 2015, 37(5): 633-643. doi: 10.7540/j.ynu.20150084
          [17] 任一濤 . 深化改革實踐積極推進“光纖通信原理與技術”雙語課教學. 云南大學學報(自然科學版), 2014, 36(S2): 150-153.
          [18] 李建平朱娟萍吳澗 . 研究型離散數學課程雙語教學實踐探索. 云南大學學報(自然科學版), 2016, 38(S1): 70-. doi: 10.7540/j.ynu.20150774
          [19] 李瓊郭世昌劉煜呂達仁段雪梅蘇錦蘭李慧晶 . 亞印太交匯區低緯上空不同層次大氣臭氧的時空變化分析. 云南大學學報(自然科學版), 2011, 33(2): 179-186 .
          [20] 程智朱保林羅連升丁小俊 . 多層次降尺度方法對安徽省月降水量預測的研究. 云南大學學報(自然科學版), 2011, 33(5): 563-568.
        • 加載中
        計量
        • 文章訪問數:  606
        • HTML全文瀏覽量:  137
        • PDF下載量:  365
        • 被引次數: 0
        出版歷程
        • 收稿日期:  2016-09-25
        • 刊出日期:  2017-05-20

        融合主題和要素的漢柬可比語料獲取方法

          作者簡介:郭月江(1990-),男,黑龍江人,碩士,主要研究方向為自然語言處理.E-mail:540786046@qq.com.
        • 1. 昆明理工大學 信息工程與自動化學院,云南 昆明 650500;
        • 2.  2.上海師范大學 語言研究所,上海 200234;
        • 3.  3.云南民族大學 東南亞南亞語言文化學院,云南 昆明 650500
        基金項目:  國家自然科學基金(61462055,61562049,61363044)

        摘要: 為了有效地獲取可比語料,選取漢柬雙語新聞文檔作為可比語料庫的候選語料,提出一種融合發布時間要素、實體要素和主題分布的可比語料獲取方法.該方法首先計算文本的主題概率分布的JS距離,并融合各主題和要素特征,計算文本相似度;然后利用改進型的層次聚類算法對雙語文本進行聚類,最后從聚簇類結果中獲取可比語料.與基于詞典的文本相似度計算方法進行聚類相比,該文方法有更高的Purity和F值并且獲得的高質量的可比語料更多,說明了本文方法的有效性.

        English Abstract

        參考文獻 (17)

        目錄

          /

          返回文章
          返回
          幸运快三