浏览全部资源
扫码关注微信
[ "陈红阳(1989-),女,重庆人文科技学院计算机工程学院助教,主要研究方向为搜索引擎、文本挖掘及微博话题发现与跟踪等。" ]
[ "汪林林(1945-),男,重庆人文科技学院计算机工程学院院长,主要研究方向为数据库理论、应用及开发等。发表学术论文 90 多篇,主持或参加科研项目30多项。" ]
[ "陈滢生(1982-),女,重庆人文科技学院计算机工程学院讲师,主要研究方向为文本挖掘、自然语言处理等。" ]
[ "鲁江坤(1988-),男,重庆人文科技学院计算机工程学院助教,主要研究方向为文本挖掘、自然语言处理等。" ]
[ "左雪(1992-),女,重庆人文科技学院计算机工程学院助教,主要研究方向为文本挖掘等。" ]
网络出版日期:2017-10,
纸质出版日期:2017-10-15
移动端阅览
陈红阳, 汪林林, 陈滢生, 等. 特征词选择与相似度融合的微博话题发现方法[J]. 电信科学, 2017,33(10):134-140.
Hongyang CHEN, Linlin WANG, Yingsheng CHEN, et al. A method of micro-blog topic discovery based on feature words selection and text similarity[J]. Telecommunications science, 2017, 33(10): 134-140.
陈红阳, 汪林林, 陈滢生, 等. 特征词选择与相似度融合的微博话题发现方法[J]. 电信科学, 2017,33(10):134-140. DOI: 10.11959/j.issn.1000-0801.2017258.
Hongyang CHEN, Linlin WANG, Yingsheng CHEN, et al. A method of micro-blog topic discovery based on feature words selection and text similarity[J]. Telecommunications science, 2017, 33(10): 134-140. DOI: 10.11959/j.issn.1000-0801.2017258.
微博短文本中存在一些相同或相近、但与主题关系不大的词项,对准确度量文本之间的相似性具有较大的干扰作用,影响微博话题被发现的质量。提出一种基于文本内容与结构化信息相结合的特征词选择算法,能有效提取具有代表性的特征词,并对文本、话题间相似度的计算策略进行改进,然后将特征词选择算法与相似度计算方法融合,应用于微博文本数据实现话题发现。实验结果表明,本算法能有效降低话题发现的平均漏检率与误检率,提高话题发现质量。
Some words existing in micro-blog short text have a bad effect on the accuracy of text similarity calculation
further affecting the quality of topic discovery.And these words are the same in shape or semantic meaning
but remote from the topic.A novel method of feature words selection based on micro-blog short text content and structured information was proposed
which could effectively choose some important feature words from the text.Moreover
in computing the similarity between texts
an improvement on computing the similarity between the text and the topic was made.Finally
the methods were combined together and applied to discover micro-blog topics.Experimental results show that the new method of topic discovery can effectively reduce the average missing rate and false detection rate
and improve the quality of topic discovery.
丁兆云 , 贾焰 , 周斌 . 微博数据挖掘研究综述 [J ] . 计算机研究与发展 , 2016 ( 7 ): 98 - 105 .
DING Z Y , JIA Y , ZHOU B . Survey of data ming for micro-blogs [J ] . Journal of Computer Research and Development , 2016 ( 7 ): 98 - 105 .
琚春华 , 鲍福光 , 戴俊彦 . 一种融入公众情感投入分析的微博话题发现与细分方法 [J ] . 电信科学 , 2014 , 14 ( 12 ): 227 - 231 .
JU C H , BAO F G , DAI J Y . Discovery and segmentation method in micro-blog topics based on public emotional engagement analysis [J ] . Telecommunications Science , 2014 , 14 ( 12 ): 227 - 231 .
刘彦伟 . 微博话题追踪系统的研究与实现 [D ] . 北京:北京交通大学 , 2013 .
LIU Y W . Research and implementation of micro-blog topic tracking system [D ] . Beijing:Beijing Jiaotong University , 2013 .
丁荩 . 微博热点发现技术的研究与实现 [D ] . 武汉:华中科技大学 , 2012 .
DING J . Research and implementation of micro-blog hot topic detection [D ] . Wuhan:Huazhong University of Science and Technology , 2012 .
姜芳 , 李国和 , 岳翔 . 基于语义的文档特征提取研究方法 [J ] . 计算机科学 , 2016 , 43 ( 2 ): 254 - 258 .
JIANG F , LI G H , YUE X . Semantic-based feature extraction method for document [J ] . Computer Science , 2016 , 43 ( 2 ): 254 - 258 .
黄贤英 , 陈红阳 , 刘英涛 , 等 . 一种新的微博短文本特征词选择算法 [J ] . 计算机工程与科学 , 2015 , 37 ( 9 ): 1762 - 1767 .
HUANG X Y , CHEN H Y , LIU Y T , et al . A novel method of feature selection on micro-blog short text [J ] . Computer Engineering and Science , 2015 , 37 ( 9 ): 1762 - 1767 .
HUANG S , YANG Y , LI H , et al . Topic detection from microblog based on text clustering and topic model analysis [C ] // 2014 Asia-Pacific Services Computing Conference (APSCC 2014),Dec 4-6,2014,Fuzhou,China . New Jersey:IEEE Press , 2014 : 88 - 92 .
胡长龙 , 唐晋韬 , 王挺 . 中文微博的hashtag话题相关性分析 [J ] . 计算机科学 , 2013 , 40 ( 11A ): 235 - 245 .
HU C L , TANG J T , WANG T . Topic relevance analysis of hashtags in Chinese micro-blogging environment [J ] . Computer Science , 2013 , 40 ( 11A ): 235 - 245 .
ZHENG J , LI Y . A hot topic detection method for chinese microblog based on topic words [C ] // 2014 2nd International Conference on International Conference on Information Technology and Electronic Commerce,Dec 20-21,2014,Dalian,China . New Jersey:IEEE Press , 2014 .
孙建旺 , 吕学强 , 张雷瀚 . 基于语义和最大匹配度的短文本分类研究 [J ] . 计算机工程与设计 , 2013 , 34 ( 10 ): 3613 - 3618 .
SUN J W , LV X Q , ZHANG L H . Short text classification based on semantics and maximum matching degree [J ] . Computer Engineering and Design , 2013 , 34 ( 10 ): 3613 - 3618 .
黄贤英 , 陈红阳 , 刘英涛 . 短文本相似度研究及其在微博话题检测中的应用 [J ] . 计算机工程与设计 , 2015 , 36 ( 11 ): 3128 - 3133 .
HUANG X Y , CHEN H Y , LIU Y T . Research on micro-blog short text similarity and its application in micro-blog topic detection [J ] . Computer Engineering and Design , 2015 , 36 ( 11 ): 3128 - 3133 .
0
浏览量
606
下载量
0
CSCD
关联资源
相关文章
相关作者
相关机构