浏览全部资源
扫码关注微信
1. 广东工业大学计算机学院 广州 510006
2. 广州优亿信息科技有限公司 广州 510630
[ "陈舜华,女,广东工业大学硕士研究生,主要研究方向为社交网络数据分析、网络爬虫等。" ]
[ " 王晓彤,男,广东工业大学硕士研究生,主要研究方向为社交网络影响因子分析。" ]
[ " 郝志峰,男,广东工业大学教授、博士生导师,主要从事机器学习、人工智能等研究工作。" ]
[ " 蔡瑞初,男,广东工业大学副教授、硕士生导师,主要从事数据挖掘、机器学习、信息检索等研究工作。" ]
[ "肖晓军,男,博士,广州优亿信息科技有限公司高级工程师,具有多年电信行业管理工作经验,主要研究方向为大数据、数据挖掘与电信行业应用等。" ]
[ "卢宇,男,广州优亿信息科技有限公司工程师,主要从事大数据、机器学习等相关研发工作。" ]
网络出版日期:2013-08,
纸质出版日期:2013-08-20
移动端阅览
陈舜华, 王晓彤, 郝志峰, 等. 基于微博APl的分布式抓取技术[J]. 电信科学, 2013,29(8):146-150.
Shunhua Chen, Xiaotong Wang, Zhifeng Hao, et al. A Distributed Data-Crawling Technology for Microblog API[J]. Telecommunications science, 2013, 29(8): 146-150.
陈舜华, 王晓彤, 郝志峰, 等. 基于微博APl的分布式抓取技术[J]. 电信科学, 2013,29(8):146-150. DOI: 10.3969/j.issn.1000-0801.2013.08.025.
Shunhua Chen, Xiaotong Wang, Zhifeng Hao, et al. A Distributed Data-Crawling Technology for Microblog API[J]. Telecommunications science, 2013, 29(8): 146-150. DOI: 10.3969/j.issn.1000-0801.2013.08.025.
随着微博用户的迅猛增长,越来越多的人希望从用户的行为和微博内容中挖掘有趣的模式。针对如何对微博数据进行有效合理的采集,提出了基于微博API的分布式抓取技术,通过模拟微博登录自动授权,合理控制API的调用频次,结合任务分配控制器高效地获取微博数据。该分布式抓取技术还结合时间触发和内存数据库技术实现重复控制,避免了数据的重复爬取和重复存储,提高了系统的性能。本分布式抓取技术具有可扩展性高、任务分配明确、效率高、多种爬取策略适应不同的爬取需求等特点。新浪微博数据爬取实例验证了该技术的可行性。
As more and more users begin to use microblog
people eagerly want to dig interesting patterns from the microblog data.How to efficiently collect data from the service provider is one of the main challenges.To address this issue
a distributed crawling solution based on microblog API was present.The distributed crawling solution simulates microblog login
automatically gets authorized
and control the invoked frequency of the API with a task controller.A time trigger method with memory database was also proposed to avoid extra trivial data duplication and improve efficiency of the system.In the distributed framework
the crawling tasks can be assigned to distributed clients independently
which ensures the high scalability and flexibility of the crawling procedure.The feasibility of the crawler technology according to Sina microblog instance was verified.
王亮 . SNS社交网络发展现状及趋势 . 现代电信科技 , 2009 ( 6 )
王娟 . 微博客用户的使用动机与行为 . 山东大学硕士学位论文 , 2010
李保秀 . 微博社交网络舆情监测指标体系构建 . 科技广场 , 2012 ( 4 )
漆晨曦 . 电信企业大数据分析、应用及管理发展策略 . 电信科学 , 2013 ( 3 )
唐波 . 网络爬虫的设计与实现 . 电脑知识与技术 , 2009 , 11 ( 5 ): 2867 ~ 2868
王晶 , 朱珂 , 汪斌强 . 基于信息数据分析的微博研究综述 . 计算机应用 , 2012 , 32 ( 7 ): 2027 ~ 2029 , 2037
新浪接口约束 . http://open.weibo.com/wiki/%E5%BE%AE%E5%8D%9AAPI http://open.weibo.com/wiki/%E5%BE%AE%E5%8D%9AAPI
廉捷 , 周欣 , 曹伟 等 . 新浪微博数据挖掘方案 . 清华大学学报 , 2011 , 51 ( 10 ): 1300 ~ 1305
周鑫 , 彭斯俊 , 罗熹 . 基于新浪微博开放平台的用户数据挖掘 . 中国科技论文在线 , http://www.docin.com/p-531480044.html http://www.docin.com/p-531480044.html
李军 , 陈震 , 黄霁威 . 微博影响力评价研究 . 信息网络安全 , 2012 , 3 ( 7 )
0
浏览量
737
下载量
0
CSCD
关联资源
相关文章
相关作者
相关机构