您现在所在的位置:首页 >> 计算机网络 >> 文章内容
基于主题的网络爬虫技术研究  论文
双击自动滚屏 文章来源:   发布者:jsjlw99   发布时间:2009/7/8 10:35:52   阅读:2534
目   录
 
 
 
 
 

摘    要

网络爬虫是一种用于查找大量Web页面的RoBot程序,用于扫描互联网上的页面。主题定制方法可以使爬虫用于特定的应用场合,如本例中应用于在线媒体的监测和获取。本文首先介绍了网络爬虫的工作原理及其在信息检索和信息抽取领域的应用,然后在传统网络爬虫基本功能的基础上进行了主题定制的网络爬虫的研究,其中重点研究了如何充分利用现有搜索引擎的资源以减小爬行范围,提高爬虫效率;使用了一种基于正则表达式的通用匹配提取方法;通过大量的例子分析,总结出一些当前应用的流媒体链接方式,并提出了相应的分析抽取的方法,及对html的半结构化分析提取方法做了一些有益尝试
 
关键字: 网络爬虫,主题定制,流媒体,正则表达式,网络信息动态监测,
信息自动获取,
Abstract
Crawler is a RoBot program which can search abundance of web pages.It is used to search all the pages on the Internet.The Topic Focused  method can make the Crawler be used in some special feilds ,for instance ,in this case ,it is used in the Detection and Extraction about on-line meida resource . This article first introduced the principle of the Web Crawler.Then on the base function of tradition Spider,I have done some research on the method of making good use of search engine,in order to reduce the cost of Crawler`s processing;a General Match and Extraction method based on Regular Expression , summarize some type of stream media `sLink and the ways to analyze and extration ,at the some time I try to make a method of semi-construction for HTML .

[1] [2]  下一页


【 字体: 打印本页 | 关闭窗口
此论文全套为收费论文。要想获得此全套论文和设计请联系本站客服QQ:31600328 欢迎你的访问!
 本文的地址是: http://www.jsjlw99.cn/Articlenews.asp?id=1910  转载请注明出处!
 您的姓名:
 评论正文:
 验证码:  
 
 [@2019/6/19 16:16:01]
   
 [@2019/6/6 23:52:18]
   
 [@2019/5/30 3:58:05]
   
 [@2019/5/20 10:14:02]
   
 [@2019/4/30 17:09:04]
   
 [@2019/4/16 1:28:24]
   
 [@2019/4/4 7:22:24]
   
 [@2019/3/22 21:07:03]
   
本类最新文章
网络类论文目录 计算机网络中的路由技术的研究和应 基于以太网和无线技术的网络化控制
反病毒软件研究 &nb 网络攻击的防范与策优秀版&nbs 联通宽带小区设计与实现 
设为首页 | 收藏本站 | 过客留言 | 联系我们 | 友情链接 | 原创文章 | RSS订阅 | 管理入口

Copyright @ 2006-2008 Powered By 设计中心工作室  版权所有.
Email:31600328@qq.com QQ: 31600328
鄂ICP备05006890号 本站关键词:计算机毕业论文 计算机毕业设计