Keywords: Web Spider or crawler, Topic Focused ,Stream Media, Regular Expression
Web Information Dynamic Detection , Web Information Extraction Automation,
随着电子信息技术为主的高新科技在全球高速发展,以信息化衡量一个国家和地区的现代化水平和综合实力已成事实。二十一世纪将是信息的时代,信息科技将成为最活跃、与大众生活最密切相关的科学技术领域,信息将成为世界的基本要素之一,它影响着每个国家和地区,触及到每一个人,促使人们的生活和生存方式迅速地发生变化。
网络,随着信息时代的来临,正向地球的每个角落延伸。网络发展一日千里,网络经济、网络文化、网络教育……如潮水般奔涌而至。信息资源的爆炸式的增长,使的我们面对如此海量的信息而不知所措,而网络上的信息也是良莠不齐,如本文研究的在线媒体资源的状况是各种资源混杂在一起,其中包括不良信息和涉及版权的信息的非法传播等。
如何对这些看似纷乱的媒体信息进行发掘,监测,处理是个比较麻烦的事情,好在有了搜索引擎,这种专门查找网络资源的利器,本文就充分利用搜索引擎的强大功能,构造特定主题的网络爬虫来对于在线媒体资源的发掘监控进行了一次有益的尝试。
随着网络技术的应用与发展,互连网已经成为信息的重要来源地。搜索引擎以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。搜索引擎按其工作方式主要可分为三种,分别是全文搜索引擎(Full Text Search Engine)、目录索引类搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。全文搜索引擎是名副其实的搜索引擎,国外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,国内著名的有百度(Baidu)。它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户。
搜索引擎具有自动信息搜集功能。它是通过定期搜索网络,即每隔一段时间(比如Google一般是28天),主动派出“网络爬虫”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,根据网页中关键词的匹配程度,出现的位置/频次,链接质量采用特殊的算法计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。
到现在,搜索引擎已经深入到人们的日常生活中,像baidu,google人们早已熟悉.可以说信息时代的人们已经离不开搜索,所以就更需要对目前的搜索引擎技术进行研究并完善和提高.
, ,