一 搜索引擎的概念
搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。百度、谷歌、Excite等是搜索引擎的代表。
二 搜索引擎的分类
1.全文索引
全文搜索引擎是名副其实的搜索引擎,国外代表有Google,国内则有著名的百度搜索。它们从互联网提取各个网站的信息(以网页文字为主),建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。
根据搜索结果来源的不同,全文搜索引擎可分为两类,一类拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,能自建网页数据库,搜索结果直接从自身的数据库中调用,上面提到的Google和百度就属于此类;另一类则是租用其他搜索引擎的数据库,并按自定的格式排列搜索结果,如Lycos搜索引擎。 2.目录索引
目录索引虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,只是按目录分类的网站链接列表而已。用户完全可以按照分类目录找到所需要的信息,不依靠关键词(Keywords)进行查询。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo!、新浪分类目录搜索。 3.元搜索引擎
元搜索引擎(META Search Engine)接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等,中文元搜索引擎中具代表性的是搜星搜索引擎。在搜索结果排列方面,有的直接按来源排列搜索结果,如Dogpile;有的则按自定的规则将结果重新排列组合,如Vivisimo。 其他非主流搜索引擎形式
(1)集合式搜索引擎:该搜索引擎类似元搜索引擎,区别在于它并非同时调用多个搜索引擎进 行搜索,而是由用户从提供的若干搜索引擎中选择,如HotBot在2002年底推出的搜索引擎。(2)门户搜索引擎:AOL Search、MSN Search等虽然提供搜索服务,但自身既没有分类目录也没有网页数据库,其搜索结果完全来自其他搜索引擎。
(3)免费链接列表(Free For All Links,简称FFA):一般只简单地滚动链接条目,少部分有简单的分类目录,不过规模要比Yahoo!等目录索引小很多。
三 搜索引擎的工作原理
1.搜集信息:由于互联网上的数据量非常庞大,搜索引擎的信息搜集基本都是自动完成
的。搜索引擎利用被称为网络蜘蛛的自动搜索程序来连上每一个网页上的超链接。从少数几个网页开始,连到数据库上所有到其他网页的链接。
2.整理信息:搜索引擎整理信息的过程称为“建立索引”。搜索引擎不仅要保存搜集起来的信息,还要将它们按照一定的规则进行编排。这样,搜索引擎不用重新翻查它所有保存的信息就能迅速找到所要的资料。
3.接受查询:用户向搜索引擎发出查询,搜索引擎接受查询并向用户返回信息。搜索引擎能够按照每个用户的要求检查自己的索引,在极短时间内找到用户需要的资料,并返回给用户。目前,搜索引擎返回主要是以网页链接的形式提供的,这些通过这些链接,用户便能到达所需的网页。通常搜索引擎会在这些链接下提供一小段来自这些网页的摘要信息以帮助用户判断此网页是否含有自己需要的内容。
四 三种主要的搜索引擎
(一)百度
1.标志
2.简介
百度(Nasdaq简称:BIDU)是全球最大的中文搜索引擎,2000年1月由李彦宏、徐勇两人创立于北京中关村,致力于向人们提供“简单,可依赖”的信息获取方式。“百度”二字源于中国宋朝词人辛弃疾的《青玉案·元夕》词句“众里寻他千百度”,象征着百度对中文信息检索技术的执著追求。 3.具体内容
网页搜索
百度logo(6张)
作为全球最大的中文搜索引擎公司,百度一直致力于让网民更便捷地获取信息,找到所求。用户通过百度主页,可以瞬间找到相关的搜索结果,这些结果来自于百度超过数百亿的中文网页数据库。
垂直搜索
秉承“用户体验至上”的理念,除网页搜索外,百度还提供MP3、图片、视频、地图等多样化的搜索服务,给用户提供更加完善的搜索体验,满足的多样化的搜索需求。
百度快照
全新的浏览方式,解决了因网络问题、网页服务器问题及病毒问题所导致无法浏览的问
题。它的原理就是只加载网上的文字、图片和超链接。而快速版的百度快照则不加载图片,因此原来、标准快照和快速般快照所显示出来的效果略有不同。
社区产品
信息获取的最快捷方式是人与人直接交流,为了让那些对同一个话题感兴趣的人们聚集在一起,方便地展开交流和互相帮助,百度贴吧、知道、百科、空间等围绕关键词服务的社区化产品也应运而生,而百度Hi的推出,更是将百度所有社区产品进行了串连,为人们提供一个表达和交流思想的自由网络空间。
(二)Google 1.标志
2.简介
Google(Google Inc.,NASDAQ:GOOG)是一家美国上市公司(公有股份公司),于1998年9月7日以私有股份公司的形式创立,以设计并管理一个互联网搜索引擎。Google公司的总部称作“Googleplex”,它位于加利福尼亚山景城。Google 创始人 Larry Page 和 Sergey Brin 在斯坦福大学的学生宿舍内共同开发了全新的在线搜索引擎,然后迅速传播给全球的信息搜索者。Google 目前被公认为是全球规模最大的搜索引擎,它提供了简单易用的免费服务。不作恶(Don't be evil)是谷歌公司的一项非正式的公司口号,最早是由Gmail服务创始人在一次会议中提出。
3.具体内容
Google是全球最大的并且最受欢迎的搜索引擎,主要的搜索服务有:网页搜索,图片搜索,视频搜索,地图搜索,新闻搜索,购物搜索,博客搜索,论坛搜索,学术搜索,财经搜索。 例如,有Google Notebook、 Google Web API(网络应用程序接口或网络服务)、Google Book Search、Google 桌面、Google工具栏等等。
Google搜索技术所依托的软件可以同时进行一系列的运算,且只需片刻即可完成所有运算。而传统的搜索引擎在很大程度上取决于文字在网页上出现的频率。Google 使用 PageRank技术检查整个网络链接结构,并确定哪些网页重要性最高。然后进行超文本匹配分析,以确定哪些网页与正在执行的特定搜索相关。在综合考虑整体重要性以及与特定查询的相关性之后,Google 可以将最相关最可靠的搜索结果放在首位。
PageRank 技术:通过对由超过 50000 万个变量和 20 亿个词汇组成的方程进行计算,PageRank 能够对网页的重要性做出客观的评价。PageRank 并不计算直接链接的数量,而是将从网页 A 指向网页 B 的链接解释为由网页 A 对网页 B 所投的一票。这样,PageRank 会根据网页 B 所收到的投票数量来评估该页的重要性。
此外,PageRank 还会评估每个投票网页的重要性,因为某些网页的投票被认为具有较高的价值,这样,它所链接的网页就能获得较高的价值。重要网页获得的 PageRank(网页排名)较高,从而显示在搜索结果的顶部。Google 技术使用网上反馈的综合信息来确定某个网页的重要性。搜索结果没有人工干预或操纵,这也是为什么 Google 会成为一个广受用户信赖、不受付费排名影响且公正客观的信息来源。
超文本匹配分析:Google 的搜索引擎同时也分析网页内容。然而,Google 的技术并不采用单纯扫描基于网页的文本(网站发布商可以通过元标记控制这类文本)的方式,而是分析网页的全部内容以及字体、分区及每个文字精确位置等因素。Google 同时还会分析相邻网页的内容,以确保返回与用户查询最相关的结果。
(三)Excite
1.标志
2.网络主页
3.简介
EXCITE搜索引擎是ARCHITEXT公司的产品,其数据库界面非常友好,用户可以利用关键词、词组和自然语言进行检索。由于它已经开发出包括中国的多种全球区域版本,为特定地区提供高效率的服务,因此它也是使用最为广泛的搜索引擎之一。 1993年2月,Excite由6个福斯坦的学生创建,Excite从Archixt项目衍生而来。他们想使用静态统计的方法来分析词之间的关系来使搜索引擎更具效率。Excite是互联网上最流行的搜索服务之一。Excite是一个基于概念性的搜索引擎。这意味着它将先琢磨你讲的是什么意思,而不光是搜索你的字。这就给Excite更大的灵活性。
4.搜索类型:概念型和关键词类型。Excite自称是\"智能性\"搜索引擎。 5.搜索选项:简单的和精细的。
6.搜索精细化方法:建议使用较多关键词, 并作多次关键的挑选。能作AND及OR搜索,且对AND优先。
五 具体事例比较Google、百度、Excite等搜索引擎的异同
1.搜索内容 搜索工具 百度 Google Excite 搜索内容 Dolly Dolly Dolly
2.搜索步骤
用“百度”搜索引擎 (1) 输入检索内容:“Dolly” 检索式:克隆羊Dolly
(2)检索结果:有常见的百度知道 百度百科也有一些专业的网站链接出现(如图)
(3)打开“克隆羊”
(4)结果分析
用百度搜索出来的内容很多,但又很繁琐。主要有三大类:百度百科主要是名词解释;百度知道是一些大家的提问和回答;而则是一些相关的文本资料等。 用“Google”搜索引擎
(1)搜索克隆羊“Dolly” 检索式:克隆羊“Dolly”
(2)检索结果
(3)结果分析
用Google搜索引擎也可以得到百度百科、等资料,与百度搜索得到的有很多相同的内容。但除此之外也可以得到很多英文或繁体中文的资料及网站。 用“Excite”搜索引擎
(1)搜索克隆羊“Dolly” 检索式:克隆羊“Dolly”
(2)检索结果
(3)打开“Dolly”
(4) 结果分析
Excite这类搜索引擎搜索功能强大,相比前两个搜索引擎精确度也高,搜索范围也广,但全都是英文的检索内容,对英语水平要求极高,不适合在汉语国家使用。
六 个人总结
百度 优点:“百度百科”对于一些专业名词的解释很到位,作为参考资料很好,而且容易理解。 “百度知道”作为一个互动平台,可以随时交流问题。 “”可以为搜索者提供好的文本资料。
缺点:搜索内容比较繁琐,而且搜索到的无关内容比较多。
百度有时搜索的文本资料不是免费的,这个让我很苦恼。 Google
优点:资源广泛,国内国际的内容全都有。
内容更新较快,一般最新的内容都会搜索到。 涵盖量很大,可以搜索到很多资料。
缺点:资源较多是国际的,有很多关于中国的东西找不到。 有时是英语版本,要求较高。 Excite
优点:搜索功能强大,搜索范围广,精确度高。 资源广泛,包含国际的最新内容等。
涵盖量很广,可以搜索到很多有关的资料和信息文档。 缺点:全是英文检索,对英语水平要求更高,不适合汉语国家。
资源和文本资料一般都是国际的,对于很多中国的具体细节等几乎找不到。
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- ovod.cn 版权所有 湘ICP备2023023988号-4
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务