HOME 首页
SERVICE 服务产品
XINMEITI 新媒体代运营
CASE 服务案例
NEWS 热点资讯
ABOUT 关于我们
CONTACT 联系我们
创意岭
让品牌有温度、有情感
专注品牌策划15年

    主流搜索引擎有哪些(主流搜索引擎有哪些类型)

    发布时间:2023-03-12 14:03:37     稿源: 创意岭    阅读: 1476        问大家

    大家好!今天让创意岭的小编来大家介绍下关于主流搜索引擎有哪些的问题,以下是小编对此问题的归纳整理,让我们一起来看看吧。

    创意岭作为行业内优秀的企业,服务客户遍布全球各地,相关业务请拨打电话:175-8598-2043,或添加微信:1454722008

    本文目录:

    主流搜索引擎有哪些(主流搜索引擎有哪些类型)

    一、几个主流搜索引擎蜘蛛的名称

    1.Google蜘蛛名称

    1)Googlebot:从Google的网站索引和新闻索引中抓取网页

    2)Googlebot-Mobile针对Google的移动索引抓取网页

    3)Googlebot-Image:针对Google的图片索引抓取网页

    4)Mediapartners-Google:抓取网页确定AdSense的内容。只有在你的网站上展示AdSense广告的情况下,Google才会使用此漫游器来抓取您的网站。

    5)Adsbot-Google:抓取网页来衡量AdWords目标网页的质量。只有在你使用GoogleAdWords为你的网站做广告的情况下,Google才会使用此漫游器。

    2.百度蜘蛛名称:

    Baiduspider首字母B大写,其余为小写

    3.雅虎(Yahoo!)蜘蛛名称:

    1)Yahoo!搜索蜘蛛名称:Yahoo!Slurp.

    2)Yahoo!搜索引擎广告蜘蛛:Yahoo!-AdCrawler.用来抓取Yahoo!搜索引擎广告登陆页网页

    4.有道蜘蛛名称:

    YodaoBot

    5.腾讯搜搜soso蜘蛛名称:

    Sosospider首字母S大写,其余为小写

    6.搜狗(sogou)蜘蛛名称:

    sogouspider

    7.Live蜘蛛名称

    1)MSNBot:Mainwebcrawler(www.live.com)

    2)MSNBot-Media:Images&allothermedia(images.live.com)

    3)MSNBot-NewsBlogs:Newsandblogs(search.live.com/news)

    4)MSNBot-Products:Products&shopping(products.live.com)

    5)MSNBot-Academic:Academicsearch(academic.live.com)

    拓展阅读:搜索引擎蜘蛛抓取网页规则分析

    一、爬虫框架

    我们可以将网页当作是蜘蛛的晚餐,晚餐包括:

    已下载的网页。已经被蜘蛛抓取到的网页内容,放在肚子里了。

    已过期网页。蜘蛛每次抓取的网页很多,有一些已经坏在肚子里了。

    待下载网页。看到了食物,蜘蛛就要去抓取它。

    可知网页。还没被下载和发现,但蜘蛛能够感觉到他们,早晚会去抓取它。

    不可知网页。互联网太大,很多页面蜘蛛无法发现,可能永远也找不到,这部份占比很高。

    通过以上划分,我们可以很清楚的理解搜索引擎蜘蛛的工作及面临的挑战。大多数蜘蛛是按照这样的框架去爬行。但也不完全一定,凡事总有特殊,根据职能的'不同,蜘蛛系统存在一些差异。

    二、爬虫类型

    1、批量型蜘蛛。

    这类蜘蛛有明确的抓取范围和目标,当蜘蛛完成目标和任务后就停止抓取。具体目标是什么?可能是抓取网页数量,网页大小,抓取时间等。

    2、增量型蜘蛛

    这类蜘蛛和批量型蜘蛛不同,他们会持续不断的抓取,对于抓取到的网页会定期抓取更新。因为互联网中的网页是随时处于更新状态中,增量型蜘蛛需要能够反映出这种更新。

    3、垂直性蜘蛛

    这种蜘蛛只关注特定主题或者特定的行业网页。以健康网站为例子,这类专门的蜘蛛会只抓取健康相关主题,其它主题内容的网页则不抓取。考验这只蜘蛛的难点是如何去更精准的识别内容所属于行业。目前来看,很多垂直类行业网站是需要这种蜘蛛去抓取的。

    三、抓取策略

    蜘蛛通过种子URL进行爬行拓展,列出大量待抓取URL。但是待抓取URL数量庞大,蜘蛛如何确定抓取顺序先后呢?蜘蛛抓取的策略有很多种,但最终目的是一个:优先抓取重要的网页。评价页面是否重要,蜘蛛会根据页面内容原创程度,链接权重分析等众多方式来进行计算。比较有代表性的抓取策略如下:

    1、宽度优先策略

    宽度优先是指:蜘蛛在抓取一个网页后,继续将该网页所包含的其它页面按顺序进行进一步抓取。这种思想看似简单,其实却很实用。因为大多数网页都是按优先级进行排序,重要的页面会优先在页面上进行推荐。

    2、PageRank策略

    PageRank是一种非常著名的链接分析方法,主要是用来衡量网页权重。如谷歌的PR,就是典型的PageRank算法。通过PageRank算法我们可以找出哪些页面是更重要的,然后蜘蛛优先去抓取这些重要性的页面。

    3、大站优先策略

    这个很容易理解,大网站通常拥有更多的`内容页面,并且质量也会更高。蜘蛛会先分析网站归类与属性。如果这个网站已经收录很多,或者在搜索引擎系统中权重很高,则优先考虑收录。

    四、网页更新

    互联网中的页面大多会保持更新,这样就要求蜘蛛所存储的页面也能及时更新,保持一致性。打个比喻:一个网页之前排名很好,如果页面已经被删,却还有排名,那体验就很不好。因此搜索引擎需要随时了解这些并更新页面,将最新的页面提供给用户。常用的网页更新策略在三种:历史参考策略,用户体验策略。聚类抽样策略。

    1、历史参考策略

    这是建立在一种假设基础上的更新策略。比如,若你的网页之前按规律一直更新,那搜索引擎也认为你的页面将来也会经常更新,蜘蛛也会按这个规律定期来网站进行抓取网页。这也是为什么点水一直强调网站内容需要有规律更新的原因。

    2、用户体验策略

    一般来说,用户只会查看搜索结果前三页的内容,后面的页面很少有人去看。用户体验策略就是搜索引擎根据用户的这个特点来进行更新。例如,一个网页可能发布时间较早,一段时间没更新,但是用户依然觉得有用,点击浏览它,那么搜索引擎先不去更新这些过时的网页也是可以的。这就是为什么搜索结果中,并不一定最新的页面排名一定靠前的原因。排名更多的是取决于这个页面的质量,而完全不是更新时间先后。

    3、聚类抽样策略

    上两种更新策略主要是参考了网页的历史信息。但存储大量历史信息对搜索引擎来说是一种负担,另外如果收录的是新网页则是没有历史信息可以参考的,那怎么办?聚类抽样策略是指:根据网页所展现出来的一些属性,来将很多相似网页进行归类,被归类的页面按照相同的规律去进行更新。

    从了解搜索引擎蜘蛛工作原理的过程中,我们会知道:网站内容之间的相关性,网站与网页内容更新规律,网页上链接分布以及网站权重高低等因素都会影响到蜘蛛的抓取效率。知已知彼,让蜘蛛来得更猛烈些吧!

    二、常用的搜索引擎有哪些?

    索引擎(search engines)是对互联网上的信息资源进行搜集整理,然后供你查询的系统,它包括信息搜集、信息整理和用户查询三部分。 搜索引擎是一个为你提供信息“检索”服务的网站,它使用某些程序把因特网上的所有信息归类以帮助人们在茫茫网海中搜寻到所需要的信息。 早期的搜索引擎是把因特网中的资源服务器的地址收集起来,由其提供的资源的类型不同而分成不同的目录,再一层层地进行分类。人们要找自己想要的信息可按他们的分类一层层进入,就能最后到达目的地,找到自己想要的信息。这其实是最原始的方式,只适用于因特网信息并不多的时候。随着因特网信息按几何式增长,出现了真正意义上的搜索引擎,这些搜索引擎知道网站上每一页的开始,随后搜索因特网上的所有超级链接,把代表超级链接的所有词汇放入一个数据库。这就是现在搜索引擎的原型。 随着yahoo!的出现,搜索引擎的发展也进入了黄金时代,相比以前其性能更加优越。现在的搜索引擎已经不只是单纯的搜索网页的信息了,它们已经变得更加综合化,完美化了。以搜索引擎权威yahoo!为例,从1995年3月由美籍华裔杨致远等人创办yahoo!开始,到现在,他们从一个单一的搜索引擎发展到现在有电子商务、新闻信息服务、个人免费电子信箱服务等多种网络服务,充分说明了搜索引擎的发展从单一到综合的过程。 然而由于搜索引擎的工作方式和因特网的快速发展,使其搜索的结果让人越来越不满意。例如,搜索“电脑”这个词汇,就可能有数百万页的结果。这是由于搜索引擎通过对网站的相关性来优化搜索结果,这种相关性又是由关键字在网站的位置、网站的名称、 标签等公式来决定的。这就是使搜索引擎搜索结果多而杂的原因。而搜索引擎中的数据库因为因特网的发展变化也必然包含了死链接。 这篇文章中,我们介绍了google,它是一个大型的搜索引擎(of a large-scale search engine)的原型,搜索引擎在超文本中应用广泛。Google的设计能够高效地抓网页并建立索引,它的查询结果比其它现有系统都高明。这个原型的全文和超连接的数据库至少包含24‘000‘000个网页。我们可以从http://google.stanford.edu/ 下载。 设计搜索引擎是一项富有挑战性的工作。搜索引擎为上亿个网页建立索引,其中包含大量迥然不同的词汇。而且每天要回答成千上万个查询。在网络中,尽管大型搜索引擎非常重要,但是学术界却很少研究它。此外由于技术的快速发展和网页的大量增加,现在建立一个搜索引擎和三年前完全不同。 本文详细介绍了我们的大型搜索引擎,据我们所知,在公开发表的论文中,这是第一篇描述地如此详细。除了把传统数据搜索技术应用到如此大量级网页中所遇到的问题,还有许多新的技术挑战,包括应用超文本中的附加信息改进搜索结果。 本文将解决这个问题,描述如何运用超文本中的附加信息,建立一个大型实用系统。任何人都可以在网上随意发布信息,如何有效地处理这些无组织的超文本集合,也是本文要关注的问题。 关键词 World Wide Web,搜索引擎,信息检索,PageRank, Google 1 绪论 Web 给信息检索带来了新的挑战。Web上的信息量快速增长,同时不断有毫无经验的新用户来体验Web这门艺术。人们喜欢用超级链接来网上冲浪,通常都以象Yahoo这样重要的网页或搜索引擎开始。大家认为List(目录)有效地包含了大家感兴趣的主题,但是它具有主观性,建立和维护的代价高,升级慢,不能包括所有深奥的主题。基于关键词的自动搜索引擎通常返回太多的低质量的匹配。使问题更遭的是,一些广告为了赢得人们的关注想方设法误导自动搜索引擎。 我们建立了一个大型搜索引擎解决了现有系统中的很多问题。应用超文本结构,大大提高了查询质量。我们的系统命名为google,取名自googol的通俗拼法,即10的100次方,这和我们的目标建立一个大型搜索引擎不谋而合。 1.1网络搜索引擎—升级换代(scaling up):1994-2000 搜索引擎技术不得不快速升级(scale dramatically)跟上成倍增长的web数量。1994年,第一个Web搜索引擎,World Wide Web Worm(WWWW)可以检索到110,000个网页和Web的文件。到1994年11月,顶级的搜索引擎声称可以检索到2‘000’000(WebCrawler)至100‘000’000个网络文件(来自 Search Engine Watch)。可以预见到2000年,可检索到的网页将超过1‘000’000‘000。同时,搜索引擎的访问量也会以惊人的速度增长。在1997年的三四月份,World Wide Web Worm 平均每天收到1500个查询。 在1997年11月,Altavista 声称它每天要处理大约20’000’000个查询。随着网络用户的增长,到2000年,自动搜索引擎每天将处理上亿个查询。我们系统的设计目标要解决许多问题,包括质量和可升级性,引入升级搜索引擎技术(scaling search engine technology),把它升级到如此大量的数据上。 1.2 Google:跟上Web的步伐(Scaling with the Web)建立一个能够和当今web规模相适应的搜索引擎会面临许多挑战。抓网页技术必须足够快,才能跟上网页变化的速度(keep them up to date)。存储索引和文档的空间必须足够大。索引系统必须能够有效地处理上千亿的数据。处理查询必须快,达到每秒能处理成百上千个查询(hundreds to thousands per second.)。随着Web的不断增长,这些任务变得越来越艰巨。然而硬件的执行效率和成本也在快速增长,可以部分抵消这些困难。 还有几个值得注意的因素,如磁盘的寻道时间(disk seek time),操作系统的效率(operating system robustness)。在设计Google的过程中,我们既考虑了Web的增长速度,又考虑了技术的更新。Google的设计能够很好的升级处理海量数据集。它能够有效地利用存储空间来存储索引。优化的数据结构能够快速有效地存取(参考4.2节)。进一步,我们希望,相对于所抓取的文本文件和HTML网页的数量而言,存储和建立索引的代价尽可能的小(参考附录B)。对于象Google这样的集中式系统,采取这些措施得到了令人满意的系统可升级性(scaling properties)。 1. 3设计目标 1.3.1提高搜索质量我们的主要目标是提高Web搜索引擎的质量。1994年,有人认为建立全搜索索引(a complete search index)可以使查找任何数据都变得容易。根据Best of the Web 1994 -- Navigators ,“最好的导航服务可以使在Web上搜索任何信息都很容易(当时所有的数据都可以被登录)”。然而1997年的Web就迥然不同。近来搜索引擎的用户已经证实索引的完整性不是评价搜索质量的唯一标准。用户感兴趣的搜索结果往往湮没在“垃圾结果Junk result”中。实际上,到1997年11月为止,四大商业搜索引擎中只 有一个能够找到它自己(搜索自己名字时返回的前十个结果中有它自己)。导致这一问题的主要原因是文档的索引数目增加了好几个数量级,但是用户能够看的文档数却没有增加。用户仍然只希望看前面几十个搜索结果。因此,当集合增大时,我们就需要工具使结果精确(在返回的前几十个结果中,有关文档的数量)。由于是从成千上万个有点相关的文档中选出几十个,实际上,相关的概念就是指最好的文档。高精确非常重要,甚至以响应(系统能够返回的有关文档的总数)为代价。令人高兴的是利用超文本链接提供的信息有助于改进搜索和其它应用 。尤其是链接结构和链接文本,为相关性的判断和高质量的过滤提供了大量的信息。Google既利用了链接结构又用到了anchor文本(见2.1和2.2节)。 1.3.2搜索引擎的学术研究随着时间的流逝,除了发展迅速,Web越来越商业化。1993年,只有1.5%的Web服务是来自.com域名。到1997年,超过了60%。同时,搜索引擎从学术领域走进商业。到现在大多数搜索引擎被公司所有,很少技公开术细节。这就导致搜索引擎技术很大程度上仍然是暗箱操作,并倾向做广告(见附录A)。Google的主要目标是推动学术领域在此方面的发展,和对它的了解。另一个设计目标是给大家一个实用的系统。应用对我们来说非常重要,因为现代网络系统中存在大量的有用数据(us because we think some of the most interesting research will involve leveraging the vast amount of usage data that is available from modern web systems)。例如,每天有几千万个研究。然而,得到这些数据却非常困难,主要因为它们没有商业价值。我们最后的设计目标是建立一个体系结构能够支持新的关于海量Web数据的研究。为了支持新研究,Google以压缩的形式保存了实际所抓到的文档。设计google的目标之一就是要建立一个环境使其他研究者能够很快进入这个领域,处理海量Web数据,得到满意的结果,而通过其它方法却很难得到结果。系统在短时间内被建立起来,已经有几篇论文用到了Google建的数据库,更多的在起步中。我们的另一个目标是建立一个宇宙空间实验室似的环境,在这里研究者甚至学生都可以对我们的海量Web数据设计或做一些实验。 2. 系统特点 Google搜索引擎有两个重要特点,有助于得到高精度的搜索结果。 第一点,应用Web的链接结构计算每个网页的Rank值,称为PageRank,将在98页详细描述它。 第二点,Google利用超链接改进搜索结果。 2.1 PageRank:给网页排序 Web的引用(链接)图是重要的资源,却被当今的搜索引擎很大程度上忽视了。我们建立了一个包含518‘000’000个超链接的图,它是一个具有重要意义的样本。这些图能够快速地计算网页的PageRank值,它是一个客观的标准,较好的符合人们心目中对一个网页重要程度的评价,建立的基础是通过引用判断重要性。因此在web中,PageRank能够优化关键词查询的结果。对于大多数的主题,在网页标题查询中用PageRank优化简单文本匹配,我们得到了令人惊叹的结果(从google.stanford.edu可以得到演示)。对于Google主系统中的全文搜索,PageRank也帮了不少忙。 2.1.1计算PageRank 文献检索中的引用理论用到Web中,引用网页的链接数,一定程度上反映了该网页的重要性和质量。PageRank发展了这种思想,网页间的链接是不平等的。 PageRank定义如下: 我们假设T1…Tn指向网页A(例如,被引用)。参数d是制动因子,使结果在0,1之间。通常d等于0.85。在下一节将详细介绍d。C(A)定义为网页A指向其它网页的链接数,网页A的PageRank值由下式给出: PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn)) 注意PageRank的形式,分布到各个网页中,因此所有网页的PageRank和是1。 PageRank或PR(A)可以用简单的迭代算法计算,相应规格化Web链接矩阵的主特征向量。中等规模的网站计算26‘000’000网页的PageRank值要花费几小时。还有一些技术细节超出了本文论述的范围。 2.1.2直觉判断 PageRank被看作用户行为的模型。我们假设网上冲浪是随机的,不断点击链接,从不返回,最终烦了,另外随机选一个网页重新开始冲浪。随机访问一个网页的可能性就是它的PageRank值。制动因子d是随机访问一个网页烦了的可能性,随机另选一个网页。对单个网页或一组网页,一个重要的变量加入到制动因子d中。这允许个人可以故意地误导系统,以得到较高的PageRank值。我们还有其它的PageRank算法,见98页。 另外的直觉判断是一个网页有很多网页指向它,或者一些PageRank值高的网页指向它,则这个网页很重要。直觉地,在Web中,一个网页被很多网页引用,那么这个网页值得一看。一个网页被象Yahoo这样重要的主页引用即使一次,也值得一看。如果一个网页的质量不高,或者是死链接,象Yahoo这样的主页不会链向它。PageRank处理了这两方面因素,并通过网络链接递归地传递。 & nbsp; 2.2链接描述文字(Anchor Text)我们的搜索引擎对链接文本进行了特殊的处理。大多数搜索引擎把链接文字和它所链向的网页(the page that the link is on)联系起来。另外,把它和链接所指向的网页联系起来。这有几点好处。 第一,通常链接描述文字比网页本身更精确地描述该网页。 第二,链接描述文字可能链向的文档不能被文本搜索引擎检索到,例如图像,程序和数据库。有可能使返回的网页不能被抓到。注意哪些抓不到的网页将会带来一些问题。在返回给用户前检测不了它们的有效性。这种情况搜索引擎可能返回一个根本不存在的网页,但是有超级链接指向它。然而这种结果可以被挑出来的,所以此类的问题很少发生。链接描述文字是对被链向网页的宣传,这个思想被用在World Wide Web Worm 中,主要因为它有助于搜索非文本信息,能够用少量的已下载文档扩大搜索范围。我们大量应用链接描述文字,因为它有助于提高搜索结果的质量。有效地利用链接描述文字技术上存在一些困难,因为必须处理大量的数据。现在我们能抓到24‘000’000个网页,已经检索到259‘000’000多个链接描述文字。 2.3其它特点除了PageRank和应用链接描述文字外,Google还有一些其它特点。 第一,所有hit都有位置信息,所以它可以在搜索中广泛应用邻近性(proximity)。 第二,Google跟踪一些可视化外表细节,例如字号。黑体大号字比其它文字更重要。 第三,知识库存储了原始的全文html网页。 3有关工作 Web检索研究的历史简短。World Wide Web Worm()是最早的搜索引擎之一。后来出现了一些用于学术研究的搜索引擎,现在它们中的大多数被上市公司拥有。与Web的增长和搜索引擎的重要性相比,有关当今搜索引擎技术的优秀论文相当少。根据Michael Mauldin(Lycos Inc的首席科学家)) ,“各种各样的服务(包括Lycos)非常关注这些数据库的细节。”虽然在搜索引擎的某些特点上做了大量工作。具有代表性的工作有,对现有商业搜索引擎的结果进行传递,或建立小型的个性化的搜索引擎。最后有关信息检索系统的研究很多,尤其在有组织机构集合(well controlled collections)方面。在下面两节,我们将讨论在信息检索系统中的哪些领域需要改进以便更好的工作在Web上。 3.1信息检索信息检索系统诞生在几年前,并发展迅速。然而大多数信息检索系统研究的对象是小规模的单一的有组织结构的集合,例如科学论文集,或相关主题的新闻故事。实际上,信息检索的主要基准,the Text Retrieval Conference(),用小规模的、有组织结构的集合作为它们的基准。 大型文集基准只有20GB,相比之下,我们抓到的24000000个网页占147GB。在TREC上工作良好的系统,在Web上却不一定产生好的结果。例如,标准向量空间模型企图返回和查询请求最相近的文档,把查询请求和文档都看作由出现在它们中的词汇组成的向量。在Web环境下,这种策略常常返回非常短的文档,这些文档往往是查询词再加几个字。例如,查询“Bill Clinton”,返回的网页只包含“Bill Clinton Sucks”,这是我们从一个主要搜索引擎中看到的。网络上有些争议,用户应该更准确地表达他们想查询什么,在他们的查询请求中用更多的词。我们强烈反对这种观点。如果用户提出象“Bill Clinton”这样的查询请求,应该得到理想的查询结果,因为这个主题有许多高质量的信息。象所给的例子,我们认为信息检索标准需要发展,以便有效地处理Web数据。 3.2有组织结构的集合(Well Controlled Collections)与Web的不同点 Web是完全无组织的异构的大量文档的集合。Web中的文档无论内在信息还是隐含信息都存在大量的异构性。例如,文档内部就用了不同的语言(既有人类语言又有程序),词汇([email]地址,链接,邮政编码,电话号码,产品号),类型(文本,HTML,PDF,图像,声音),有些甚至是机器创建的文件(log文件,或数据库的输出)。可以从文档中推断出来,但并不包含在文档中的信息称为隐含信息。隐含信息包括来源的信誉,更新频率,质量,访问量和引用。不但隐含信息的可能来源各种各样,而且被检测的信息也大不相同,相差可达好几个数量级。例如,一个重要主页的使用量,象Yahoo 每天浏览数达到上百万次,于此相比无名的历史文章可能十年才被访问一次。很明显,搜索引擎对这两类信息的处理是不同的。 Web与有组织结构集合之间的另外一个明显区别是,事实上,向Web上传信息没有任何限制。灵活利用这点可以发布任何对搜索引擎影响重大的信息,使路由阻塞,加上为牟利故意操纵搜索引擎,这些已经成为一个严重的问题。这些问题还没有被传统的封闭的信息检索系统所提出来。它关心的是元数据的努力,这在Web搜索引擎中却不适用,因为网页中的任何文本都不会向用户声称企图操纵搜索引擎。甚至有些公司为牟利专门操纵搜索引擎。 4 系统分析(System Anatomy)首先,我们提供高水平的有关体系结构的讨论。然后 ,详细描述重要的数据结构。最后,主要应用:抓网页,索引,搜索将被严格地检查。 Figure 1. High Level Google Architecture 4.1Google体系结构概述这一节,我们将看看整个系统是如何工作的(give a high level),见图1。本节不讨论应用和数据结构,在后几节中讨论。为了效率大部分Google是用c或c++实现的,既可以在Solaris也可以在Linux上运行。 Google系统中,抓网页(下载网页)是由几个分布式crawlers完成的。一个URL服务器负责向crawlers提供URL列表。抓来的网页交给存储服务器storeserver。然后,由存储服务器压缩网页并把它们存到知识库repository中。每个网页都有一个ID,称作docID,当新URL从网页中分析出时,就被分配一个docID。由索引器和排序器负责建立索引index function。索引器从知识库中读取文档,对其解压缩和分析。每个文档被转换成一组词的出现情况,称作命中hits。Hits纪录了词,词在文档中的位置,最接近的字号,大小写。索引器把这些hits分配到一组桶barrel中,产生经过部分排序后的索引。索引器的另一个重要功能是分析网页中所有的链接,将有关的重要信息存在链接描述anchors文件中。该文件包含了足够的信息,可以用来判断每个链接链出链入节点的信息,和链接文本。 URL分解器resolver阅读链接描述anchors文件,并把相对URL转换成绝对URL,再转换成docID。为链接描述文本编制索引,并与它所指向的docID关联起来。同时建立由docID对组成的链接数据库。用于计算所有文档的PageRank值。用docID分类后的barrels,送给排序器sorter,再根据wordID进行分类,建立反向索引inverted index。这个操作要恰到好处,以便几乎不需要暂存空间。排序器还给出docID和偏移量列表,建立反向索引。一个叫DumpLexicon的程序把这个列表和由索引器产生的字典结合在一起,建立一个新的字典,供搜索器使用。这个搜索器就是利用一个Web服务器,使用由DumpLexicon所生成的字典,利用上述反向索引以及页面等级PageRank来回答用户的提问。 4.2主要数据结构经过优化的Google数据结构,能够用较小的代价抓取大量文档,建立索引和查询。虽然近几年CPU和输入输出速率迅速提高。磁盘寻道仍然需要10ms。任何时候Google系统的设计都尽可能地避免磁盘寻道。这对数据结构的设计影响很大。 4.2.1大文件大文件BigFiles是指虚拟文件生成的多文件系统,用长度是64位的整型数据寻址。多文件系统之间的空间分配是自动完成的。BigFiles包也处理已分配和未分配文件描述符。由于操纵系统不能满足我们的需要,BigFiles也支持基本的压缩选项。 4.2.2知识库 Figure 2. Repository Data Structure 知识库包含每个网页的全部HTML。每个网页用zlib(见RFC1950)压缩。压缩技术的选择既要考虑速度又要考虑压缩率。我们选择zlib的速度而不是压缩率很高的bzip。知识库用bzip的压缩率接近4:1。而用zlib的压缩率是3:1。文档一个挨着一个的存储在知识库中,前缀是docID,长度,URL,见图2。访问知识库不需要其它的数据结构。这有助于数据一致性和升级。用其它数据结构重构系统,我们只需要修改知识库和crawler错误列表文件。 4.2.3文件索引文件索引保存了有关文档的一些信息。索引以docID的顺序排列,定宽ISAM(Index sequential access mode)。每条记录包括当前文件状态,一个指向知识库的指针,文件校验和,各种统计表。如果一个文档已经被抓到,指针指向docinfo文件,该文件的宽度可变,包含了URL和标题。否则指针指向包含这个URL的URL列表。这种设计考虑到简洁的数据结构,以及在查询中只需要一个磁盘寻道时间就能够访问一条记录。还有一个文件用于把URL转换成docID。它是URL校验和与相应docID的列表,按校验和排序。要想知道某个URL的docID,需要计算URL的校验和,然后在校验和文件中执行二进制查找,找到它的docID。通过对这个文件进行合并,可以把一批URL转换成对应的docID。URL分析器用这项技术把URL转换成docID。这种成批更新的模式是至关重要的,否则每个链接都需要一次查询,假如用一块磁盘,322‘000’000个链接的数据集合将花费一个多月的时间。 4.2.4词典词典有几种不同的形式。和以前系统的重要不同是,词典对内存的要求可以在合理的价格内。现在实现的系统,一台256M内存的机器就可以把词典装入到内存中。现在的词典包含14000000词汇(虽然一些很少用的词汇没有加入到词典中)。它执行分两部分—词汇表(用null分隔的连续串)和指针的哈希表。不同的函数,词汇表有一些辅助信息,这超出了本文论述的范围。 4.2.5 hit list hit list是一篇文档中所出现的词的列表,包括位置,字号,大小写。Hit list占很大空间,用在正向和反向索引中。因此,它的表示形式越有效越好。我们考虑了几种方案来编码位置,字号,大小写—简单编码(3个整型数),紧凑编码(支持优化分配比特位),哈夫曼编码。Hit的详细信息见图3。我们的紧凑编码每个hit用2字节。有两种类型hit,特殊hit和普通hit。特殊hit包含URL,标题,链接描述文字,meta tag。普通hit包含其它每件事。它包括大小写特征位,字号,12比特用于描述词在文档中的位置(所有超过4095的位置标记为4096)。字号采用相对于文档的其它部分的相对大小表示,占3比特(实际只用7个值,因为111标志是特殊hit)。特殊hit由大小写特征位,字号位为7表示它是特殊hit,用4比特表示特殊hit的类型,8比特表示位置。对于anchor hit八比特位置位分出4比特用来表示在anchor中的位置,4比特用于表明anchor出现的哈希表hash of the docID。短语查询是有限的,对某些词没有足够多的anchor。我们希望更新anchor hit的存储方式,以便解决地址位和docIDhash域位数不足的问题。

    三、国内搜索引擎排名?

    .2010国内搜索引擎排行榜,最新中文搜索引擎排名

    1、百度百度是中国互联网用户最常用的搜索引擎,每天完成上亿次搜索;也是全球最大的中文搜索引擎.

    2、谷歌 Google 的使命是整合全球范围的信息,使人人皆可访问并从中受益。

    3、SOGOU搜狗是搜狐公司于2004年8月3日推出的全球首个第三代互动式中文搜索引擎。搜狗以搜索技术为核心,致力于中文互联网信息的深度挖掘,帮助中国上亿网民加快搜索速度.

    4、SOSOQQ推出的独立搜索网站。提供综合、网页、图片、论坛、音乐、搜吧等搜索服务。

    5、微软必应2009年6月1日,微软新搜索引擎Bing(必应)中文版上线。测试版必应提供了六个功能:页面搜索、图片搜索、资讯搜索、视频搜索、地图搜索以及排行榜。

    6、YAHOO中国 Yahoo! 全球性搜索技术(YST,Yahoo! Search Technology)是一个涵盖全球120多亿网页(其中雅虎中国为12亿)的强大数据库,拥有数十项技术专利、精准运算能力,支持38种语言,近10,000台服务器,服务全球50%以上互联网用户的搜索需求。

    7、网易有道搜索网易自主研发的搜索引擎。目前有道搜索已推出的产品包括网页搜索、博客搜索、图片搜索、新闻搜索、海量词典、桌面词典、工具栏和有道阅读。

    8、新浪搜索 全球最大的中文网络门户新浪汇集技术精英、耗时一年多完全自主研发完成,采用了目前最为领先的智慧型互动搜索技术,充分体现了人性化应用理念,将给网络搜索市场带来前所未有的挑战。

    9、中国搜索 中搜在2002年进入中文搜索引擎市场,为全球最大的中文搜索引擎技术供应和服务商之一,曾为新浪、TOM、网易等国内主流门户网站以及各地区、各行业上千家中国搜索联盟网站提供搜索引擎技术服务。2004年中搜进入个人门户,2006年推出个人门户IG(Internet Gateway),完成了互联网从传统搜索引擎到个人门户的跨越,中搜一举从搜索引擎的推动者转变为个人门户领导者

    10、TOM搜索 TOM最早建立的中国门户网站之一,与谷歌合作建立中文搜索引擎.

    四、十大搜索引擎是什么

    全球十大搜索引擎 Google 全球最大的 (机器)搜索引擎。主要搜索结果将列入AOL, Netscape, iwon和Go. Google在对网站进行排名时不仅衡量关键词与页面的匹配度,也考虑外部链接。某个网站拥有越多的外部链接,说明它越受欢迎。于是,Google将其作主要因素来考虑,并发明了PageRank来专门衡量该外部链接。>> Yahoo 世界最早的分类目录,也是最大的门户网站。它的搜索结果最初来自于Google,后采用Inktomi(已被雅虎收购)提供的结果。Yahoo现在开发了自己的搜索技术,称为Yahoo Search Technology (YST)。搜索结果个数与Google相当,>> 更多 MSN 录属于微软 公司。MSN提供的Hotmail和MSN Message极受欢迎。但MSN没有自己的搜索引擎,一直采用其他搜索引擎的结果。比如,MSN主要搜索结果来自于Inktomi,竞价广告原由LookSmart提供,但于2004年初改由Overture提供。 AOL 即美国在线,是美国也是世界上最早的门户网站之一,几年前已与时代公司合并,成为美国在线-时代华纳公司。AOL目前的主营业务是ISP。其搜索结果 全部来自于Google 提供。也就是说,有良好的Google排名也有良好的AOL排名。 Lycos 西班牙公司,全称为Terry Lycos,是全世界最早的搜索引擎之一。但目前,Lycos已放弃自己开发的搜索技术,而主要搜索结果来自于Alltheweb。另外,其竞价排名结果来自于Google的右侧广告。 Ask Jeeves 规模不大,但很有特色的搜索搜索。Ask是DirectHit的母公司,于2001年收购Teoma搜索引擎,并全部采用其搜索结果。奇怪的是,Ask的竞价排名结果却仍然来自于Google的右侧广告。 Overture 最早的付费搜索引擎(竞价排名搜索引擎)。搜索结果被Yahoo, MSN等采用。Overture收购了Google的对手Inktomi后被Yahoo收购,是Google AdWords目前最大的竞争对手。 如何在Overture做竞价排名广告 MrDou 即豆子先生公司,MrDou最初被广大用户认知是因为它的音乐搜索。并全部采用其搜索结果。有证据表明,MrDou正在开发一种叫做"MrDou Hot"的自己的搜索引擎 >> AltaVista 全世界最古老的搜索引擎之一,中国网民很难访问。该搜索引擎已于2003年被Yahoo收购。同时被Yahoo收购的还有AllTheWeb。 微迪认为,AltaVista不久可能销声匿迹,因为Yahoo并没有采用AltaVista、Alltheweb或者Inktomi的搜索结果,而是重新开发全新的搜索技术。 Inktomi 不向终端用户开放,只对搜索引擎提供搜索结果。于2003年被Overture收购(Overture后又被Yahoo收购)。在2004年Yahoo开发自己全新的搜索引擎技术之前,Inktomi还是全球第二大搜索引擎,其搜索结果被Hotbot, MSN等著名的网站采用。 国内十大主流的搜索引擎 1,百度。全球最大的中文搜索引擎。拥有自己的核心技术--超链接分析技术。通过分析的链接的多少和质量来评价被链接网站的网站质量。这保证了用户在百度搜索的时候,越受欢迎的网站排名越前。所以我想让广州seo的网站排名好的话,增加多点高质量带网站关键字链接:"广州网站优化""广州网站推广"。作为最大的中文搜索引擎,对网页的收录数量,收录速度,收录范围自然最具优势的。另外遍布全国各地的服务器,也能以最快的速度,将用户所要寻找的信息展示给用户。另外百度是非常符合中国人的使用习惯的。为中文用户度身定做百度深刻理解中文用户搜索习惯,开发出关键词自动提示:用户输入拼音,就能获得中文关键词正确提示。 百度还开发出中文搜索自动纠错;如果用户误输入错别字,可以自动给出正确关键词提示。百度还有其它多项体贴普通用户的功能,包括相关搜索、中文人名识别、简繁体中文自动转换、网页预览等。 百度已增加了专业的MP3搜索、Flash搜索、新闻搜索、信息快递搜索,并正在快速发展其它用户喜欢的搜索功能。百度搜索引擎,将发展为最全面的搜索引擎,为所有中文用户打开互联网之门。另外 www.xy539.com 的“广州百度推广”排名还不错。 2、谷歌。谷歌虽然已经推出中国大陆,但是还是有一定数量的用户。这里只是提一句,谷歌自创的“pagerank”技术目前认识很多站长评价网站的一种重要标准,虽然有传言说谷歌要取消pr值。 3、中国雅虎。中国雅虎开创性地将全球领先的互联网技术与中国本地运营相结合,成为中国互联网界位居前列的搜索引擎社区与资讯服务提供商。中国雅虎一直致力于以创新、人性、全面的网络应用,为亿万中文用户带来最大价值的生活体验,成为中国互联网的“生活引擎”。 4、搜狗。 搜狗搜索是由国内著名的门户网站搜狐SOHU.COM运作的,搜狐是国内最早提供搜索服务的站点。互联网概念在国内的普及,搜狐功不可没。在2001年年初由CNAZ(中文网站评估认证网)举办的搜索引擎网络专项功能排名调查中,搜狐名列第一。搜狗设有独立的目录索引,并采用百度搜索引擎技术,提供网站、网页、类目、新闻、黄页、中文网址、软件等多项搜索选择。搜狐搜索范围以中文网站为主,支持中文域名。 5、中搜。 中国搜索联盟成立于2002年9月,由中国互联网新闻中心、慧聪国际共同发起的一个以搜索引擎应用为核心的开放型联合体,联盟号召各成员网站使用共同的搜索引擎,通过搜索引擎技术应用寻求共同有效的经营模式,整合优势资源真正实现资源共通共享,进而推动各成员的网站发展。 6、腾讯搜搜。搜搜的主要优势在于他有庞大的即时通讯客户,可以用qq号码直接登录搜搜进行问答等一些列活动,所以搜搜推出之始就有1.5亿用户了。另外搜搜更加注重年轻网民的需要。 7、有道搜索。 自2007年7月,网易搜索正式由网易自主研发的“有道搜索”提供服务,希望提供给用户更多样的产品,更创新的体验,更优质的服务。 8、新浪爱问。“爱问iAsk”是新浪完全自主研发的搜索产品,采用了目前最为领先的智慧型互动搜索技术,充分体现人性化应用的产品理念,为广大网民提供全新搜索服务。作为首个中文智慧型互动搜索引擎,“爱问”突破了由GOOGLE、百度为代表的算法致胜的搜索模式。 9、bing,中文反映“必应”,有求必应之意。2009年正式在中国开放。是微软取代live search的搜索引擎。 10、tom搜索引擎,主要提供网页,网站,图片,mp3,新闻搜索,以及其他网页的搜索服务。

    以上就是关于主流搜索引擎有哪些相关问题的回答。希望能帮到你,如有更多相关问题,您也可以联系我们的客服进行咨询,客服也会为您讲解更多精彩的知识和内容。


    推荐阅读:

    免费好用的crm软件(国内主流的crm软件有哪些)

    主流营销平台有哪些(主流营销平台有哪些品牌)

    主流的app营销模式主要包括(主流的app营销模式主要包括哪四种)

    游戏策划师需要什么技能(游戏策划师需要什么技能和能力)

    没学历可以学什么技术(女生没学历可以学什么技术)