网站首页 >> 新闻动态 >>阿里环维商学院 >> 互联网洪流中的“摆渡人”——搜索引擎如何扮演好他的角色
详细内容

互联网洪流中的“摆渡人”——搜索引擎如何扮演好他的角色

“我引导灵魂穿过荒原,保护他们免遭恶魔毒手。我告诉他们真相,然后把他们送到他们要去的地方。”

             ——《摆渡人》

 

互联网中的信息内容极其丰富,如果没有搜索工具,单纯的靠自己寻找,无异于大海捞针。而搜索引擎恰恰是帮助用户定位需要的信息,是网上冲浪的不可或缺的工具之一。

 

什么叫搜索引擎?


顾名思义,搜索引擎就是一种根据用户输入的信息,经过特定的算法和策略,寻找出匹配内容推送给用户的检索技术。如何通过用户给出的信息,快速高效的推演出呈现的内容,并不是一件容易的事情,所以搜索引擎需要依赖许多技术的支持,比如网络爬虫技术、检索排序技术、网页处理技术、大数据处理技术等等,有时候还需要用到自然语言处理技术等。同时还会添加一些辅助系统,比如相似词匹配,快速查询等功能,为用户提供更好的搜索体验。


 搜索引擎.jpg


搜索引擎的历史相当悠久,伴随着互联网发展不断进步,总体而言,搜索引擎的发展可以概括为四个阶段,每个阶段的代表产品有以下如下:

 

第一代搜索引擎:雅虎——Lycos

 

Lycos是第一款真正意义上基于互联网的搜索引擎, 开创了人工分类目录的先河,其开发厂商正是20世纪末互联网奇迹的创造者之一——Yahoo(雅虎)。通过人工将各种网站内容分类存储,用户根据可以很轻松的通过目录寻找到想要的网站。至今仍有一些网站采用此类搜索引擎。


 雅虎.jpg


第二代搜索引擎:谷歌——Google

 

随着互联网建设越来越完善,网络信息也越来越多样化,单纯的查找页面已经不能满足人们的需求,人们希望对内容进行查找。于是便出现了第二代搜索引擎——关键字查询,其中的佼佼者便是Google,通过在网页链接分析技术的基础上,增添了覆盖全网页的关键字搜索,然后对主要信息做以分析,提取出最匹配的内容推送给用户。


 谷歌.jpg


第三代搜索引擎:谷歌——Google

 

网络的发展速度远超出大部分人的想象,互联网急速膨胀,虽然第二代搜索引擎可以定位至内容,但是很多时候都存在着不够精确,不够快速的问题。谷歌又一次走到了同行的前面,及时推出了第三代搜索引擎。相较于前两代,第三代搜索引擎在覆盖更广的同时,更加注重智能化、个性化。充分应用了自动聚类、分类等AI智能技术,同时采用了区域智能识别以及内容分析技术,配合人工介入,实现技术和人工的完美结合,增强了搜索引擎的查询能力。为发展搜索引擎的技术开创了崭新的局面,也是目前最为先进的搜索引擎。


 谷歌1.jpg


第四代搜索引擎:尚在研发中

 

如何在多元化的信息时代搜索到全面的详细资料,是各大厂商一直存在的问题。根据现有的硬件设施,短期内实现是不太可能的。除却硬件限制,在搜索策略方面,特征算法和文本智能化是这代搜索引擎的关键技术。需要注意的是,尽管目前有不少公司宣扬自己的搜索引擎多么智能,多么先进,更多的是噱头而已,远达不到第四代搜索引擎的要求,第四代搜索引擎仍处于一个研发的过程。


搜索引擎的工作原理


从键入信息到输出结果,搜索引擎的工作流程可以分为三个步骤,简单描述如下:

 

提前抓取网页信息,并存到原始网页数据库中;

对原始数据库中的网页信息进行组织处理,同时建立索引库;

根据用户输入的信息,提取关键字,迅速找到相关内容,组织排序后呈现给用户。

 

举个例子,就在头条的搜索框里输入“成都”,可以看到有很多相关的内容弹出,我们将过程细化。

 

1.网页抓取

 

这一步属于查询前的准备操作,和普通用户访问网页一样,搜索引擎蜘蛛访问web页面,接收到请求后,服务器接受其访问请求并返回HTML代码后,把获取的HTML代码存入原始页面数据库。其中外部链接较为特殊,当蜘蛛抓取某个外部链接页面URL的时候,需把该网站的URL下载回来分析,当蜘蛛全部分析完这个URL后,再把这个URL存入相应的表中。像例子中的关于成都的种种信息,都是事先存在服务器中的。


 搜索引擎1.jpg


2.建立索引

 

在搜集到“成都”的诸多消息后,还需要进行预处理,建立索引,需要进行一系列的操作,比如判断网页的类型是否合适,衡量其重要程度,丰富程度,检查超链接是否可用 ,去除重复网页去掉。经过这些处理后,原始页面已经不是最开始的Web,而是浓缩成了反映页面主题内容的、以词为单位的文档。建立索引是最为复杂一步,也是难度最高的一步。索引建立的质量如何,直接决定了搜索引擎的性能。

 

3.查询服务

 

现在关于“成都”的信息已经整合好并建立了索引,当用户输入“成都”的字样时,搜索引擎首先会进行分词处理,然后依据情况对整合搜索的内容判断,检查有无错别字和拼写错误。接下来在索引数据库中找到所有包含“成都”的网页,进行排序,最后按照一定的顺序展现在用户面前。

 

需要注意的是,在整个查询服务中,最为关键的地方在于搜索结果如何排序,直接影响到用户的满意度,而排序需要考虑到很多因素,比如关键词距离词频及密度链接和页面的权重等等。所以通常情况下,我们搜索出来的结果,最前边的几个选项往往是最贴切我们需求的链接。


搜索引擎当下面临的问题


尽管时至今日,搜索引擎在基础结构和算法上已经较为成熟,但是依旧存在着一些令人头疼的问题:

 

1.时效性

 

互联网用户众多,数据海量,必然导致的一个情况便是带宽紧张,网络拥堵。而且现在网页都处于一个快速变化的状态,相信各位都遇到过点开链接却发现已经失效的情况,这是因为更新的网页在爬虫程序还来不及抓取的时候却已经被删除,数据库没有及时更新导致的,如何更快速的实时同步网页信息,是一个亟需解决的课题。

 

2.可靠性

 

当下有些公司和组织,为了牟利,会通过利用一些技术上的漏洞或不正当的商业行为,采用作弊手法干扰正常的搜索结果,用户搜索出的内容会弹出大量广告或无关内容。除此之外,按照现有的数据挖掘技术和硬件限制,搜索引擎仍未达到理想程度。

 

3.存储问题

 

即使是经过爬虫预处理过的数据,依旧是非常庞大的。尤其是现如今大数据时代,对存储技术有了更高的要求。传统的结构化数据库存储方式虽然便捷,高共享低冗余,但是查询率较低,难以实现并发查询,总体而言效率仍待提高。


 pexels-photo-374016.jpeg


可以说,从搜索引擎的发展中,可以折射出互联网发展的历程。时至今日,人们渴望搜索引擎能够深入开展信息挖掘,在迅速抓取信息的同时,还能保证内容的广泛性和多样化。这也是搜索引擎未来的发展趋势:社会化、移动化、个性化、多媒体化。相信在未来某一天,我们都可以真正享受到“足不出户天下知”

 

阿里环维维客云拥有多年全网营销推广经验,致力于为企业提供一站式全网营销服务。

更有专业的设计团队根据您的需求,为您提供优质的全网营销方案。

万站齐推,全网覆盖,阿里环维维客云让您的信息无处不在!


18949805025

维客智能AI销售系统
社交化销售 裂变式传播

微信公众号
全网推广纯正干货只为你分享

移动端网站
热门动态、知识分享,样样俱全


网站首页  |   公司简介   |   客户案例   |   服务项目   |   新闻动态   |   联系我们

誉零文化传播官网
您身边的活动策划专家