搜索引擎的工作流程
课程导航
搜索引擎的工作流程报名
搜索引擎的工作流程新闻
搜索引擎的工作流程环境
热门课程:
400-888-4851
  • 学校新闻

搜索引擎的工作流程

  搜索引擎的工作流程大概分为三大步,很多小细节用文字表达太过繁冗,这里小编就大致介绍一下。
一、网页搜集,就是大家常说的蜘蛛抓取网页。有三类页面是蜘蛛比较喜欢抓取的。
1.蜘蛛从未抓去过的新页面。
2.蜘蛛抓取过,但页面内容有改动的页面。
3.蜘蛛抓取过,但现在已删除了的页面。
其实只要你的网站没有涉及非法的seo操作,且明天更新内容,那么*网站后台的服务器,你都可以发现勤劳的蜘蛛光顾你的站点。
那么蜘蛛如何发现新链接呢?其依靠的就是超链接。我们可以把所有的互联网看成一个蜘蛛网,蜘蛛由起始的URL集合A沿着网页中超链接开始 不停的发现新页面。这也是我们留外链的意义所在。还有一种方法是想各种搜索引擎提交链接,详情可以参考各大搜索引擎的提交入口是什么?
二、预处理,是搜索引擎*复杂的部分,基本上大部分排名算法都是在预处理这个环节生效。预处理又分为一下几个阶段:
1.提取关键词
蜘蛛抓取到的页面并不是我们浏览网页是看到的内容,而是编写网站的代码,要提取关键信息搜索引擎需要做三件事 情:①代码去噪:去除掉网页中所有的代码,仅剩下文本文字。②去除非正文关键词:例如页面上的导航栏以及其它不同页面共享的公共区域的关键词。③去除停 用词:停用词是指没有具体意义的词汇,例如“的”“在”等。
2.消除重复与转载网页
每个搜索引擎其识别重复页面的算法均不相同,这里可以参考百度seo算法。
3.重要信息分析
在进行代码除噪的过程中,搜索引擎并非简单的将其去除掉而已,而是充分利用网页代码(例如H标签、strong标签)、关键词密度、内链锚文本等方式分析出此网页中*重要的词组。
4.网页重要度分析
*指向该网页的外链锚文本所传递的权重数值,来为此网页确定一个权重数值,同时结合上述的“重要信息分析”,从而确立此网页的关键词集合p中每一个关键词所具备的排名系数。
5.倒排文件
正如上文所说,用户在查询时所得到的查询结果并非是及时的,而是在搜索引擎的缓存区已经大体排好的,当然搜索引擎不会未卜先知,他不会知道用户会查 询哪些关键词,但是他可以建立一个关键词词库,而当其处理用户查询请求的时候,会将其请求按照词库进行分词。那么这样下来,搜索引擎就可以在用户产生查询 行为之前,将词库中的每一个关键词其对应的URL排名先行计算好,这样就大大节省了处理查询的时间了。
三、查询服务,查询服务也分为一下几个阶段:
1.根据查询方式与关键词进行切词
2.搜索结果排序
3.展示搜索结果与文档摘要