百度网络爬虫是如何进行工作的？_济南亘安信息技术有限公司

当前位置：首页-优化知识

百度网络爬虫是如何进行工作的？

2014-12-2 9:37:24

浏览次数：次

    我们用户经常浏览网页，就是打开浏览器，输入网址，最后看到网站内容。然而搜索引擎是怎么工作的呢。是不是和我们看网页有区别呢。下面我们具体分析一下。

    所谓网络爬虫，也叫网络蜘蛛，它是一种程序，能自动取得网站内容的程序，通过将内容存进搜索引擎系统，然后根据分析，以数据库的形似分门别类的建立索引，方便用户检索到这个网页。这就是爬虫。

     爬虫通过漫游的形式进行抓取，爬虫爬到一个页面后，看到一个链接，然后顺着那个链接又爬到另外一个页面，爬虫是不停的从一个页面跳到另外一个页面的，它一边下载这个网页，一边在提取这个网页中的链接，那个页面上所有的链接都放在一个公用的“待抓取列表”里。而且爬虫有个特点，就是他在访问你网站之前，不去做判断你这个网页本身怎么样的，不对网页内容判断就抓取，但是会有优先级的划分，尽可能不抓重复的内容，尽量抓重要内容（比如网站的公共部分）。

搜索引擎同时会派出多个爬虫进行多线程的抓取，所有被爬虫抓取的网页将会被系统储存，进行一定的分析、过滤（去重），并建立索引，以便之后的查询和检索。

济南网站优化：http://www.jngenan.com/

上一条:网站优化时容易忽略的nofollow标签非常重要
下一条:网站优化初学者要特别注意的三个问题