最新消息:

标签:网络爬虫

百度和谷歌搜索引擎如何确定网页和查询结果的相关性
seo技术

百度和谷歌搜索引擎如何确定网页和查询结果的相关性

hanpan 6年前 (2013-03-07) 192浏览 0评论

前面我们介绍了如果通过网络爬虫下载整个网络,搜索引擎的索引原理,下面我们来介绍下如何确定一个页面和某个查询关键词的相关性。 一:搜索引擎判断相关性工作原理 比如我们查找关于“原子能的应用”的网页。我们第一步是在索引中找到包含这三个词的网页(详见关于布...

网络爬虫利用遍历算法下载互联网上的所有页面
seo技术

网络爬虫利用遍历算法下载互联网上的所有页面

hanpan 6年前 (2013-03-07) 194浏览 0评论

我们上回谈到了搜索引擎的索引技术原理,那么如何自动下载互联网所有的网页呢,它要用到图论中的遍历(Traverse) 算法。 1:了解何为网络爬虫 网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或...