咨询热线:18609840880

资讯中心

秉承严谨的态度,为您提供专业的服务

蜘蛛爬取网站的轨迹你真的了解吗?

发表时间:05-27  浏览次数:0

众所周知,网站内容想要被收录,前提是蜘蛛一定抓取过你网站的内容,了解蜘蛛爬取网站的轨迹有利于我们确定内容更新重点,比如,蜘蛛喜欢爬行产品栏目,我们需要有秩序的更新产品类的内容,这样收录会更加好,有朋友会说,我们怎么知道它抓取了哪些页面,抓取是实际发生的我们能够观察到的过程,在原始日志中,蜘蛛的抓取是有完整记录的,比如:抓取确切时间、状态码、抓取的文件是哪个、抓取了多大文件等等。蜘蛛对页面的抓取就和浏览器读取文件是有效一样的。

爬行只是一个形象的比喻,实际上并不存在蜘蛛抓取文件时发现链接然后立即跟踪过去这样一个过程。蜘蛛抓取文件后存入数据库,程序解析出文件中的链接后将URL存入页面地址库,然后蜘蛛从地址库中按一定规则选取URL进行抓取。蜘蛛不是真的访问页面时看到一个URL就爬过去。

索引指的是将一个URL的信息进行各种整理,如去重、分词等等,然后将关于这个URL的信息存入数据库,被称为索引库。真正用于搜索的是倒排索引,以后有机会再细说。要注意的是,索引库中关于URL的信息不仅是组成页面内容的关键词及其特征(位置、格式等),还有链接、更新情况等信息。英文索引这个词是index。

收录是SEO们较关心也较常用的词,其实也是4个概念中较不明确的。被收录指的是我们能查到页面被搜索引擎存入了索引库。但后面我们会看到,进入索引库的URL并不一定被抓取过,这和SEO们的直觉可能是不一样的。
下面大连网站维护为您举几个例子。

网站收录不全,页面不收录是SEO们较头疼的问题之一,不收录就谈不上排名、流量了。太多人在博客、论坛里问页面不被收录是什么原因,也给出了域名,但这种问题是没法回答的,即使愿意花时间去诊断也不能回答(除非列出所有可能的原因,等于没回答),因为缺了一个关键信息:页面被抓取了没有?这只有查原始日志才能知道,看网站是看不出来的,查流量也是查不出来的。了解前面的概念就知道,被抓取不一定被收录,没被收录也不一定意味着没被抓取。

所以如果是被抓取却没有收录,我们应该考虑是否是网站内容出现问题,是否原创?是否含有敏感内容;但如果页面压根就没有被抓取过,则应该往网站和链接结构、搜索引擎不友好的技术障碍、域名权重等方面去找。

 

版权所有:大连新图闻科技有限公司. 保留一切法律许可权利 代理律师:戴律师