软件

MAYISOFT.COM

恒达如何做才能不被搜索引擎屏蔽

2021-03-06 作者:mayisoft 访问量:99999
恒达中因为搜索引擎无法一次性抓取网站中的所有页面,网站中的页面数量会不断变化,内容也会不断更新。因此,搜索引擎还需要维护被抓取的页面,以便获得页面中的最新信息,并及时抓取更多的新页面。常见的页面维护方式有定期抓取、增量抓取和分类定位抓取。
定期抓取也称为周期性抓取,即搜索引擎定期更新网站中包含的页面。更新时,用捕获的新页面替换旧页面,删除不存在的页面,并存储新发现的页面。定期更新针对所有列出的页面,因此更新周期会更长。比如谷歌更新收录页面一般需要30~60天。
周期性爬行算法的实现相对简单。由于每次更新都涉及网站中所有列出的页面,因此页面权重的重新分配也是同步进行的。这种方法适用于维护页面少、内容更新慢的网站。但是更新周期很长,导致无法及时向用户反映更新过程中页面的变化。例如,恒达页面内容的增量捕获是通过定期监控捕获的页面来更新和维护页面。然而,定期监控网站中的每个页面是不现实的。基于重要页面携带重要内容的思想和80/20规则,搜索引擎只需要定期监控网站中的一些重要页面,就可以获得恒达网站中相对重要的信息。所以增量抓取只是针对一些重要页面,而不是所有包含的页面,这也是为什么搜索引擎对重要页面的更新周期较短的原因。比如搜索引擎会更新内容更新频繁的页面,以便及时发现新的内容和链接,删除不存在的信息。
因为增量抓取是在原页面的基础上进行的,所以会大大减少搜索引擎的抓取时间,还能及时向用户展示页面中的最新内容。
分类定位抓取不同于增量抓取,增量抓取是由页面的重要性决定的,分类定位抓取是指根据页面的类别或性质做出相应更新周期的页面监控模式。例如对于“新闻资讯”和“资源下载”页面,新闻资讯页面的更新周期可以精确到每分钟,而下载页面的更新周期可以设置为一天或更长。
分类定位抓取不同于增量抓取,增量抓取是由页面的重要性决定的,分类定位抓取是指根据页面的类别或性质做出相应更新周期的页面监控模式。例如对于“新闻资讯”和“资源下载”页面,新闻资讯页面的更新周期可以精确到每分钟,而下载页面的更新周期可以设置为一天或更长。
分类、定位和抓取分别处理不同类型的页面,可以节省大量的抓取时间,大大提高页面内容的实时性,增强页面抓取的灵活性。但是按类别进行页面更新周期的方式比较笼统,很难跟踪页面的更新情况。因为即使是同一类别的页面,不同网站上的内容更新时间也有很大的差异。比如新闻页面,大型门户网站的内容更新速度会比其他小型网站快很多。因此,有必要结合其他方法(如增量爬网)来监控和更新页面。
事实上,搜索引擎通过多种方式维护恒达网站中的页面,相当于间接为每个页面选择最合适的维护方法。这样,不仅可以减轻搜索引擎的负担,还可以为用户提供及时的信息。
例如,在一个恒达网站中,有许多不同的页面,包括主页、论坛页面和内容页面。对于经常更新的页面(如第一页),可以使用增量抓取进行监控,使网站中相对重要的页面能够及时更新;对于实时性非常高的论坛页面,我们可以使用分类定位的抓取方法:为了防止恒达网站中的一些页面被遗漏,我们还需要使用常规的抓取方法。
页面是搜索引擎对网站进行信息处理的基础,搜索引擎的大部分工作都是在页面上进行的。然而,仅仅依靠页面中的内容并不能满足搜索引擎对数据处理的需求。搜索引擎在抓取页面的过程中能否获得更多有价值的信息,将直接影响搜索引擎的效率和排名结果的质量。因此,搜索引擎在抓取页面时,不仅存储了原始页面,还附加了一系列信息(如文件类型、文件大小、最后修改时间、URL、IP地址、抓取时间等。),然后以此信息作为开展某项工作的依据。比如一个文件太大,可能会被搜索引擎放弃;最后修改时间意味着页面更新的日期。

 
此 文 章出 自 蚂 蚁镜 像 恒达 软 件,唯一 官 网 地 址:https://www.mayisoft.com/
未经允许不得转载:恒达娱乐注册 » 恒达如何做才能不被搜索引擎屏蔽

相关推荐