当前位置:首页 > 网站建设 > 正文内容

html彩色字体代码(html 字体颜色代码)

网站建设1周前 (09-10)143

深度了解蜘蛛spider抓取原理-专业SEO技术教程(12)

尽管搜索引擎在不断地升级算法,但是终究其还是程序,因此我们在布局网站结构的时候,要尽可能地让搜索引擎蜘蛛看得懂。每个搜索引擎蜘蛛都有自己的名字,在抓取网页的时候,都会向网站表明自己的身份。搜索引擎蜘蛛在抓取网页的时候会发一个请求,这个请求中有一个字段为user-agent,用于标示此搜索引擎蜘蛛的身份。那么,今天就和大家一起来深度了解蜘蛛spider抓取原理。

例如Google搜索引擎蜘蛛的标识为Googlebot,百度搜索引擎的标识为baidu spider,yahoo搜索引擎蜘蛛的标识为inktomi slurp。如果在网站上有访问日志记录,网站管理员就能知道,哪些搜索引擎的搜索引擎蜘蛛过来过,什么时候过来的,以及读了多少数据等。如果网站管理员发现某个蜘蛛有问题,就通过其标识来和其所者联系。

搜索引擎蜘蛛进入一个网站,一般会访问一个特殊的文本文件robots.txt。这个文件一般放在网站服务器的根目录下,网站管理员可以通过robots.txt来定义哪些目录搜索引擎蜘蛛不能访问,或者那些目录对于某些特定的搜索引擎蜘蛛不能访问。例如,有些网站的可执行文件目录和临时文件目录不希望被搜索引擎到,那么网站管理员就可以把这些目录定义为拒绝访问目录。robots.txt语法也很简单,如果对目录没有任何限制,可以用以下两行来描述。

user-agent*

Disallow:

当然,robots.txt只是一个协议,如果搜索引擎蜘蛛的设计者不遵循这个协议,网站管理员也无法阻止搜索引擎蜘蛛对于某些页面的访问。但一般的搜索引擎蜘蛛都会遵循这些协议,而且网站管理员还可以通过其他方式来拒绝搜索引擎蜘蛛对某些网页的抓取。

搜索引擎蜘蛛在下载网页的时候,会去识别网页的HTML代码,在其代码的部分,会有meta标识。这些标识可以告诉搜索引擎蜘蛛本网页是否需要被抓取,还可以告诉搜索引擎蜘蛛本网页中的链接是否需要被继续跟踪。例如,表示本网页不需要被抓取,但是网页内的链接需要被跟踪。

html彩色字体代码(html 字体颜色代码)

现在一般的网站都希望搜索引擎能更全面地抓取自己的网站的网页,因为这样可能让更多的访问者通过搜索引擎能找到此网站。为了让本网站的网页更全面被抓取到,网站管理员可以建立一个网站地图,即sitemap。许多搜索引擎蜘蛛会把sitemap,htm文件作为一个网站网页爬取得入口,网站管理员可以把网站内容内部所有网页的链接放在这个文件里面,那么搜索引擎蜘蛛可以很方便地把整个网站抓取下来,避免遗漏某些网页,也会减小服务器的负担(Google专门为网站管理严提供了XML的Sitemap)。

展开全文

搜索引擎建立网页索引,处理的对象是文本文件。对于搜索引蜘蛛来说,抓取下来网页包括各种格式,包括HTML、图片、doc、PDF、多媒体、动态网页极其他格式。把这些文件抓取下来后,需要把这些文件中的文本信息提取出来。准确提取这些文档的信息,一方面对搜索引擎的搜索引擎准确性有重要的作用,另一方面对于搜索引擎蜘蛛正确跟踪其他链接有一定影响。

对于doc、PDF等文档,这种由专业厂商提供的软件生成的文档,厂商都会提供相应的文本提取接口。搜索引擎的搜索只需要调用这些插件的接口,就可以轻松地提取文档中的文本信息和文件的其他相关的信息。

HTML等文档不一样,HTML有一套自己的语法,通过不同的命令标识符来标识不同的字体、颜色、位置等,提取文本信息时需要把这些标识符都过滤掉。过滤标识符并非难事,因为这些标识符都有一定的规则,只要按照不同的标识符取得相应的信息即可。但在识别这些信息的时候,需要同步记录许多版式信息。

除了标题和正文以外,会有许多广告链接以及公共的频道链接。这些链接和文本正文一点关系也没有,在提取网页内容的时候,也需要过滤这些无用的链接。例如,某个网站有“产品介绍”频道,因为导航条在网站内每个网页都会搜索到,无疑会带来大量垃圾信息,过滤这些无效链接需要统计大量的网页结构规律,抽取一些共性,统一过滤;对于一些重要而结果特殊的网站,还需要个别处理。这就需要搜索引擎蜘蛛的设计有一定的扩展性。

以上就是对深度了解蜘蛛spider抓取原理的介绍,感谢收看与关注,明天继续更新,还望朋友们多多关注。

扫描二维码推送至手机访问。

版权声明:本文由飞速云SEO网络优化推广发布,如需转载请注明出处。

本文链接:http://hon-tex.cn/post/120790.html

分享给朋友:

“html彩色字体代码(html 字体颜色代码)” 的相关文章

怎么制作网站(怎么制作网站链接)

怎么制作网站(怎么制作网站链接)

今天给各位分享怎么制作网站的知识,其中也会对怎么制作网站链接进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!本文目录一览: 1、建立一个网站的基本步骤 2、怎么自己制作一个网站 3、怎么制作网站? 建立一个网站的基本步骤 一、功能定位整合公司资源,确定网站功能。根据公...

搞笑视频素材网(搞笑视频素材网盘)

搞笑视频素材网(搞笑视频素材网盘)

本篇文章给大家谈谈搞笑视频素材网,以及搞笑视频素材网盘对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。 本文目录一览: 1、搞笑段子素材去哪里找? 2、十几秒搞笑无水印视频素材从哪里找 3、怎么找搞笑视频素材? 4、短视频素材去哪里找? 5、自媒体搞笑视频搬运可以去那些网站找素...

幼儿园招生宣传单文案(幼儿园招生宣传传单)

幼儿园招生宣传单文案(幼儿园招生宣传传单)

今天给各位分享幼儿园招生宣传单文案的知识,其中也会对幼儿园招生宣传传单进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!本文目录一览: 1、幼儿园招生句子幽默 2、幼儿园招生广告语 3、幼儿园招生的唯美句子 4、幼儿园招生朋友圈句子 5、幼儿园招生海报文案都需要写...

二次元人设模板素材(二次元人设模板素材下载)

二次元人设模板素材(二次元人设模板素材下载)

本篇文章给大家谈谈二次元人设模板素材,以及二次元人设模板素材下载对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。 本文目录一览: 1、「教程」多角度动作漫画二次元人物,专业绘画教程及素材 2、求几个看二次元美图的软件或者网站 3、qq名片8张组图二次元素材 4、怎么设计好看的二次元...

电脑制作h5最常用软件代码(免费制作h5最常用软件)

电脑制作h5最常用软件代码(免费制作h5最常用软件)

本篇文章给大家谈谈电脑制作h5最常用软件代码,以及免费制作h5最常用软件对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。 本文目录一览: 1、h5页面制作工具有哪些? 2、制作h5的情景应用,有哪些软件 3、程序员必须知道的HTML常用代码有哪些 h5页面制作工具有哪些? h5页面制...

外贸业务员自我介绍模板(外贸业务的自我介绍)

外贸业务员自我介绍模板(外贸业务的自我介绍)

本篇文章给大家谈谈外贸业务员自我介绍模板,以及外贸业务的自我介绍对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。 本文目录一览: 1、外贸业务员面试英文自我介绍范文(2) 2、外贸业务员应聘自我介绍 3、外贸业务员面试英文自我介绍范文 4、外贸业务员的自我介绍 5、应聘做外贸业...