7 × 24小时服务热线:18605391786  4000-999-221  关于我们  联系我们   付款方式  网站地图   加为收藏       
您当前的位置:首页 >  网站优化 > 网站优化的目的 > 蜘蛛程序爬行的原理分析

蜘蛛程序爬行的原理分析 

信息来自:炫维网络    发布日期:2012-10-18   浏览次数:  

获取索引
领先的搜索引擎,如谷歌,Bing和雅虎的搜寻器找到他们的算法搜索结果页。来自其他搜索引擎索引的网页链接的页面不需要提交,因为它们会自动被发现。有些搜索引擎,尤其是雅虎,操作有偿提交服务,保证抓取的固定费用或每次点击费用。[29]这样的程序通常以能保证纳入该数据库,但不保证具体的排名在搜索结果中。 30]两个主要的目录,雅虎目录和开放式目录项目都需要手工提交人编辑审查。[31]谷歌谷歌网站管理员工具,提供了一个XML站点地图可以免费创建和提交,以确保所有的页面[32]被发现,尤其是网页自动链接不会被发现。

爬行一个网站时,搜索引擎的抓取工具可能在许多不同的因素。并不是每个网页都被索引的搜索引擎。一个站点的根目录下的网页的距离,也可能是一个因素,是否抓取的页面。[33]

防止爬行
主要文章:机器人排除标准
在搜索索引,以避免不良的内容,网站管理员可以指示蜘蛛不抓取某些文件或目录的根目录中的域通过标准的robots.txt文件。此外,一个页面可以被明确地排除在搜索引擎的数据库,通过使用特定的机器人的meta标签。当搜索引擎访问一个网站,是第一个文件位于根目录的robots.txt爬。 robots.txt文件中被解析,并会指示机器人哪些页面被抓取。作为一个搜索引擎的抓取工具可能会保持这个文件的缓存副本,它有时可能会抓取网页的网站管理员不希望抓取。通常无法被抓取的页面包括登录的特定页面,如购物车和用户特定的内容,如从内部搜索的搜索结果。 2007年3月,谷歌警告网站管理员,也应避免,因为这些网页搜索垃圾邮件的内部搜索结果的索引。[34]

日益突出,
有各种方法可以增加突出的一个网页内的搜索结果。交叉连接同一个网站的页面之间最重要的网页,以提供更多的链接,可以提高其知名度。[35]写作内容,其中包括经常搜索的关键字词组,以各种各样的搜索查询相关的增加将导致交通[35]更新内容,以保持搜索引擎爬行,经常可以给一个网站的额外重量。相关的关键字添加到一个网页的元数据,包括标题标签和meta描述,往往会提高一个网站的搜索列表的相关性,从而增加了交通。通过多个网址访问网页,使用规范的链接元素[36]或通过301重定向的URL标准化,可以帮助确保链接到不同版本的URL对页面的链接流行度得分都算上。

做服务最好的网络公司:临沂网络公司http://www.a539.com
更多
临沂网站建设豪华团队!www.a539.com
临沂网络公司

炫维网络 www.a539.com
建站咨询电话:18605391786  邮箱:123@A539.com  
地址:山东省临沂市兰山区通达路367号 裕城大厦