石家庄网站建设 > 博客教程 > 展为博客 >

石家庄公司的网站建设

发布时间:2020-08-12

我每天都使用网络爬虫。尽管它们非常有用,但它们仅模仿搜索引擎爬网程序的行为,这意味着您并不一定总能了解全部内容。
 
唯一可以为您提供有关搜索引擎如何抓取您的网站的真实概述的工具是日志文件。尽管如此,许多人仍然沉迷于抓取预算 -Googlebot可以并且想要抓取的URL数量。
 
日志文件分析可能会在您的网站上发现您一无所知的URL,但无论如何搜索引擎仍在爬行-这是对Google服务器资源的主要浪费(Google Webmaster Blog):
 
“在这样的页面上浪费服务器资源会从实际具有价值的页面上消耗爬网活动,这可能会导致在网站上发现丰富内容的时间大大延迟。”
 
尽管这是一个引人入胜的话题,但事实是,大多数网站都不必担心爬网预算-John Mueller(Google网站管理员趋势分析师)已经多次分享了这一观察。
 
不过,分析这些爬网产生的日志仍然具有巨大的价值。它将显示Google正在抓取的页面以及是否需要修复的任何内容。
 
当您确切地知道日志文件告诉您什么时,您将获得有关Google如何抓取和查看您的网站的宝贵见解,这意味着您可以优化此数据以增加流量。站点越大,解决这些问题的影响越大。
 
 
什么是服务器日志?
日志文件记录了进出服务器的所有内容。可以将其视为爬虫和实际用户发出的请求的分类帐。您可以确切地看到Google在您的网站上爬行的资源。
 
您还可以查看需要注意哪些错误。例如,我们在分析中发现的问题之一是,我们的CMS为每个页面创建了两个URL,而Google发现了两个URL。这导致重复的内容问题,因为具有相同内容的两个URL相互竞争。
 
分析日志不是火箭科学,其逻辑与在Excel或Google表格中使用表的逻辑相同。最困难的部分是访问它们-导出和过滤该数据。
 
第一次查看日志文件也可能会有些令人生畏,因为当您打开一个日志文件时,会看到以下内容:
 
 
冷静下来,仔细看一下一行:
66.249.65.107--[08 / Dec / 2017:04:54:20 -0400]“ GET / contact / HTTP / 1.1” 200 11179“-”“ Mozilla / 5.0(兼容; Googlebot / 2.1; + http:// www.google.com/bot.html)”
您很快就会意识到:
 
66.249.65.107是IP地址(谁)
[08 / Dec / 2017:04:54:20 -0400]是时间戳记(何时)
GET是方法
/ contact /是请求的URL(什么)
200是状态码(结果)
11179是已传输的字节数(大小)
“-”是 引荐来源网址(源),因为此请求是由搜寻器发出的,所以为空
Mozilla / 5.0(兼容; Googlebot / 2.1; + http://www.google.com/bot.html)是用户代理(签名),这是Googlebot(桌面)的用户代理。
一旦您知道每一行是由什么组成的,它就不会那么可怕。这只是很多信息。但这就是下一步派上用场的地方。
 
可以使用的工具
您可以选择许多工具来帮助您分析日志文件。我不会全面介绍可用的工具,但是了解静态工具和实时工具之间的区别非常重要。
 
静态 -仅分析静态文件。您无法延长时间范围。要分析另一个时期吗?您需要请求一个新的日志文件。我最喜欢的用于分析静态日志文件的工具是Power BI。
实时 -使您可以直接访问日志。我真的很喜欢开源ELK Stack (Elasticsearch,Logstash和Kibana)。实现它需要花费适度的精力,但是一旦堆栈准备就绪,就可以让我根据自己的需要更改时间范围,而无需与我们的开发人员联系。
开始分析
不要只是希望找到一些东西而进入日志,而是开始提出问题。如果您一开始不提出问题,那么您将陷入困境,没有方向,也没有真正的见识。
 
这是我在分析开始时使用的一些问题样本:
 
哪些搜索引擎在搜寻我的网站?
哪些网址最常被抓取?
哪些内容类型最常被抓取?
返回哪些状态码?
如果您看到Google正在抓取不存在的页面(404),则可以开始询问哪些请求的URL返回404状态代码。
 
按请求数对列表进行排序,对请求数最高的页面进行评估,以找到优先级最高的页面(请求数越多,优先级越高),并考虑是否重定向该URL或执行任何其他操作。
 
 
 
如果您使用CDN或高速缓存服务器,则还需要获取该数据以获取全貌。
细分数据
将数据分组,可以提供汇总数字,从而使您有一个全面的了解。通过仅查看各个URL,可以更轻松地发现您可能错过的趋势。您可以找到有问题的部分并根据需要进行深入研究。
 
有多种方法可以对URL进行分组:
 
按内容类型分组(单个产品页面与类别页面)
按语言分组(英语页面与法语页面)
按店面分组(加拿大商店与美国商店)
按文件格式分组(JS,图片和CSS)
不要忘记通过用户代理对数据进行切片。综观Google桌面,Google智能手机和Bing,它们不会浮现任何有用的见解。
 
监控行为随时间的变化
您的网站会随着时间而变化,这意味着爬网程序的行为也会随之变化。Googlebot通常会根据诸如页面速度,内部链接结构以及爬网陷阱的存在等因素来降低或提高爬网速度。
 
全年或执行网站更改时,最好检查一下日志文件。发布大型网站的重大更改时,我几乎每周都会查看日志。
 
通过至少每年两次分析服务器日志,您将发现搜寻器行为的变化。
 
注意欺骗
垃圾邮件和抓取工具不喜欢被阻止,因此它们可能会伪造自己的身份-他们利用Googlebot的用户代理来避免垃圾邮件过滤器。
 
要验证访问您服务器的网络爬虫是否真的是Googlebot,可以先进行反向DNS查找,然后再进行正向DNS查找。有关此主题的更多信息,请参见Google网站管理员帮助中心。
 
合并日志和其他数据源
尽管没有必要连接到其他数据源,但这样做将开启常规日志分析可能无法为您提供的另一层次的见解和上下文。轻松连接多个数据集并从中提取见解的能力是Power BI成为我选择的工具的主要原因,但是您可以使用任何您熟悉的工具(例如Tableau)。
 
 
 
将服务器日志与其他多种来源(例如Google Analytics(分析)数据,关键字排名,站点地图,抓取数据)混合,并开始提出以下问题:
哪些页面未包含在sitemap.xml中,但已被广泛检索?
Sitemap.xml文件中包含哪些页面但不进行爬网?
收入驱动页面是否经常被抓取?
大部分已爬网页面是否可索引?
您可能会发现会帮助您增强SEO策略的见解会令您感到惊讶。例如,发现几乎70%的Googlebot请求是针对无法索引的页面,这是您可以采取的行动。
 
 
 
在有关高级日志分析的文章中,您可以看到更多将日志文件与其他数据源混合的示例。
使用日志调试Google Analytics(分析)
不要将服务器日志视为另一个SEO工具。日志也是宝贵的信息来源,可帮助您在技术错误成为大问题之前就加以查明。
 
去年,Google Analytics(分析)报告了我们的品牌搜索查询的自然访问量下降。但是我们的关键字跟踪工具STAT Search Analytics和其他工具并未显示出任何保证下降的趋势。那么,这是怎么回事?
 
服务器日志帮助我们了解了这种情况:流量没有真正的下降。是我们新部署的WAF(Web应用程序防火墙)覆盖了引荐来源网址,从而导致一些自然流量在Google Analytics(分析)中被错误地分类为直接流量。
 
将日志文件与STAT中的关键字跟踪结合使用,有助于我们发现整个故事并快速诊断出此问题。
 
放在一起
日志分析是必须做的,尤其是一旦您开始使用大型网站时。
 
我的建议是从分段数据和监视随时间的变化开始。准备就绪后,请探索将日志与抓取数据或Google Analytics(分析)混合的可能性。那就是隐藏了深刻见解的地方。
 

网站建设
Website
客户案例
Customer case
关于展为
About ZHANWEI
展为致力于网站建设与网络营销,微信营销,专业领域包括网站建设、网站seo优化推广、移动互联网营销、三网合一网站建设,微信营销小程序开发,与其他网站建设及系统开发公司不同,我们的整合解决方案结合了展为网络建设经验和互联网整合营销的理念,并将策略和执行紧密结合,且不断评估并优化我们的方案,为客户提供一体化全方位的互联网品牌整合方案!

扫码咨询

Copyright © 石家庄展为网络有限公司. 冀ICP备14018173号-6 Copyright 2010-2020版权所有
展为网络
网站建设
客户案例