网络营销

服务器日志法网站分析的原理及优缺点

  现在,我们大部分人的浏览器都设置了缓存。所以,有时候,你会发现,即使网络没有接通,你访问的网站似乎也能“正常”打开,只不过浏览器会显示“脱机”状态,告诉你,这些内容不是真正从服务器传输过来的。

  除了客户端(浏览器)能够存放缓存的内容外,代理服务器(Proxy)也能够存放网页缓存,目的同样是为了提速。你可以把代理服务器的缓存想象 成CPU的“二级缓存”——当客户端没有存储某个网页的缓存的时候(“一级缓存”没有内容),浏览器就会寻找代理服务器缓存,看看有没有内容。如果还没 有,那才会再去寻找真正存放网页内容的网站服务器。image

  有了缓存,当你点击浏览器的“回退按钮”的时候,回退的上一个页面就不需要再重新从服务器中下载一次,而是立即就呈现在你的面前。你常用的网站的打开速度也显著提升了。

  可是,对于通过服务器日志来获取网站访问数据的方法而言,这可不是一个好事情。由于缓存的存在,本来应该请求服务器的结果不需要请求了,服务器的日志什么也不会记录下来,可是对页面的访问却又实实在在的发生了。

  所以,缓存的存在会使日志方法低估网站的实际访问量。

2. 害怕Flash等“客户端交互”内容

  现在,为了更具冲击力的视觉效果和更丰富的网页互动,运用Flash、加入视频、设计很多互动程序在网页上已经稀疏平常。而这些元素,它们太独 立了,以至于当它们被载入到浏览器端了之后,完全可以在浏览器端运行而不再与服务器发生交互,或者只需要在必要的时候才与服务器发生交互。

  比如,你玩儿普通网页版的Flash小游戏,一旦游戏下载完毕,你在玩儿的过程中跟网站服务器就不会有什么联系了,或者你看网页上的视频,你在 播放器上进行的暂停操作,一般也不会跟服务器进行互动。还有,有一些脚本语言编写的网页程序,是在浏览器上被解释执行的,比如用JavaScript实现 的网页Tab标签切换,在页面全部载完后,无论你怎么切换Tab,服务器都感觉不到了。

  服务器感觉不到,也就不会存在什么服务器日志记录,也就不会有数据,因此用日志方法是无法准确获取“客户端交互”类型的网站访问行为的。这种情况下,必须选择其他的数据收集方法。

3. 不精确的访问者记录

  日志方法辨别独立访问者需要依靠客户端的IP地址,也只能依靠它。不过,IP地址显然不代表真正的访问者。上班族的整个办公室的IP地址都可能是一个(使用代理服务器),而这个办公室可能坐着十多个人。这可能使访问者的数量被低估。

  同样,在家中,如果你购买了公共网络服务,那么你的IP地址存在动态分配的问题。你今天上网的IP地址和明天的可能就会不同,这个时候日志方法只能判断为两个不同的访问者。这又可能使访问者的数量被高估。

  此外,前面提到过日志是能够忠实记录机器(非人为)的访问活动的,但是机器不是人,它们的活动混在真实的人的访问之中,同样会使真实访问者的数量,或者访问数本身被高估。

  在这正反两相反方向的共同作用下,结果只能一个,那就是对于访问者数量的估算是非常模糊的。当然,我们必须要承认,无论用什么方法,网站访问者的精确数量都无法获得,但相对而言,日志方法要更不准确些。

4. 较弱的实时性

  没错,网站服务器日志是记录服务器运行的实时数据的,但是这些数据想要被取出分析,实时性就没有那么好了。常见的情况是,你必须首先把服务器日志文件(log file)从服务器中取出来,而这些文件肯定不会是服务器正在运行过程中的数据,一般都是隔天的(需要验证),然后再把这些日志文件导入到专门针对日志分析的工具中才能进行分析。这个过程的快慢依赖于你的熟练程度,但要追求实时,颇有难度。

  有技术高超的站长或者工程师通过架设内部网络、组建专门的日志分析服务器,并且编写特定的程序来解决日志分析的实时性问题http://www.phparticle.net/htmldata/36462/1/,但是,对于普通的中小网站,这种方法难度颇大,花费不菲,所以可行性不强。因此,实时性是绝大部分通过日志方法来分析网站数据时要面对的问题。

5. 海量的数据存储

image   服务器日志是忠实的,所以它会如实记录下来每一分每一秒发生的每一条服务器响应。对于一些流量稍大的网站,一天的网站日志记录超过数个 G(Gigabytes)是非常正常的,而那些最大的网站,一个小时就可能产生数G的记录。我们没有詹姆斯·卡梅隆的超级团队(他的《阿凡达》特效需要处 理超过500,000G的数据),所以如果要回溯网站一个月的流量就可能变成一个相当棘手的问题,需要投入相当的时间和耐心,如果你没有相当的技术和经 验,效率就会很低。

6. 日志文件获取繁琐

  我们不能把日志文件的获取想象的太简单,毕竟这不是在自己卧室的电脑中点开一个MP3文件那么容易。有些网站有镜像服务器,有些服务器在境外, 有些服务器是由处在多个不同地理位置的物理服务器逻辑组合而成。这些情况下,在进行日志分析之前需要集中所有的日志文件,这是一个很有些麻烦的事情,尤其 是当日志文件的体积极为庞大的时候。另外,如果是租用的ISP服务器空间,如果没有权限获取日志数据,那么实际上连进行分析的可能性都没有了。

  现在,你完全了解了日志方法收集网站分析数据的优缺点,那么,什么情况下你应该选择这种方法进行网站分析呢?

[!--page.stats—]
希望看到您的想法,请您发表评论x