本文目录
下面是一段常见的日志文件格式:
58.69.164.148– – [22/Feb/2010:09:51:46 +0800] “GET / HTTP/1.1″ 206 6326 ” http://www.google.cn/search?q=jiadingqiang.com” “Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)”
可以看到这个日志主要由以下几个部分组成:
访问主机(remotehost)
显示主机的IP地址或者已解析的域名。
标识符(Ident)
由identd或直接由浏览器返回浏览者的EMAIL或其他唯一标示,因为涉及用户邮箱等隐私信息,目前几乎所有的浏览器就取消了这项功能。
授权用户(authuser)
用于记录浏览者进行身份验证时提供的名字,如果需要身份验证或者访问密码保护的信息则这项不为空,但目前大多数网站的日志这项也都是为空的。
日期时间(date)
一般的格式形如[22/Feb/2010:09:51:46 +0800],即[日期/月份/年份:小时:分钟:秒钟 时区],占用的的字符位数也基本固定。
请求(request)
即在网站上通过何种方式获取了哪些信息,也是日志中较为重要的一项,主要包括以下三个部分:
请求类型(METHOD)
常见的请求类型主要包括GET/POST/HEAD这三种;
请求资源(RESOURCE)
显示的是相应资源的URL,可以是某个网页的地址,也可以是网页上调用的图片、动画、CSS等资源;
协议版本号(PROTOCOL)
显示协议及版本信息,通常是HTTP/1.1或HTTP/1.0。
状态码(status)
用于表示服务器的响应状态,通常1xx的状态码表示继续消息;2xx表示请求成功;3xx表示请求的重定向;4xx表示客户端错误;5xx表示服务器错误。
传输字节数(bytes)
即该次请求中一共传输的字节数。
来源页面(referrer)
用于表示浏览者在访问该页面之前所浏览的页面,只有从上一页面链接过来的请求才会有该项输出,如果是新开的页面则该项为空。上例中来源页面是google,即用户从google搜索的结果中点击进入。
用户代理(agent)
用于显示用户的详细信息,包括IP、OS、Bowser等。
而我们经常看到的网站分析的数据一般是页面访问次数,页面停留时间,跳出率,退出率等。这些看似没有关系的数据,其实都是有相关性的,是可以相互计算得到的。
当然,在互相转化计算之前,需要先理清楚日志文件之间的关系,即把日志文件中一行一行的记录转化为一次一次的访问,通过访问主机和页面的referrer信息基本能够做到这一点。
然后,就可以计算每次访问中的各个网站分析的基本数据了。比如,页面停留时间就可以用下一个页面的请求时间减去上一个页面的请求时间。
当然,GA等分析工具并不是通过日志分析得到网站分析的基本数据的,上面提到的计算只是只是一个思路,如果你的网站不适合用GA等分析工具分析的话,可以考虑通过分析日志文件来获得网站的用户行为数据。这个分析的难度应该比较大,现在市面上有很多日志分析软件,可以帮助你进行相关的日志分析。