转过来的,请问下军哥,是不是有这个bug啊,关于日志的
转过来的,请问下军哥,是不是有这个bug啊看光年论坛群这两天老是有人提到在线日志分析系统,顿时兴起打算开一个日志分析项目。不过一开始遇到了一些尴尬的小挫折。
我的测试用日志文件是用这个博客的,平常不会没事分析自己博客,还是第一次拿它的日志。解析日志的时候总感觉非常之不对劲:
xxx.xxx.xxx.xxx - - GET /blog/wp-admin/images/wordpress-logo.png HTTP/1.1 200 2334 http://74.207.254.209/blog/wp-admin/setup-config.php Mozilla/5.0 (Windows NT 6.1) AppleWebKit/535.7 (KHTML, like Gecko) Chrome/16.0.912.63 Safari/535.7 -
引号没了,怎么读取?通常情况下是长这样的:
xxx.xxx.xxx.xxx - - "GET /blog/wp-admin/images/wordpress-logo.png HTTP/1.1" 200 2334 "http://74.207.254.209/blog/wp-admin/setup-config.php" "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/535.7 (KHTML, like Gecko) Chrome/16.0.912.63 Safari/535.7" -
困扰了一小段时间,然后因为同时进行着一些其它项目就暂时丢在一旁。
刚才又想起来去确定了下服务器段的配置,果然是那边出了问题。
最常见的服务器日志,应该是Apache的Combined格式,它和前面所示的后面一段非常接近,都是有引号分隔的。IIS的日志直接用空格分隔。而没有分隔符的话,应该是没法很好的分析了,除非用麻烦死人的一长串正则,而且日志格式稍微一变正则就要跟着变。
我的服务器架构是来自lnmp.org的一键安装包(不过博客没用MySQL和PHP,取而代之的目前是Sqlite与Python),它默认设置是对的,但它有个自动添加虚拟主机的脚本,这里有bug,把日志格式设置少掉了引号,就导致了解析起来的麻烦。
另,解析有分隔符的日志,可以用CSV解析类,它们长的很像所以可以通用。 老版本里存在缺少引号,0.9以后的是不存在的 谢谢军哥谢谢军哥谢谢军哥
页:
[1]