SlideShare a Scribd company logo
1 of 11
日志分析方法
   日志在 SEO 中的作用
   Cygwin 的安装
   Linux 下日志分析基本命令
   grep 过滤 方法
   AWK 的基本用法
   A&G 组 合过滤
   全站日志分析 AWK 脚本
   频 道细节 日志分析
   日志分析 SEO 扩 展
日志在 SEO 中的作
     用
 监控蜘蛛的抓取数量
 监控状态码的异常
 监控重复的抓取率
 监控蜘蛛的载入耗时
 持续监控 , 持续改善 .
 提高有效抓取 , 推动收录 .
 日志数据间接指导 , 提升效果 , 微调微调
  .
Cygwin 安装
 下载     http://cygwin.com/setup.exe


 安装教程
  http://wenku.baidu.com/view/45a0ea21ccbff121dd36
  830e.html

 检查 awk 及 grep 版本 确保安装正确
 awk –V                    grep –V

Linux 下日志分析基本命令
常用 Linux 命令锦 集
     文件操作:
     rm go.tar    /* 删除 go.tar 文件 */
     find mt.cgi /* 查找文件名为 mt.cgi 的文件 */

     详情请看以下链接

     http://www.vpser.net/build/linux-vps-ssh-command.html

日志分析常用命令
 • ls          // 列出当前目录所有文件
 • cd         // 打开目录
 • cd ..     // 返回上级目录
 • cd /e/log // 打开具体路径
 • mkdir     // 建立目录
 • mkdir log // 建立 log 目录
grep 过滤 方法
  命令详 解
        grep ‘Baiduspider+’ log.log >baidu.log           输出文件名 baidu.log

匹配日志包含                      要过滤的日志文件         重定向命令 > 输出
Baiduspider+ 所有的行




  组 合过滤                                                      输出文件名 spider.txt
     egrep "Baiduspider+|Googlebot" example.log >spider.txt


 匹配日志包含                           要过滤的日志文件             重定向命令 > 输出
 Baiduspider+ 及 Googlebot
 所有的行
 并用 管道 链接 |
AWK 的基本用法

 AWK 是以特定分隔符来定义 字段区位
       如图: 220.181.7.61 是字段区位第一位 用 $1 表示
          awk 在 linux 下一般以空格为分隔符
          - 即空格分割后也为一个字段区位,如图为 $3 $4 $11

 基本用法
        awk '{print $1}' log.log >s1.log

'{print $1}' 打印所有字段区位 1 的行
‘{print $1,$6,$7}’ 打印 1 6 7 字段区位
AWK 的基本用法 - 区位匹配过滤
 awk 脚本是由模式和操作组 成的
       如 $ awk '/root/' test ,或 $ awk '$3 < 100' test

 匹配操作符 (~) 用来在记录 或者域内匹配正则 表达 式
     如 $ awk '$1 ~/^root/' test 将显示 test 文件第一列中以 root 开头的行。

 EXP:
awk ‘($13 ~ /302/)’log.log // 如果 13 位是状态码,那么就过滤 13 位所有 302 的行

同样的方法可以获得 404 500 503 的状态码行数 .

 利用管道可以获 得更多的参数

awk ‘($13 ~ /302/)’log.log | awk '{print $2,$5,$6,$10,$12}' >xxx.txt

先过滤 302 所有的行 然后利用管道 | 去执行下一个命令输出跟多的参数至 xxx.txt
A&G 组 合过滤
   获 得百度蜘蛛返回 404 的行
                 1. 先过滤 百度蜘蛛                             grep ‘Baiduspider’ log.log
                 2. 匹配所有 404 的行 .                        awk ‘($13 ~ /302/)’
                 3. 获 得更多的参考参数                           awk '{print $2,$5,$6,$10,$12}‘
                 4. 输 出文件                              >Baiduspider404.log



    组 合命令 - 利用管道 | 连 接
        grep ‘Baiduspider’ log.log | awk ‘($13 ~ /302/)’ | awk '{print$2,$5,$6,$10,$12}‘ >Baiduspider404.log



 Exp
获 取百度蜘蛛 500
grep ‘Baiduspider’ log.log | awk ‘($13 ~ /500/)’ | awk '{print$2,$5,$6,$10,$12}‘ >Baiduspider404.log

获 取谷歌蜘蛛 302
grep ‘Googlebot’ log.log | awk ‘($13 ~ /302/)’ | awk '{print$2,$5,$6,$10,$12}‘ >Googlebot404.log

获 取百度和谷歌蜘蛛 500
egrep ‘Baiduspider|Googlebot’ log.log | awk ‘($13 ~ /500/)’ | awk '{print$2,$5,$6,$10,$12}‘ >BG404.log
全站日志分析 AWK 脚本
 Spider.awk 区位修改

 把 spider.awk 放到日志目录下

 找出 URL 及状态码位置
 URL 动态的情况


 修改区位


 全站日志分析
awk –f spider.awk xx.log >xx.txt

 Cygwin 里执行命令
awk -f spider.awk ex120607.log >0607.txt


 获得结果填表入库
频 道细节 日志分析
 过滤频道特诊 URL
如目录 $ grep '/news/' ex120607.log | awk -f spider.awk


grep ‘/news/’ // 正则匹配 news 目录

管道 |                // 给 spider.awk 分析

awk –f spider.awk    // 执行拆分

grep ‘xxoo’ xxx.log |awk –f spider.awk

利用好 grep 正则匹配,也可用 awk 的正则区位匹配
 来获取目录或则特征 URL 的抓取情况

获得数据结果填入 excel

对比数据 , 持续监控并改善 .
日志分析 SEO 扩 展
某个蜘蛛的载入耗时
grep Baiduspider log.log | awk '{sum+=$NF} END {print " 平均下载耗时 =", sum/NR}'




数据与报表监控
日期 , 状态码 , 重复抓取 ,SEO 项目记录

More Related Content

What's hot

Osc scott linux下的数据库优化for_postgresql
Osc scott linux下的数据库优化for_postgresqlOsc scott linux下的数据库优化for_postgresql
Osc scott linux下的数据库优化for_postgresqlOpenSourceCamp
 
Web scraping入門1
Web scraping入門1Web scraping入門1
Web scraping入門1兆欽 丘
 
中纺科技安装实施文档
中纺科技安装实施文档中纺科技安装实施文档
中纺科技安装实施文档liangsuilong
 
为10g rac cluster添加节点
为10g rac cluster添加节点为10g rac cluster添加节点
为10g rac cluster添加节点maclean liu
 
Monitor is all for ops
Monitor is all for opsMonitor is all for ops
Monitor is all for ops琛琳 饶
 
How to Use Git?
How to Use Git?How to Use Git?
How to Use Git?newegg
 
Drupal solr
Drupal solrDrupal solr
Drupal solrHen Chen
 
Oda安装 恢复步骤
Oda安装 恢复步骤Oda安装 恢复步骤
Oda安装 恢复步骤n-lauren
 
Effective linux.2.(tools)
Effective linux.2.(tools)Effective linux.2.(tools)
Effective linux.2.(tools)wang hongjiang
 
Oraliux+mysql5单机多实例安装文档
Oraliux+mysql5单机多实例安装文档Oraliux+mysql5单机多实例安装文档
Oraliux+mysql5单机多实例安装文档xuebao_zx
 
Sublime 外掛安裝教學
Sublime 外掛安裝教學Sublime 外掛安裝教學
Sublime 外掛安裝教學蘇姵欣 PeiSu
 
Python包管理工具介绍
Python包管理工具介绍Python包管理工具介绍
Python包管理工具介绍Young King
 
浮云脱水小说站的搭建
浮云脱水小说站的搭建浮云脱水小说站的搭建
浮云脱水小说站的搭建jondynet
 
Mysql 高级优化之 理解查询执行
Mysql 高级优化之 理解查询执行Mysql 高级优化之 理解查询执行
Mysql 高级优化之 理解查询执行nigel889
 
Mysql 高级优化之 逻辑处理
Mysql 高级优化之 逻辑处理Mysql 高级优化之 逻辑处理
Mysql 高级优化之 逻辑处理nigel889
 
手机腾讯网Js资源版本增量更新方案w3ctech
手机腾讯网Js资源版本增量更新方案w3ctech 手机腾讯网Js资源版本增量更新方案w3ctech
手机腾讯网Js资源版本增量更新方案w3ctech luyongfugx
 

What's hot (20)

Osc scott linux下的数据库优化for_postgresql
Osc scott linux下的数据库优化for_postgresqlOsc scott linux下的数据库优化for_postgresql
Osc scott linux下的数据库优化for_postgresql
 
Windbg入门
Windbg入门Windbg入门
Windbg入门
 
Web scraping入門1
Web scraping入門1Web scraping入門1
Web scraping入門1
 
Zoo keeper
Zoo keeperZoo keeper
Zoo keeper
 
中纺科技安装实施文档
中纺科技安装实施文档中纺科技安装实施文档
中纺科技安装实施文档
 
为10g rac cluster添加节点
为10g rac cluster添加节点为10g rac cluster添加节点
为10g rac cluster添加节点
 
Monitor is all for ops
Monitor is all for opsMonitor is all for ops
Monitor is all for ops
 
How to Use Git?
How to Use Git?How to Use Git?
How to Use Git?
 
Drupal solr
Drupal solrDrupal solr
Drupal solr
 
Oda安装 恢复步骤
Oda安装 恢复步骤Oda安装 恢复步骤
Oda安装 恢复步骤
 
Effective linux.2.(tools)
Effective linux.2.(tools)Effective linux.2.(tools)
Effective linux.2.(tools)
 
MySQL aio
MySQL aioMySQL aio
MySQL aio
 
Oraliux+mysql5单机多实例安装文档
Oraliux+mysql5单机多实例安装文档Oraliux+mysql5单机多实例安装文档
Oraliux+mysql5单机多实例安装文档
 
Sublime 外掛安裝教學
Sublime 外掛安裝教學Sublime 外掛安裝教學
Sublime 外掛安裝教學
 
Python包管理工具介绍
Python包管理工具介绍Python包管理工具介绍
Python包管理工具介绍
 
浮云脱水小说站的搭建
浮云脱水小说站的搭建浮云脱水小说站的搭建
浮云脱水小说站的搭建
 
Mysql 高级优化之 理解查询执行
Mysql 高级优化之 理解查询执行Mysql 高级优化之 理解查询执行
Mysql 高级优化之 理解查询执行
 
Mysql 高级优化之 逻辑处理
Mysql 高级优化之 逻辑处理Mysql 高级优化之 逻辑处理
Mysql 高级优化之 逻辑处理
 
善用工具
善用工具善用工具
善用工具
 
手机腾讯网Js资源版本增量更新方案w3ctech
手机腾讯网Js资源版本增量更新方案w3ctech 手机腾讯网Js资源版本增量更新方案w3ctech
手机腾讯网Js资源版本增量更新方案w3ctech
 

Similar to Log analytics

Elastic stack day-2
Elastic stack day-2Elastic stack day-2
Elastic stack day-2YI-CHING WU
 
Lucene 全文检索实践
Lucene 全文检索实践Lucene 全文检索实践
Lucene 全文检索实践yiditushe
 
Huangjing renren
Huangjing renrenHuangjing renren
Huangjing renrend0nn9n
 
Install Oracle11g For Aix 5 L
Install Oracle11g For Aix 5 LInstall Oracle11g For Aix 5 L
Install Oracle11g For Aix 5 Lheima911
 
数据库性能诊断的七种武器
数据库性能诊断的七种武器数据库性能诊断的七种武器
数据库性能诊断的七种武器Leyi (Kamus) Zhang
 
配置Oracle 10g 双向流复制
配置Oracle 10g 双向流复制配置Oracle 10g 双向流复制
配置Oracle 10g 双向流复制maclean liu
 
Avm2虚拟机浅析与as3性能优化(陈士凯)
Avm2虚拟机浅析与as3性能优化(陈士凯)Avm2虚拟机浅析与as3性能优化(陈士凯)
Avm2虚拟机浅析与as3性能优化(陈士凯)FLASH开发者交流会
 
[Flash开发者交流][2010.05.30]avm2虚拟机浅析与as3性能优化(陈士凯)
[Flash开发者交流][2010.05.30]avm2虚拟机浅析与as3性能优化(陈士凯)[Flash开发者交流][2010.05.30]avm2虚拟机浅析与as3性能优化(陈士凯)
[Flash开发者交流][2010.05.30]avm2虚拟机浅析与as3性能优化(陈士凯)Shanda innovation institute
 
IoTDB Quick Start
IoTDB Quick StartIoTDB Quick Start
IoTDB Quick StartJialinQiao
 
Performance Monitoring With AOP
Performance Monitoring With AOPPerformance Monitoring With AOP
Performance Monitoring With AOPivannotes
 
Mongodb
MongodbMongodb
Mongodbbj
 
高性能远程调用解决方案
高性能远程调用解决方案高性能远程调用解决方案
高性能远程调用解决方案Ady Liu
 
Spring 2.x 中文
Spring 2.x 中文Spring 2.x 中文
Spring 2.x 中文Guo Albert
 
人人网技术架构的演进
人人网技术架构的演进人人网技术架构的演进
人人网技术架构的演进Laobiao Li
 
基于Lucene的站内搜索
基于Lucene的站内搜索基于Lucene的站内搜索
基于Lucene的站内搜索fulin tang
 
基于Lucene的站内搜索
基于Lucene的站内搜索基于Lucene的站内搜索
基于Lucene的站内搜索fulin tang
 
[系列活動] 手把手教你R語言資料分析實務
[系列活動] 手把手教你R語言資料分析實務[系列活動] 手把手教你R語言資料分析實務
[系列活動] 手把手教你R語言資料分析實務台灣資料科學年會
 
Practical data analysis in R: from data collection to data insight
Practical data analysis in R: from data collection to data insight Practical data analysis in R: from data collection to data insight
Practical data analysis in R: from data collection to data insight Chun-Min Chang
 
Practical Data Analysis in R
Practical Data Analysis in RPractical Data Analysis in R
Practical Data Analysis in RChun-Ming Chang
 

Similar to Log analytics (20)

Elastic stack day-2
Elastic stack day-2Elastic stack day-2
Elastic stack day-2
 
Lucene 全文检索实践
Lucene 全文检索实践Lucene 全文检索实践
Lucene 全文检索实践
 
Huangjing renren
Huangjing renrenHuangjing renren
Huangjing renren
 
Install Oracle11g For Aix 5 L
Install Oracle11g For Aix 5 LInstall Oracle11g For Aix 5 L
Install Oracle11g For Aix 5 L
 
数据库性能诊断的七种武器
数据库性能诊断的七种武器数据库性能诊断的七种武器
数据库性能诊断的七种武器
 
配置Oracle 10g 双向流复制
配置Oracle 10g 双向流复制配置Oracle 10g 双向流复制
配置Oracle 10g 双向流复制
 
Avm2虚拟机浅析与as3性能优化(陈士凯)
Avm2虚拟机浅析与as3性能优化(陈士凯)Avm2虚拟机浅析与as3性能优化(陈士凯)
Avm2虚拟机浅析与as3性能优化(陈士凯)
 
[Flash开发者交流][2010.05.30]avm2虚拟机浅析与as3性能优化(陈士凯)
[Flash开发者交流][2010.05.30]avm2虚拟机浅析与as3性能优化(陈士凯)[Flash开发者交流][2010.05.30]avm2虚拟机浅析与as3性能优化(陈士凯)
[Flash开发者交流][2010.05.30]avm2虚拟机浅析与as3性能优化(陈士凯)
 
IoTDB Quick Start
IoTDB Quick StartIoTDB Quick Start
IoTDB Quick Start
 
Performance Monitoring With AOP
Performance Monitoring With AOPPerformance Monitoring With AOP
Performance Monitoring With AOP
 
Mongodb
MongodbMongodb
Mongodb
 
高性能远程调用解决方案
高性能远程调用解决方案高性能远程调用解决方案
高性能远程调用解决方案
 
Spring 2.x 中文
Spring 2.x 中文Spring 2.x 中文
Spring 2.x 中文
 
Asm+aix
Asm+aixAsm+aix
Asm+aix
 
人人网技术架构的演进
人人网技术架构的演进人人网技术架构的演进
人人网技术架构的演进
 
基于Lucene的站内搜索
基于Lucene的站内搜索基于Lucene的站内搜索
基于Lucene的站内搜索
 
基于Lucene的站内搜索
基于Lucene的站内搜索基于Lucene的站内搜索
基于Lucene的站内搜索
 
[系列活動] 手把手教你R語言資料分析實務
[系列活動] 手把手教你R語言資料分析實務[系列活動] 手把手教你R語言資料分析實務
[系列活動] 手把手教你R語言資料分析實務
 
Practical data analysis in R: from data collection to data insight
Practical data analysis in R: from data collection to data insight Practical data analysis in R: from data collection to data insight
Practical data analysis in R: from data collection to data insight
 
Practical Data Analysis in R
Practical Data Analysis in RPractical Data Analysis in R
Practical Data Analysis in R
 

Log analytics

  • 1. 日志分析方法  日志在 SEO 中的作用  Cygwin 的安装  Linux 下日志分析基本命令  grep 过滤 方法  AWK 的基本用法  A&G 组 合过滤  全站日志分析 AWK 脚本  频 道细节 日志分析  日志分析 SEO 扩 展
  • 2. 日志在 SEO 中的作 用  监控蜘蛛的抓取数量  监控状态码的异常  监控重复的抓取率  监控蜘蛛的载入耗时  持续监控 , 持续改善 .  提高有效抓取 , 推动收录 .  日志数据间接指导 , 提升效果 , 微调微调 .
  • 3. Cygwin 安装  下载 http://cygwin.com/setup.exe  安装教程 http://wenku.baidu.com/view/45a0ea21ccbff121dd36 830e.html  检查 awk 及 grep 版本 确保安装正确  awk –V grep –V 
  • 4. Linux 下日志分析基本命令 常用 Linux 命令锦 集 文件操作: rm go.tar /* 删除 go.tar 文件 */ find mt.cgi /* 查找文件名为 mt.cgi 的文件 */ 详情请看以下链接 http://www.vpser.net/build/linux-vps-ssh-command.html 日志分析常用命令 • ls // 列出当前目录所有文件 • cd // 打开目录 • cd .. // 返回上级目录 • cd /e/log // 打开具体路径 • mkdir // 建立目录 • mkdir log // 建立 log 目录
  • 5. grep 过滤 方法  命令详 解 grep ‘Baiduspider+’ log.log >baidu.log 输出文件名 baidu.log 匹配日志包含 要过滤的日志文件 重定向命令 > 输出 Baiduspider+ 所有的行  组 合过滤 输出文件名 spider.txt egrep "Baiduspider+|Googlebot" example.log >spider.txt 匹配日志包含 要过滤的日志文件 重定向命令 > 输出 Baiduspider+ 及 Googlebot 所有的行 并用 管道 链接 |
  • 6. AWK 的基本用法  AWK 是以特定分隔符来定义 字段区位 如图: 220.181.7.61 是字段区位第一位 用 $1 表示 awk 在 linux 下一般以空格为分隔符 - 即空格分割后也为一个字段区位,如图为 $3 $4 $11  基本用法 awk '{print $1}' log.log >s1.log '{print $1}' 打印所有字段区位 1 的行 ‘{print $1,$6,$7}’ 打印 1 6 7 字段区位
  • 7. AWK 的基本用法 - 区位匹配过滤  awk 脚本是由模式和操作组 成的 如 $ awk '/root/' test ,或 $ awk '$3 < 100' test  匹配操作符 (~) 用来在记录 或者域内匹配正则 表达 式 如 $ awk '$1 ~/^root/' test 将显示 test 文件第一列中以 root 开头的行。  EXP: awk ‘($13 ~ /302/)’log.log // 如果 13 位是状态码,那么就过滤 13 位所有 302 的行 同样的方法可以获得 404 500 503 的状态码行数 .  利用管道可以获 得更多的参数 awk ‘($13 ~ /302/)’log.log | awk '{print $2,$5,$6,$10,$12}' >xxx.txt 先过滤 302 所有的行 然后利用管道 | 去执行下一个命令输出跟多的参数至 xxx.txt
  • 8. A&G 组 合过滤  获 得百度蜘蛛返回 404 的行 1. 先过滤 百度蜘蛛 grep ‘Baiduspider’ log.log 2. 匹配所有 404 的行 . awk ‘($13 ~ /302/)’ 3. 获 得更多的参考参数 awk '{print $2,$5,$6,$10,$12}‘ 4. 输 出文件 >Baiduspider404.log  组 合命令 - 利用管道 | 连 接 grep ‘Baiduspider’ log.log | awk ‘($13 ~ /302/)’ | awk '{print$2,$5,$6,$10,$12}‘ >Baiduspider404.log  Exp 获 取百度蜘蛛 500 grep ‘Baiduspider’ log.log | awk ‘($13 ~ /500/)’ | awk '{print$2,$5,$6,$10,$12}‘ >Baiduspider404.log 获 取谷歌蜘蛛 302 grep ‘Googlebot’ log.log | awk ‘($13 ~ /302/)’ | awk '{print$2,$5,$6,$10,$12}‘ >Googlebot404.log 获 取百度和谷歌蜘蛛 500 egrep ‘Baiduspider|Googlebot’ log.log | awk ‘($13 ~ /500/)’ | awk '{print$2,$5,$6,$10,$12}‘ >BG404.log
  • 9. 全站日志分析 AWK 脚本  Spider.awk 区位修改  把 spider.awk 放到日志目录下  找出 URL 及状态码位置  URL 动态的情况  修改区位  全站日志分析 awk –f spider.awk xx.log >xx.txt  Cygwin 里执行命令 awk -f spider.awk ex120607.log >0607.txt  获得结果填表入库
  • 10. 频 道细节 日志分析  过滤频道特诊 URL 如目录 $ grep '/news/' ex120607.log | awk -f spider.awk grep ‘/news/’ // 正则匹配 news 目录 管道 | // 给 spider.awk 分析 awk –f spider.awk // 执行拆分 grep ‘xxoo’ xxx.log |awk –f spider.awk 利用好 grep 正则匹配,也可用 awk 的正则区位匹配 来获取目录或则特征 URL 的抓取情况 获得数据结果填入 excel 对比数据 , 持续监控并改善 .
  • 11. 日志分析 SEO 扩 展 某个蜘蛛的载入耗时 grep Baiduspider log.log | awk '{sum+=$NF} END {print " 平均下载耗时 =", sum/NR}' 数据与报表监控 日期 , 状态码 , 重复抓取 ,SEO 项目记录