More Related Content
Similar to Simple tech-talk
Similar to Simple tech-talk (20)
Simple tech-talk
- 2. 没有主题 cdppt-session ls –l cd爬虫,WebCrawler drwxr-xr-x 2 root root 4096 爬虫,Web Crawler drwxr-xr-x 2 root root 4096 Linux drwxr-xr-x 2 root root 4096 Java drwxr-xr-x 2 root root 4096 其他
- 4. 爬虫 礼貌问题 Robots.txt http://zh.wikipedia.org/wiki/Robots.txt 广度优先,Breadth First Search 深度优先,Depth First Search
- 10. 没有主题 ls –l cdLinux drwxr-xr-x 2 root root 4096 爬虫,Web Crawler drwxr-xr-x 2 root root 4096 Linux drwxr-xr-x 2 root root 4096 Java drwxr-xr-x 2 root root 4096 其他
- 16. shell 输入输出重定向,管道 grep tail –f –n ps –ef/-aux top []/[[]]/for/if/while/do/done/then… sed/awk perl –nle 文档:http://10.0.93.16/abs-3.9.1/
- 18. 没有主题 ls –l cdJava drwxr-xr-x 2 root root 4096 爬虫,Web Crawler drwxr-xr-x 2 root root 4096 Linux drwxr-xr-x 2 root root 4096 Java drwxr-xr-x 2 root root 4096 其他
- 22. 框架 JavaJDK类库 Collection框架 java.util.concurrent框架 Stream体系 使用开源框架: Spring , struts2 iBatis, hibernate Log4j, Jetty, HtmlCleaner, quartz
- 23. 日志 ×System.out.println(msg) √ Logger.info(msg) 查看程序运行历史记录。中文?英文? 推荐log4j,功能完善,资料丰富 单行模式,视觉块 行号一定要有 多线程环境下,一定要有%t选项 Log4j.logger.com.xxx=debug,stdout,logfile log4j.additivity.com.xxx=false
- 24. 没有主题 ls –l cd其他 drwxr-xr-x 2 root root 4096 爬虫,Web Crawler drwxr-xr-x 2 root root 4096 Linux drwxr-xr-x 2 root root 4096 Java drwxr-xr-x 2 root root 4096 其他
- 26. 方向与速度 SB & NB 实例:爬虫里的Link Extract和Page Analyse
- 27. 问题的本质 抽象 具体 任务分解,一个大任务 多个小任务 解决任务的途径,不止一种 任何时刻明确大任务是神马,这是本质 实例:下载网页,HtmlCleaner 问题的实质:一个正确的TagNode对象 而非:一个返回正确Charset的方法
- 29. HTTP一点点 HTTP URL组成 http://www.google.com:80/search?q=http+url#tag $protocol//$host$pathname$search$hash $host => $hostname:$port Search queryString 可以用Javascript查看:location.xxx Status codes