웹툰 이미지 뽑아내기
- 2. 긁어오는 방법
Gethtml 함수를 통해 보고자 하는 페이
지의 소스를 긁어와 파일로 저장한다.
긁어온 소스를 불러와 extractimgs 함
수를 통해 exp에서 이미지가 있는 부분
을 전부 스캔한다.
스캔한 이미지를 파일로 저장한다.
- 3. 소스 # coding: utf-8
import re, sys
import urllib2
def savewebtoon(titleID, i):
URL =
'http://comic.naver.com/webtoon/detail.nhn?titleId=‘+str(titleID)+’&n
o='+str(i)
htmlfullname = 'game_'+str(i)+'.html'
html = gethtml(URL)
savefile(html, htmlfullname)
f = open(htmlfullname, 'r')
html = f.read()
f.close()
imgs = extractimgs(html)
if len(imgs) == 0:
print >> sys.stderr, "No images!"
filenum = 1
for img in imgs:
URL =
'http://imgcomic.naver.com/webtoon/637931/2/20141015232622_846
0c8c1462a1fca3df61710b8842bfd_IMAG01_'+ str(filenum)+'.jpg'
saveimg(URL,filenum)
filenum+=1
return 0
- 4. def extractimgs(html):
exp = re.compile(r'<img
+src="(http://imgcomic.naver.net/webtoon/
[0-9]+/[0-9]+/.+?.jpg)"')
imgs = exp.findall(html)
return imgs
def savefile(contents, filename):
f = open(filename, 'w')
f.write(contents)
f.close()
return 0
def gethtml(url):
response = urllib2.urlopen(url)
return response.read()
- 5.
def saveimg(URL,filenum):
filename = 'episode'+ str(filenum) + '.jpg'
f = open(filename, 'wb')
response = urllib2.urlopen(URL).read()
f.write(response)
f.close()
return 0
def main():
titleID = 637931
end = 11
for i in range(1,end):
savewebtoon(titleID, i)
return 0
if __name__ == '__main__':
sys.exit(main())