이번에는 앞의 예제를 통하여 네이버 웹툰에 업데이트된것들 제목을 긁어보았다.
일단 업데이트 이미지의 테그를 확인하였다.
<em class="ico_updt"></em>
이 테그가 업데이트 이다.
클래스 네임이 ico_updt를 포함하는 thumb클래스의 다음 태그에 제목과 링크가 있어서 그걸 사용하였다.
///////////// 요일 전체에서 받아오는 것
var request = require('request');
var cheerio = require('cheerio');
var url = "http://comic.naver.com/webtoon/weekday.nhn";
request(url, function(err, res, html){
if(!err){
var $ = cheerio.load(html);
$(".thumb").has('.ico_updt').next().each(function() {
var link = $(this);
var text = link.text();
var href = link.attr('href');
console.log(text + ' -> ' + href);
});
}
});
여기서의 문제점은 마음의 소리같은 경우 업데이트 태그가 화요일에도 뜨고 금요일에도 떠서 두개가 나온다는 것이다. 지금 사진에는 금요일에만 나와있지만 밤 11시쯤 확인하였을때는 작품마다 업데이트 아이콘이떠서 데이터가 2개 이상 나왔다.
이를 해결하기 위하여 앞에것들을 확인하고 같은것을 지우는 방법이 있고 날자별로 범위를 좁혀서 찾는 방법이 있을것이다.
지금은 두번째 방법으로 접근해보려고 한다.
'미니 프로젝트 > 나만의 웹툰 목록 만들기' 카테고리의 다른 글
HTML 포맷 만들기 (0) | 2016.02.02 |
---|---|
웹툰 스크래핑 2 (0) | 2016.02.01 |
cheerio, request를 활용한 스크래핑 맛보기 (0) | 2016.01.28 |
JSON 포맷 형식 (0) | 2016.01.28 |
Node.js 설치 (0) | 2016.01.28 |