- 0
- 이니스프리
- 조회 수 362
1 2 3 | rsp = s.get(url, headers = headers).text removed = rsp.split( '\n' , 1 )[ - 1 ] # 첫번째 줄을 제거합니다. json_removed = json.loads(removed) |
네이버 블로그 크롤링할 때 PostList.nhn을 requests로 get할 때 관련된 팁입니다.
1. 헤더를 확인하니 잘 넣어야 합니다.
2. .text로 받아야 합니다. .content는 안 됩니다.
3. get으로 받으면 첫번째 행은 더미 텍스트가 들어가 있습니다.
아마도 JSON 파싱을 바로 못 하게 하려는 취지로 삽입한 것으로 추측됩니다.
이걸 제거해야 JSON 파싱이 가능합니다.
작성자
댓글 0
권한이 없습니다.