• 목록
  • 아래로
  • 위로

안녕하세요?


밖에 비가 많이 오는데 비 피해는 없으신지요?


다름이 아니라 제가 동문회 홈페이지를 만드는 과정에서 


싸이월드 미니홈피에 있는 선배님들의 사진을 동문회 홈페이지로 퍼오면 좋겠다는 아이디어가 떠올랐고

(정확히 말씀드리면 미니홈피를 동아리 홈페이지 및 갤러리로 사용한 경우도 포함합니다)


이에 대해 동의를 구한 선배님들의 미니홈피에 한하여 이미지를 스크레이핑하게 되었네요 ^^



그래서 이미지를 파이썬이나 PHP로 스크레이핑 하려고 했는데 난관에 부딪혔네요 ㅠㅠ


공인인 박주영 선수의 미니홈피를 예를 들어서 설명드릴게요.


https://cy.cyworld.com/home/25270125


하단에 있는 '더보기'를 클릭하면 크롬 개발자도구에서 다음과 같은 XHR 내역을 확인할 수 있더군요.





https://cy.cyworld.com/home/25270125/posts?folderid=&tagname=&lastid=42BED574D40003032EDA6401&lastdate=1119802740166&listsize=20&homeId=25270125&airepageno=0&airecase=D&airelastdate=&searchType=R&search=&_=1564156791808



그런데 이걸 새 탭에서 열어서 내용을 확인하려고 하면 페이지를 찾을 수 없다는 에러메시지 창이 뜨더군요 ㅠㅠ


뭔가 의심이 되는 파라미터를 변경하기 위해 airepageno의 값을 더 큰 수로 입력을 해도 마찬가지로 에러가 뜨네요.


제 생각에 일단 리퍼러의 문제는 아닌 것 같은데요.



이 부분에서 막혀서 진척이 없는데 조금만 힌트를 주시면 감사하겠습니다!


github에는 싸이월드 클럽에 대한 크롤러만 있고, 미니홈피에 대한 크롤러는 없네요 ㅠㅠ


물론 selenium을 사용하면 스크레이핑이 가능하겠지만 퍼올 이미지는 많은데 속도가 어마무시하게 느려질 것 같아서요 ㅜㅜ


그럼 편안한 밤 되시고 즐거운 주말 되세요 ^-^


스포어 회원님들께 항상 감사드립니다!


작성자
이니스프리 119 Lv. (1%) 2588020/115200000EXP

Make StudyForUs Great Again!

 

CSVpuymXAAAVVpd.jpg

댓글 3

title: 황금 서버 (30일)humit
profile image

테스트를 해보니 이 경우는 약간 특이한 케이스로 보이네요 ㅋㅋㅋㅋ


보통은 Referer 쪽만 조작하거나 쿠키 쪽을 업데이트해주면 제대로 동작하는데 이 경우에는 Accept 부분으로 체크하는 것으로 보입니다.


아래는 파이썬 스크립트입니다.


import requests

url = 'https://cy.cyworld.com/home/25270125/posts?listsize=20&homeId=25270125&searchType=&search=&_=1564226370813'
req = requests.get(url, headers={'Accept': 'application/json, text/javascript, */*; q=0.01'}, verify=False)

print(req.content.decode())



간단하게 필요한 부분만 적었습니다.


URL로 직접 접속했을 때는 Accept 부분이 text/html 로 되기 때문에 이를 통해서 걸러낸다고 보시면 됩니다.

comment menu
2019.07.27. 20:29

신고

"humit님의 댓글"

이 댓글을 신고 하시겠습니까?

title: 황금 서버 (30일)humit → humit
profile image

참고로 verify 부분의 경우 제 네트워크 설정 때문에 그런지 모르겠지만 SSL 에러가 발생해서 임시로 False로 설정해놓았습니다.

일단 해당 부분을 없이 했을 때 오류가 발생하지 않는다면 그대로 사용하시면 되고, 에러가 발생하면 False로 설정하면 되겠습니다.

comment menu
2019.07.27. 20:31

신고

"humit님의 댓글"

이 댓글을 신고 하시겠습니까?

이니스프리 작성자 → humit
profile image
+1

바쁘신데 정말 감사합니다!

제가 초보라서 그런지 Accept를 체크하는 경우는 처음 보네요 ㅎㄷㄷ

역시 이건 저 혼자 끙끙거리며 고민한다고 해결할 수 있는 문제가 아니었군요!

스포어에 여쭤보길 잘 했네요 ^^

말씀하신 SSL 에러와 관련해서 verify 옵션을 True로 설정하면 에러가 발생하고

False로 설정하면 Unverified HTTPS requests와 관련된 Insecure request warning이 뜨긴 하지만 다행히 크롤링은 되네요!

 

humit 님 덕분에 웹과 스크레이핑에 대해 많이 배우네요 ^^

저번에 말씀해주신 Dropbox API와 관련된 팁도 이번주에 이것저것 다뤄보면서 공부했네요.

피상적인 수준에서 배우고 있지만 컴퓨터 공학은 제 전공분야보다 훨씬 심오한 세계인 것 같아요 ㄷㄷ

그럼 humit 님께서도 비 조심하시고 즐거운 주말 되세요!

항상 감사드립니다!!

comment menu
2019.07.27. 21:44

신고

"이니스프리님의 댓글"

이 댓글을 신고 하시겠습니까?

권한이 없습니다.
번호 제목 글쓴이 날짜 조회 수
공지 [1차 해결 및 추가] 서버 접속 불가 문제 안내 12 마스터 24.06.20.15:22 550
공지 [작업 완료] 설 명절 맞이 서버 업데이트 안내 3 마스터 24.02.11.17:21 2557
공지 [중요] 호스팅 만료와 관련하여 일부 수칙이 변경됩니다. 4 마스터 23.01.14.02:23 6243
공지 [필독] 질문하는 방법 17 마스터 18.02.23.03:09 4642
346 노트북 발열 문제를 잘 잡는 분 계실까요? 6 이니스프리 19.12.04.19:04 235
345 (해결함) 사이트주소표시및 SSL 관련 질문 드립니다.(XE CMS사용) 3 image 자뻑보이 18.05.28.18:58 235
344 호스팅 Expert 1GB 신청 후 모르겠네요 2 변익수 18.03.23.00:32 235
343 UnofficialNamuMirror 사용법 3 맛수타 17.11.02.06:19 235
342 외부 접속가능한 db프로그램 문의 4 슬기 20.05.05.21:41 234
341 아이콘 구매와 활용법에 대한 질문 10 해피보이 20.04.02.18:04 234
340 [미디어위키] 시각편집기 no vrs 260578 19.09.03.19:49 234
339 파이썬 개발환경을 어떻게 세팅하는 것이 효율적인가요? 5 이니스프리 18.09.08.10:28 234
338 Hostinger 도메인에 스포어 연결 방법 2 260578 17.11.29.16:55 234
337 이클립스에 문제가 좀 있습니다. 1 국내산라이츄 17.07.26.12:05 234
336 방법좀알려주세여 ㅠ.ㅠ 1 JhgKo 17.06.29.16:26 234
335 태블릿을 컴퓨터 키보드로 사용할 수 있는 앱 추천 부탁드립니다. 이니스프리 19.03.29.18:31 233
334 vmware esxi 환경에서 xpenology 를 운영하시는 회원님 계신가요 ? 2 image xnview 18.08.05.00:43 233
333 헉!!!! 3 맛수타 17.07.27.07:08 233
332 워드프레스 웹폰트가 죄다 깨졌습니다. 8 image 국내산라이츄 24.03.15.22:31 232
331 미디어위키 하단에 똑같은 텍스트가 나오게 할 수 있는 방법이 있을까요?? 3 은하수 22.12.11.18:02 232
330 모바일과 윈도우에서 잘 작동하는 note taking 앱이 있을까요? 6 이니스프리 21.03.28.22:58 232
329 안녕하세요ㅠㅠ 위키 URL 리다이렉션 관련 질문입니다 1 김광현 20.03.26.16:33 232
328 스포어에서 허용하는 이미지 업로드 확장자 및 ios에서의 input 태그 줌과 관련하여 여쭤봅니다 2 이니스프리 19.08.27.23:04 232
327 무료 아이콘 사이트 추천 부탁드려요 ^^ 4 이니스프리 19.07.09.20:15 232