• 목록
  • 아래로
  • 위로

PHP cURL을 이용하여 페이스북을 크롤링할 때에는 다음과 같은 점을 유의해야 하네요.


1. 


"curl_setopt($ch, CURLOPT_HEADER, 1);" 또는 curl_setopt($ch, CURLOPT_HTTPHEADER, $headers);


이렇게 헤더정보를 보내는 옵션을 꼭 넣어야 하네요.


이걸 넣지 않으면 봇으로 인식해서 브라우저를 업데이트하라는 메시지만 뜨고 크롤링을 막아버리네요 ㅠㅠ


트위터나 인스타는 이런 방식으로 막지 않는데 유독 페북만 막는군요.


다행히 페북도 user-agent 등을 확인해서 봇을 차단하는 것은 아니네요.


참고로 파이썬에서 requests나 urllib을 사용할 때에는 별다른 옵션없이 바로 크롤링이 가능합니다.



2. 


페이스북 사이트는 자바스크립트가 작동되는 브라우저인지 확인을 하는군요 ㄷㄷ


이걸 우회하여 모든 내용에 접근하려면 m.facebook.com 또는 mobile.facebook.com으로 접속해야 되네요.


브라우저에서 자바스크립트를 끄고 바로 페북에 접속하면 막히지만,


모바일 페이지로 접속하면 뚫리는 것을 확인할 수 있어요.


다만 이 방법이 언제까지 가능할지는 모르겠네요.


작성자
이니스프리 119 Lv. (0%) 1934620/115200000EXP

Make StudyForUs Great Again!

 

CSVpuymXAAAVVpd.jpg

댓글 0

권한이 없습니다.
번호 제목 글쓴이 날짜 조회 수
공지 [작업 완료] 설 명절 맞이 서버 업데이트 안내 3 마스터 마스터 24.02.11.17:21 839
공지 [중요] 호스팅 만료와 관련하여 일부 수칙이 변경됩니다. 4 마스터 마스터 23.01.14.02:23 4510
549 [Python] SSL: CERTIFICATE_VERIFY_FAILED에 대한 대처 방법 (2) new 이니스프리 이니스프리 16시간 전21:04 30
548 [KT] 오피스넷 가정 설치 관련 이니스프리 이니스프리 1일 전00:28 31
547 색상선택 결정문제를 겪고 계신 분들 위한 사이트 OAUTH2 20.06.19.18:22 69
546 database 백업 및 복원을 지원하는 site입니다. 해피보이 20.06.03.20:52 77
545 [펌] Chrome will soon be less of a memory hog in Windows 10 3 이니스프리 이니스프리 20.06.24.00:12 82
544 [Python] Tabulate 모듈로 작성한 테이블을 파일로 저장할 때 에러가 발생하는 경우 이니스프리 이니스프리 24.04.20.23:45 86
543 [Python] Ubuntu에서 파이썬이 설치된 디렉토리를 간단히 확인하는 방법 2 이니스프리 이니스프리 20.08.03.22:58 88
542 [Javascript] 값을 이용하여 배열의 요소를 삭제하는 방법 이니스프리 이니스프리 21.04.13.22:10 97
541 [Python] Table을 쉽게 만들어주는 모듈x2 이니스프리 이니스프리 24.04.18.22:04 101
540 [Python] 독일어, 스페인어, 체코어 등 철자를 영문 알파벳으로 전환하기 이니스프리 이니스프리 24.04.21.17:15 101
539 순수 React만으로 다이내믹 태그 네이밍하기 Seia Seia 20.01.20.19:18 104
538 React 그리고 Redux 쉽게 이해하기 image Seia Seia 20.09.12.06:31 104
537 [Python] 문자열에서 파일명 또는 폴더명으로 시스템상 지원되는 글자를 제외하고 삭제하기 이니스프리 이니스프리 20.11.01.14:37 104
536 나리야 익명보드 및 내 글 알림 관련 Q&A image 이니스프리 이니스프리 21.02.14.17:30 107
535 [Python] 크롤링한 bytes를 string으로 변환 이니스프리 이니스프리 21.02.14.15:32 109
534 중국 배대지 휴무 이니스프리 이니스프리 20.01.14.13:01 112
533 [Python] 변수의 이름을 반환하는 함수 이니스프리 이니스프리 24.04.20.23:29 112
532 [Python] 3개의 list를 하나의 dictionary로 변환하기 이니스프리 이니스프리 20.06.10.21:47 114
531 IPVanish의 한국서버가 4개로 확충되었습니다. image 이니스프리 이니스프리 20.01.11.11:27 116
530 헷갈리는 출생지를 가진 인물들 1 이니스프리 이니스프리 20.06.26.21:09 116