• 목록
  • 아래로
  • 위로

안녕하세요??


미세먼지가 심한데 주말 잘 보내셨는지요?? ^^


페북이나 트위터처럼 태그 속성이 자주 변경되는 사이트의 크롤링에 대해 여쭤봅니다.



BeautifulSoup을 이용하면 태그의 class, id 등을 주로 활용하여 접근하잖아요.


그런데 페북이나 트위터는 의도적으로 이런 속성을 자주 변경하는 것 같더군요.


그렇다고 자체 API에서 이미지나 영상의 다운로드를 지원하는 것 같지는 않던데요 ㄷㄷ



그렇다면 어떻게 이미지나 영상을 포함하는 태그에 접근하는 것이 가장 장기간 안정적일까요??


페북이나 트위터의 이미지를 다운로드하는 프로그램이나 사이트가 있는 것을 보면 뭔가 좋은 방법이 있을 것 같은데요.


BeautifulSoup에서는 지원하지 않지만 XPATH로 접근을 하면 그나마 안정적이려나요??



크롤러를 영리적인 목적으로 이용하려는건 아니고 제 개인적으로 연습해보고 사용하려구요 :)


크롤링 고수님들의 답변을 부탁드립니다!


그럼 굿밤 되세요~! ^-^


작성자
이니스프리 119 Lv. (0%) 1905900/115200000EXP

Make StudyForUs Great Again!

 

CSVpuymXAAAVVpd.jpg

댓글 4

라엘
profile image

큰 범위에서 파싱하고 적절히 필터링 하는 방법이 있겠죠.

태그 속성 바꾸는건는 크롤링, 파싱방지, 광고차단프로그램 방지 용도로 많이 쓰더라구요.

https://m.blog.naver.com/PostView.nhn?blogId=yoyo3299&logNo=220981434571 하지만 유저들이 결국엔 승리한다!

comment menu
2020.03.11. 18:16

신고

"라엘님의 댓글"

이 댓글을 신고 하시겠습니까?

이니스프리 작성자 → 라엘
profile image

오오~ 말씀하신대로 적절히 큰 범위에서 파싱하고 필터링해야겠네요~! ^^

유저들이 결국 승리하기는 하겠지만... 저같은 쪼렙은 힘들듯요~ ㅠㅠ

감사합니다!! 라엘 사마께서도 편안한 저녁 되세요오~

comment menu
2020.03.11. 21:06

신고

"이니스프리님의 댓글"

이 댓글을 신고 하시겠습니까?

title: 황금 서버 (30일)humit
profile image

태그 속성이 바뀌는 이유는 직접 바꾸는 경우도 있겠지만 개발 과정에서 자동으로 css가 업데이트 되기도 합니다.

 

styled-component나 emotion과 같이 javascript 상에서 css를 정의하는 라이브러리를 사용하면 자동으로 클래스 이름을 생성해줍니다.

 

그래서 클래스 이름이 이상한 형태가 아닌 정상적으로 보이는 형태에 대해서만 사용하고 되도록 id와 같이 거의 바뀔 일이 없는 값을 기준으로 차례대로 훑어내려가는 식으로 구현합니다.

comment menu
2020.03.11. 19:14

신고

"humit님의 댓글"

이 댓글을 신고 하시겠습니까?

이니스프리 작성자 → humit
profile image

개발과정에서 자동으로 CSS가 업데이트되는 것이군요 ㅎㄷㄷ

말씀해주신대로 거의 변경되지 않는 값을 기준으로 구현해봐야겠네요!

감사합니다 ^-^ humit 님께서도 좋은 저녁 되세요~

comment menu
2020.03.11. 21:06

신고

"이니스프리님의 댓글"

이 댓글을 신고 하시겠습니까?

권한이 없습니다.
번호 제목 글쓴이 날짜 조회 수
공지 [작업 완료] 설 명절 맞이 서버 업데이트 안내 3 마스터 24.02.11.17:21 719
공지 [중요] 호스팅 만료와 관련하여 일부 수칙이 변경됩니다. 4 마스터 23.01.14.02:23 4391
공지 [필독] 질문하는 방법 17 마스터 18.02.23.03:09 4475
925 계속 사용중이던 네트워크 공유 폴더가 갑자기 액세스 불가라고 뜹니다. 6 image 장윤서 18.06.07.16:55 34342
924 팀뷰어 대체할 원격 제어 프로그램 추천 부탁드립니다 16 이니스프리 17.11.30.15:38 32326
923 엑셀 그래프의 축 간격 조절 문제입니다. 2 image 국내산라이츄 17.08.10.11:06 12495
922 아이폰/아이패드 충전기 발열 관련 질문 드립니다 9 image 이니스프리 19.05.02.22:52 11111
921 에러 523 해결법 4 입체그림 20.02.21.16:48 6705
920 PyQt 실행시 프리징 현상 관련하여 질문 드립니다! ㅠㅠ 3 이니스프리 19.07.06.03:37 6704
919 프린터가 지 맘대로 프린트를 하네요. 3 곰도리푸 18.04.04.18:20 6060
918 윈도우용 메일 클라이언트가 필요합니다. 9 네모 18.01.11.20:15 5867
917 크롬에서 특정 사이트 접속 문제 관련하여 질문 드립니다 9 이니스프리 17.03.27.18:03 5325
916 오라클 클라우드 프리티어 가입이 안 되네요 ㅠㅠ 20 이니스프리 20.06.26.21:31 4843
915 파이썬 에디터로 어떤 것이 좋나요? 14 NoYeah 20.01.08.21:08 4534
914 라떼판다와 라즈베리 파이 중 어느 쪽을 사는 게 나을까요? 9 제르엘 18.10.14.19:25 3835
913 나무 위키의 수익구조는 무엇일까요? 2 NoYeah 18.03.18.15:56 3835
912 파티션 복구 프로그램 TestDisk 잘 아시는 분 계시나요? 29 이니스프리 17.11.10.14:53 3748
911 IE11에서 이미지가 깨지는 현상을 해결할 수 있을까요? 2 이니스프리 19.08.02.00:01 3705
910 파일질라로 연결하니까 보안되지 않은 서버입니다. TLS를 통한 FTP를 지원하지 않습니다. 이렇게떠요 해결방안좀 1 마카오 16.09.11.00:57 3657
909 자바스크립트 FormData와 관련된 메서드의 IE 호환성과 관련하여 질문 드립니다 ^^ 6 image 이니스프리 19.08.05.14:22 3433
908 선택약정 안 되는 중고폰의 경우에는 어떤 단점이 있는 것인가요?? 6 이니스프리 20.01.21.14:30 3103
907 [Requests] multipart/form-data의 전송에 대해 질문 드립니다 ^^ 4 이니스프리 19.12.18.22:00 2987
906 집에서 시놀로지 NAS로 워드프레스나 미디어위키 돌리면 느릴까요? 10 이니스프리 17.01.16.20:56 2982