목록
아래로
위로

페북이나 트위터처럼 태그 속성이 자주 변경되는 사이트의 크롤링은 어떻게 해야 될까요??

4
이니스프리
2020.03.09. 00:27
조회 수 826

안녕하세요??

미세먼지가 심한데 주말 잘 보내셨는지요?? ^^

페북이나 트위터처럼 태그 속성이 자주 변경되는 사이트의 크롤링에 대해 여쭤봅니다.

BeautifulSoup을 이용하면 태그의 class, id 등을 주로 활용하여 접근하잖아요.

그런데 페북이나 트위터는 의도적으로 이런 속성을 자주 변경하는 것 같더군요.

그렇다고 자체 API에서 이미지나 영상의 다운로드를 지원하는 것 같지는 않던데요 ㄷㄷ

그렇다면 어떻게 이미지나 영상을 포함하는 태그에 접근하는 것이 가장 장기간 안정적일까요??

페북이나 트위터의 이미지를 다운로드하는 프로그램이나 사이트가 있는 것을 보면 뭔가 좋은 방법이 있을 것 같은데요.

BeautifulSoup에서는 지원하지 않지만 XPATH로 접근을 하면 그나마 안정적이려나요??

크롤러를 영리적인 목적으로 이용하려는건 아니고 제 개인적으로 연습해보고 사용하려구요 :)

크롤링 고수님들의 답변을 부탁드립니다!

그럼 굿밤 되세요~! ^-^

작성자

이니스프리 119 Lv. (3%) 4874930/115200000EXP

Make StudyForUs Great Again!

라엘

큰 범위에서 파싱하고 적절히 필터링 하는 방법이 있겠죠.

태그 속성 바꾸는건는 크롤링, 파싱방지, 광고차단프로그램 방지 용도로 많이 쓰더라구요.

https://m.blog.naver.com/PostView.nhn?blogId=yoyo3299&logNo=220981434571 하지만 유저들이 결국엔 승리한다!

2020.03.11. 18:16

"라엘님의 댓글"

이 댓글을 신고 하시겠습니까?

이니스프리 작성자 → 라엘

오오~ 말씀하신대로 적절히 큰 범위에서 파싱하고 필터링해야겠네요~! ^^

유저들이 결국 승리하기는 하겠지만... 저같은 쪼렙은 힘들듯요~ ㅠㅠ

감사합니다!! 라엘 사마께서도 편안한 저녁 되세요오~

2020.03.11. 21:06

"이니스프리님의 댓글"

이 댓글을 신고 하시겠습니까?

humit

태그 속성이 바뀌는 이유는 직접 바꾸는 경우도 있겠지만 개발 과정에서 자동으로 css가 업데이트 되기도 합니다.

styled-component나 emotion과 같이 javascript 상에서 css를 정의하는 라이브러리를 사용하면 자동으로 클래스 이름을 생성해줍니다.

그래서 클래스 이름이 이상한 형태가 아닌 정상적으로 보이는 형태에 대해서만 사용하고 되도록 id와 같이 거의 바뀔 일이 없는 값을 기준으로 차례대로 훑어내려가는 식으로 구현합니다.

2020.03.11. 19:14

"humit님의 댓글"

이 댓글을 신고 하시겠습니까?

이니스프리 작성자 → humit

개발과정에서 자동으로 CSS가 업데이트되는 것이군요 ㅎㄷㄷ

말씀해주신대로 거의 변경되지 않는 값을 기준으로 구현해봐야겠네요!

감사합니다 ^-^ humit 님께서도 좋은 저녁 되세요~

2020.03.11. 21:06

"이니스프리님의 댓글"

이 댓글을 신고 하시겠습니까?

권한이 없습니다.

번호	제목	글쓴이	날짜	조회 수
공지	[중요공지] 추석 맞이 서버 업데이트 안내 5	마스터	25.10.09.02:20	67281
공지	[중요] 호스팅 만료와 관련하여 일부 수칙이 변경됩니다. 7	마스터	23.01.14.02:23	360942
공지	[필독] 질문하는 방법 17	마스터	18.02.23.03:09	13785
712	XE3에 사이트에 다른 cms를 이용한 하위 사이트 접속 방법 알고 계시는 분 있나요? 1	입체그림	20.04.18.19:56	648
711	호스팅과 ftp 설정에서 용량 관련 1	마당쇠15	20.04.16.11:30	628
710	저전력 nas 용도 개발보드 구매? 8	{Cog}	20.04.09.00:05	914
709	StartupCheckLibrary.dll / winscomrssrv.dll 지정된 모듈을 찾을 수 없습니다. 3	갱생협스	20.04.07.11:08	1693
708	[앱개발 질문] 초보입니다. 2	Chobo	20.04.07.10:21	840
707	Liberty Skin 대제목 관련 질문 3	sweetenpotato	20.04.06.01:49	879
706	네이버 카페의 게시글 크롤링과 관련하여 질문 드려요 ^^ 7	이니스프리	20.04.04.23:33	2074
705	파이썬 Requests과 HTTP 통신에 관하여 이론적으로 궁금한건데요~ 4	이니스프리	20.04.03.15:55	717
704	아이콘 구매와 활용법에 대한 질문 10	해피보이	20.04.02.18:04	902
703	사이트 메인페이지에 갈림길 화면이 뜨게 하는 법에 대하여 어쭈어 봅니다. 5	입체그림	20.04.01.19:31	762
702	Cloudflare와 관련하여 질문 드려요 ^-^ 7	이니스프리	20.03.30.14:48	887
701	크롤링 용도로 사용하는 VPS의 트래픽이 얼마나 될까요?? 2	이니스프리	20.03.29.21:02	949
700	안녕하세요ㅠㅠ 위키 URL 리다이렉션 관련 질문입니다 1	김광현	20.03.26.16:33	735
699	그누보드용 회원차단 크롬 확장프로그램을 만들어보려는데요~ ^-^ 7	이니스프리	20.03.24.23:53	975
698	VPS 웹서버 설치 후 보안을 위해 추가로 해야되는 조치에는 어떤 것이 있을까요?? 6	이니스프리	20.03.13.22:46	914
	페북이나 트위터처럼 태그 속성이 자주 변경되는 사이트의 크롤링은 어떻게 해야 될까요?? 4	이니스프리	20.03.09.00:27	826
696	브라우저 개발자도구에서 formdata를 숨기는 방법이 있는가요? 6	이니스프리	20.03.07.23:54	3278
695	그누보드5 홈피 관리해주실분 찾습니다.	찰리	20.03.04.23:10	739
694	[파이썬] 윈도우에서 datetime 객체의 invalid format string 에러 3	이니스프리	20.03.04.15:52	2283
693	XE 에디터가 작동하지 않아요 ㅠㅠ 4	입체그림	20.03.03.17:30	697

번호

제목

글쓴이

날짜

조회 수

공지

[중요공지] 추석 맞이 서버 업데이트 안내 5

마스터

25.10.09.02:20

67281

공지

[중요] 호스팅 만료와 관련하여 일부 수칙이 변경됩니다. 7

마스터

23.01.14.02:23

360942

공지

[필독] 질문하는 방법 17

마스터

18.02.23.03:09

13785

712

XE3에 사이트에 다른 cms를 이용한 하위 사이트 접속 방법 알고 계시는 분 있나요? 1

입체그림

20.04.18.19:56

648

711

호스팅과 ftp 설정에서 용량 관련 1

마당쇠15

20.04.16.11:30

628

710

저전력 nas 용도 개발보드 구매? 8

{Cog}

20.04.09.00:05

914

709

StartupCheckLibrary.dll / winscomrssrv.dll 지정된 모듈을 찾을 수 없습니다. 3

갱생협스

20.04.07.11:08

1693

708

[앱개발 질문] 초보입니다. 2

Chobo

20.04.07.10:21

840

707

Liberty Skin 대제목 관련 질문 3

sweetenpotato

20.04.06.01:49

879

706

네이버 카페의 게시글 크롤링과 관련하여 질문 드려요 ^^ 7

이니스프리

20.04.04.23:33

2074

705

파이썬 Requests과 HTTP 통신에 관하여 이론적으로 궁금한건데요~ 4

이니스프리

20.04.03.15:55

717

704

아이콘 구매와 활용법에 대한 질문 10

해피보이

20.04.02.18:04

902

703

사이트 메인페이지에 갈림길 화면이 뜨게 하는 법에 대하여 어쭈어 봅니다. 5

입체그림

20.04.01.19:31

762

702

Cloudflare와 관련하여 질문 드려요 ^-^ 7

이니스프리

20.03.30.14:48

887

701

크롤링 용도로 사용하는 VPS의 트래픽이 얼마나 될까요?? 2

이니스프리

20.03.29.21:02

949

700

안녕하세요ㅠㅠ 위키 URL 리다이렉션 관련 질문입니다 1

김광현

20.03.26.16:33

735

699

그누보드용 회원차단 크롬 확장프로그램을 만들어보려는데요~ ^-^ 7

이니스프리

20.03.24.23:53

975

698

VPS 웹서버 설치 후 보안을 위해 추가로 해야되는 조치에는 어떤 것이 있을까요?? 6

이니스프리

20.03.13.22:46

914

페북이나 트위터처럼 태그 속성이 자주 변경되는 사이트의 크롤링은 어떻게 해야 될까요?? 4

이니스프리

20.03.09.00:27

826

696

브라우저 개발자도구에서 formdata를 숨기는 방법이 있는가요? 6

이니스프리

20.03.07.23:54

3278

695

그누보드5 홈피 관리해주실분 찾습니다.

찰리

20.03.04.23:10

739

694

[파이썬] 윈도우에서 datetime 객체의 invalid format string 에러 3

이니스프리

20.03.04.15:52

2283

693

XE 에디터가 작동하지 않아요 ㅠㅠ 4

입체그림

20.03.03.17:30

697

도와주세요

페북이나 트위터처럼 태그 속성이 자주 변경되는 사이트의 크롤링은 어떻게 해야 될까요??

작성자

이니스프리 119 Lv. (3%) 4874930/115200000EXP

댓글 4

신고

신고

신고

신고

검색

스터디 최근글 [1/]

로그인

작성자 이니스프리 119 Lv. (3%) 4874930/115200000EXP

댓글 4

신고

신고

신고

신고

검색

로그인

작성자

이니스프리 119 Lv. (3%) 4874930/115200000EXP