• 목록
  • 아래로
  • 위로
  • 11
  • title: 황금 서버 (30일)humit
  • 조회 수 182

해당 프로젝트는 파이썬을 이용해서 웹 크롤링 및 파싱을 할 수 있도록 하는 프로그램을 제작하는 프로젝트입니다.



프로젝트의 시작 동기는 아래 링크에 있습니다.



https://humit.tistory.com/300



현재 강좌로는 네이버, 다음, 네이트의 실시간 검색어를 가지고 오는 방식을 이해하고 코드를 작성하는 방법에 대해서 소개해놓았습니다.


강좌는 아래 페이지에서 계속 업데이트가 될 예정입니다.


https://humit.tistory.com/pages/project


이 게시물에 댓글로 궁금하신 파싱 방법에 대해 문의하시면 고려해서 강좌로 올려드리겠습니다. :)

이니스프리님 이니스프리 포함 1명이 추천

추천인 1

작성자
title: 황금 서버 (30일)humit 119 Lv. (0%) 1139860/115200000EXP

Study For Us Hosting 1기 모니터링 관리자 (16.12.01 ~ 17.01.08.)

C++, Python, PHP를 주로 사용하며 알고리즘, DL, 해킹 쪽에 관심이 있습니다.

휴학생입니다.

티스토리 블로그 : http://humit.tistory.com/

카카오톡 봇 : http://pf.kakao.com/_Efrbu/chat

지식인 프로필 : https://kin.naver.com/profile/jhjang1005

댓글 11

이니스프리
profile image

humit 님께서 올려주신 강좌 덕분에 잘 보고 가네요~!
저같은 초보자는 감히 따라할 수 없는, 파이썬의 취지에 부합되는 간결함의 미학이 담긴 정말 아름다운 코딩이네요 ^-^
동적 웹페이지를 selenium을 사용하지 않고 requests로 바로 파싱하는 것도 인상적이네요~
 
여러 커뮤니티를 돌아다니다보면 크롤링에 대해 관심 있으신 분들은 많지만 상당수가 바트파싱기를 구입하는 방향으로 빠지시더군요 ㅠㅠ
그 분들이 대체로 궁금해하시는 내용들은 다음과 같더군요.
 


1. 장기적인 관점에서 안정적으로 주기적으로 파싱을 하기 

   (주가지수를 API 사용하지 않고 실시간에 가깝게 파싱하고 싶으신 분들이 많이 계시더군요)
2. selenium 없이 로그인하고, 리퍼러나 세션과 관련된 처리하기 

   (저도 궁금한 내용인데요. 단순히 login.php 등에 id, pw를 post 방식으로 넘겨주고 세션 유지하면 되는 사이트가 아닌 경우에는 막히더군요 ㅜㅜ)
3. 파싱한 결과를 효율적으로 DB로 저장하는 방법



얼마 전에 스포어의 joyful 님께서 멜론차트 파싱과 관련하여 궁금하셨던 내용도 결국 1, 3번으로 귀결되는 것 같네요 :)
 
1번과 관련하여 장기적으로 안정적인 파싱을 위해 제가 막연히 알고 있는 방법은  
1) User-agent와 Referer 등을 적절히 변경하고,
2) 가능하다면 VPN이나 프록시를 사용하여 IP를 변경해주며,
3) 해당 사이트에 피해가 가지 않을 정도의 적절한 주기와 방법을 택하는 것 정도인데요~!
humit 님께서는 크롤링 경험이 많을테니 보다 구체적인 방법을 잘 알고 계실 것 같네요 ^^
 
그럼 humit 님의 앞으로의 강좌도 기대하겠습니다 :)  
항상 감사드립니다! 편안한 저녁 되세요~! ^-^

comment menu
2018.12.17. 19:20

신고

"이니스프리님의 댓글"

이 댓글을 신고 하시겠습니까?

title: 황금 서버 (30일)humit 작성자 → 이니스프리
profile image

네 감사합니다 :) 해당 내용을 고려해서 강좌를 작성해보도록 하겠습니다.

comment menu
2018.12.17. 19:28

신고

"humit님의 댓글"

이 댓글을 신고 하시겠습니까?

이니스프리 → humit
profile image

옙 번번이 정말 감사합니다 ^^

오늘 자정을 지나면 이제 12일 남으셨겠네요.

시간이 느리게 흐르는 것처럼 느껴지시겠지만 부디 무사 전역하시길 기원합니다~! :)

comment menu
2018.12.17. 19:30

신고

"이니스프리님의 댓글"

이 댓글을 신고 하시겠습니까?

도토리묵

음..왕고가 되셨군요?

이거 이용해서 파싱한걸 게시글 형태로 뿌려주는 모듈같은걸 만들고 싶습니다

comment menu
2018.12.18. 00:08

신고

"도토리묵님의 댓글"

이 댓글을 신고 하시겠습니까?

title: 황금 서버 (30일)humit 작성자 → 도토리묵
profile image

왕고는 진작에 되었고 마지막 말년입니다 ㅎㅎ...

참고로 해당 방법은 거의 끝 부분에 다룰 것 같습니다..ㅎ.....

comment menu
2018.12.18. 00:45

신고

"humit님의 댓글"

이 댓글을 신고 하시겠습니까?

신고

"도토리묵님의 댓글"

이 댓글을 신고 하시겠습니까?

NoYeah
profile image

ParseWeb 프로젝트는 리눅스 기반인가요?

 

아님 파이썬이 실행가능만 하면 되는 환경으로 리눅스, 윈도우 구분을 안하나요?

comment menu
2018.12.18. 01:45

신고

"NoYeah님의 댓글"

이 댓글을 신고 하시겠습니까?

title: 황금 서버 (30일)humit 작성자 → NoYeah
profile image

어차피 GUI를 작성할 때 PyQT로 사용하기 때문에 플랫폼에 따른 변화는 없을 것 같네요 ㅎㅎ

일단 개발은 윈도우로 할 예정입니다

comment menu
2018.12.18. 17:58

신고

"humit님의 댓글"

이 댓글을 신고 하시겠습니까?

title: 에그joyful
profile image

지금 필요한 정보네요~

하지만 궁금한 것과 원하는 정보가 많은데

차후 블로그에서 알려주시면 감사하겠습니다!

 

음원 스트리밍 사이트의 차트 크롤링과

크롤링한 정보를 DB로 등록하는것

이 있엇으면 좋뎄습니다

감사합니다!

comment menu
2018.12.18. 08:30

신고

"joyful님의 댓글"

이 댓글을 신고 하시겠습니까?

title: 황금 서버 (30일)humit 작성자 → joyful
profile image

네 해당 사항 고려해서 강좌를 작성해보겠습니다 :)

comment menu
2018.12.18. 17:58

신고

"humit님의 댓글"

이 댓글을 신고 하시겠습니까?

변사또

강좌 따라해봐야겠네요!!

comment menu
2018.12.19. 00:04

신고

"변사또님의 댓글"

이 댓글을 신고 하시겠습니까?

권한이 없습니다.
번호 제목 글쓴이 날짜 조회 수
공지 [작업 완료] 설 명절 맞이 서버 업데이트 안내 3 마스터 마스터 24.02.11.17:21 718
공지 [중요] 호스팅 만료와 관련하여 일부 수칙이 변경됩니다. 4 마스터 마스터 23.01.14.02:23 4391
공지 낚시성 불법도박 홍보 게시글을 주의하세요. 9 image 네모 네모 22.08.09.18:13 471
공지 슬기로운 포인트 벌이를 하는 법 (22.10.11 업데이트) 64 네모 네모 18.06.17.20:25 15377
6514 안드로이드에서 EXE 실행하기..! 6 image 네모 네모 18.05.10.06:17 35745
6513 인터넷 무료 및 유로 소설 사이트 어느곳이용하새여? 3 핫슈 17.12.12.16:01 16262
6512 어도비 학생 할인 받는 법이 왜 이리 간단하죠? 3 image 제르엘 제르엘 18.11.24.08:25 8160
6511 와이파이가 급 느려 터져서 핑테스트를 해봤는데... 12 image 국내산라이츄 국내산라이츄 17.11.01.18:10 6786
6510 카카오톡 API (채팅, 비공식) 리버싱에 관하여 17 Seia Seia 20.05.06.10:37 6309
6509 어라 ckeditor 유료인가요? 10 라엘 라엘 18.12.24.01:41 5580
6508 금융거래한도계좌로 웃고 웁니다 ㅠ.ㅠ 8 대전댁 title: 은메달대전댁 17.03.17.17:53 4927
6507 시험을 앞두고서 노트북 바탕화면을 갈았습니다. (+ 스카웃되었습니다만..) 24 image 갱생협스 갱생협스 19.06.18.18:51 4019
6506 배그때문에 C드라이브 용량이 꽉찼네요 6 title: 은메달도다 18.02.06.20:43 3746
6505 방문에 잠금장치를 추가했습니다! 17 image 네모 네모 18.05.03.00:04 3221
6504 이 광고의 정체는 무엇인가요? 12 image 연우빠 연우빠 22.01.29.02:05 3124
6503 평소 생각없이 듣던 노래가 수위곡이라면 어떤 기분들 드시나요? 16 image BVC_Liper_Okbul BVC_Liper_Okbul 19.01.30.23:19 3024
6502 KT의 QoS에 대한 제 경험에 덧붙여 약간의 질문 드립니다 18 image 이니스프리 이니스프리 17.12.03.23:02 2972
6501 크롬 다운로드도 이어받기 되겠죠...? 5 국내산라이츄 국내산라이츄 19.06.15.01:08 2942
6500 주간 근황 7 image 국내산라이츄 국내산라이츄 22.02.27.01:23 2934
6499 [투표] 선호하시는 WYSIWYG HTML 에디터가 있으신가요? ^^ 16 image 이니스프리 이니스프리 18.11.20.17:21 2873
6498 [설문조사 없는 설문조사 11탄] 암호와 관련된 뻘글 14 제르엘 제르엘 22.03.03.01:29 2728
6497 [애플페이] 저는 이제 지갑이 없어도 됩니다 10 image 갱생협스 갱생협스 22.02.22.14:21 2720
6496 여러분 들 인터넷 명칭 이더넷인분들도잇나요? 13 image 핫슈 17.10.18.22:06 2634
6495 새 번호를 팠습니다. 14 image 제르엘 제르엘 22.02.24.14:59 2605