• 목록
  • 아래로
  • 위로
  • 20
  • title: 황금 서버 (30일)humit
  • 조회 수 242

일단 파싱 강좌는 아래와 같이 진행할 예정입니다.


실시간 검색어 파싱

  • - 네이버 실시간 검색어 파싱
  • - 다음 실시간 검색어 파싱
  • - 네이트 실시간 검색어 파싱


도서 베스트 셀러 파싱

  • - yes24 베스트 셀러 파싱
  • - 알라딘 베스트 셀러 파싱
  • - 교보문고 베스트 셀러 파싱
  • - 영풍문고 베스트 셀러 파싱


블로그 데이터 파싱

  • - 네이버 블로그 데이터 파싱
  • - 다음 블로그 데이터 파싱
  • - 티스토리 블로그 데이터 파싱


음악 차트 파싱

  • - 멜론 차트 파싱
  • - 엠넷 차트 파싱
  • - 벅스 차트 파싱


주식 및 금융 데이터 파싱

  • - 네이버 증권에서 특정 주식 가격 파싱
  • - 네이버 증권에서 환율 파싱
  • - 다음 증권에서 특정 주식 가격 파싱
  • - 다음 증권에서 환율 파싱


검색 내용 파싱

  • - 네이버 검색 내용 파싱
  • - 다음 검색 내용 파싱
  • - 네이트 검색 내용 파싱


Selenium으로 로그인 해서 쿠키 가지고 오기

  • - 네이버 로그인 하기
  • - 다음 로그인 하기
  • - 네이트 로그인 하기


카페 게시물 파싱

  • - 네이버 카페 게시물 파싱하기
  • - 다음 카페 게시물 파싱하기


이메일 파싱

  • - 네이버 메일 파싱하기
  • - 다음 메일 파싱하기
  • - 네이트 메일 파싱하기


커뮤니티 게시물 파싱

  • - 오픈튜토리얼즈 강좌 제목 파싱 (직접 제작한 홈페이지)
  • - 스포어 자유 게시판 파싱 (라이믹스 기반인 홈페이지)
  • - SIR 자유 게시판 파싱 (그누보드 기반인 홈페이지)
  • - 씨넷코리아 최신 기사 파싱(워드프레스 기반인 홈페이지)

작성자
title: 황금 서버 (30일)humit 119 Lv. (0%) 1185170/115200000EXP

Study For Us Hosting 1기 모니터링 관리자 (16.12.01 ~ 17.01.08.)

C++, Python, PHP를 주로 사용하며 알고리즘, DL, 해킹 쪽에 관심이 있습니다.

휴학생입니다.

티스토리 블로그 : http://humit.tistory.com/

카카오톡 봇 : http://pf.kakao.com/_Efrbu/chat

지식인 프로필 : https://kin.naver.com/profile/jhjang1005

댓글 20

갱생협스
profile image

ParseWEB(대소문자 맞춰드려야죠~) 잘 보고 있었는데, 어째 뚝 끊겨서 무슨 일인지 의아해했었는데 다시 시작하신다니 꼬박꼬박 챙겨봐야겠네요.

 

파이썬 띄어쓰기 너무 귀찮..아요..

자료형도 없어서 불편하고

Multiline 주석도 불편하고

실행속도도 느리고

 

그래서 GO로 넘어갈까.. 생각중입니다 ㅋㅋ

comment menu
2019.01.20. 21:45

신고

"갱생협스님의 댓글"

이 댓글을 신고 하시겠습니까?

이니스프리 → 갱생협스
profile image

권장사항과 배치되기는 하지만 파이썬 들여쓰기를 탭으로 대체할 수 있지 않나요?

에디터의 여러 줄을 동시에 들여쓰기하는 기능을 활용하면 조금 수월하더군요.

익숙해지면 들여쓰기가 작성할 때에는 귀찮아도 나중에 스크립트를 스크롤 하면서 볼 때에는 괄호보다 편한 것 같아요 :)

여러 줄 주석은 역시 권장되는 것은 아니지만 ''' 로 처리하시면 되구요.

 

순수하게 언어 자체만 놓고보면 상대적으로 GO가 파이썬보다 더 쉽고 완성도도 높다고 알고 있습니다 ^^

하지만 저처럼 필요한 라이브러리 설치하고 구글링해서 복붙하여 사용하는 수준에서는 아무래도 파이썬이 더 쉽겠죠~!

우분투를 사용하다보니 파이썬에 저절로 손이 가는 것 같아요 ㅎㅎ

사실 제가 파이썬을 사용하는 이유 중에 beautifulsoup이 적지 않은 비중을 차지하는 것 같아요.

comment menu
2019.01.20. 21:52

신고

"이니스프리님의 댓글"

이 댓글을 신고 하시겠습니까?

갱생협스 → 이니스프리
profile image

아앗.. 괄호 중괄호 세미콜론은 제가 처음 프로그래밍을 배웠을 때부터 써 와서..

세 살 버릇 개 주기 어렵더군요.

 

계속 세미콜론을 붙이면서 써 놓고, 실행하려니까 세미콜론이 보여서 몽땅 지워버렸네요;;;

 

저 역시 복붙 장인입니다2222 그래서 파이썬을 배우고 있고요.

 

후에 엑셀 관련해서 배워서, 쓸 일은 없지만업무 효율을 높이는데도 써보고 싶네요협스는 학생입니다

comment menu
2019.01.20. 22:01

신고

"갱생협스님의 댓글"

이 댓글을 신고 하시겠습니까?

title: 황금 서버 (30일)humit 작성자 → 갱생협스
profile image

자료형을 따로 명시해주지 않아도 된다는 것이 강점인데요 ㅋㅋㅋㅋㅋ

띄어쓰기의 경우 에디터 설정을 하면 탭을 공백으로 바꿔주는 기능이 있습니다.

comment menu
2019.01.20. 21:59

신고

"humit님의 댓글"

이 댓글을 신고 하시겠습니까?

갱생협스 → humit
profile image

자료형 명시하지 않는 건 편해요. 편한데 이상해요 ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ

 

char parsed = (블라블라) 라고 써 놓으면 parsed 변수는 char형이라 오류 날 일이 없는데, parsed=(블라블라) 해놓고 parsed를 정규식에 박아넣으니까 변수 자료형 오류가 나오더라고요..

그래서 임시방편으로 chared = str(parsed) 구문으로 강제로 char형으로 변환해버렸습니다..ㅋㅋ

comment menu
2019.01.20. 22:03

신고

"갱생협스님의 댓글"

이 댓글을 신고 하시겠습니까?

이니스프리 → 갱생협스
profile image

자료형을 명시하는 것에 보다 익숙하시다면 파이썬 3.6 이상에서는 variable_name: type 형식으로 정적 타입 선언을 하시면 됩니다 ^^

예컨대 var_string: str = '항덕' 이렇게요~!

그런데 파이썬을 오래 사용하신 분한테 이런 코드를 보여드리면 이상하게 생각하시더군요 ㅎㅎ

comment menu
2019.01.20. 22:17

신고

"이니스프리님의 댓글"

이 댓글을 신고 하시겠습니까?

갱생협스 → 이니스프리
profile image
+1

파이썬 3.7인가를 깔아뒀을테니, 가능은 하겠지만,

동적 자료형을 쓰다가 얘 혼자 정적 자료형을 쓰려니 많이 코드가 이상해 질 것 같아서..요..

동적의 장점과 단점을 확인한 하루였습니다

comment menu
2019.01.20. 22:26

신고

"갱생협스님의 댓글"

이 댓글을 신고 하시겠습니까?

이니스프리
profile image

오오~ 목차만 봐도 정말 대단한 구성이네요! 정말 기대되는군요!!

제가 파싱을 다루는 IT 서적을 여러 권 구입했지만 그 책들보다 훨씬 알찬 내용일 것 같아요 ^^

(나중에 책을 출간하셔도 수요가 꽤 있을 것 같네요)

 

아참 그리고 요새 클리앙 등 대형 사이트에서 CSRF 토큰 등을 사용하던데요.

Selenium을 사용하지 않는 조금 난이도 있는 로그인에 대해 다루실 계획은 없으신지 여쭤봅니다 :)

PhantomJS가 deprecated 된다고 알고 있는데요.

상대적으로 다른 headless 브라우저는 우분투에서 설치가 까다로운 것 같아요 ㅠㅠ

comment menu
2019.01.20. 21:46

신고

"이니스프리님의 댓글"

이 댓글을 신고 하시겠습니까?

title: 황금 서버 (30일)humit 작성자 → 이니스프리
profile image

클리앙에서 적용하는 방식인 HTML에 직접 CSRF 토큰을 심어놓는 경우에는 쉽게 할 수 있지만 네이버에서와 같이 javascript로 코드를 실행해 CSRF 토큰을 생성하는 경우에는 코드의 분석이 들어가야 하기 때문에 어렵습니다.

 

제가 과거에 구름 ide에서 chrome headless 브라우저로 사용한 적이 있긴 한데 혹시 어떤 부분에서 막히셨었나요???

comment menu
2019.01.20. 22:03

신고

"humit님의 댓글"

이 댓글을 신고 하시겠습니까?

이니스프리 → humit
profile image

저같은 왕초보가 클리앙 로그인에 성공한 것을 보면 말씀하신대로 클리앙과 네이버는 난이도의 갭이 있네요~!

 

그리고 제가 headless 브라우저를 설치한 것이 몇 개월 전의 일이라서 기억이 가물가물한데요 ㅠㅠ

윈도우에서는 상대적으로 간단했던 것 같은데요.

우분투에서 headless 크롬을 설치하다가 제대로 구동이 안 되어서 headless 파폭을 사용하고 있네요~!

당시에 구글링했더니 그게 chromium 버전이 업데이트 되면서 충돌이 발생했던 것으로 기억하는데요.

(비슷한 증상을 겪는 분들이 많았던 것으로 알고 있네요)

현재의 최신버전에서는 어떤지 모르겠네요 ㅜㅜ

comment menu
2019.01.20. 22:08

신고

"이니스프리님의 댓글"

이 댓글을 신고 하시겠습니까?

title: 황금 서버 (30일)humit 작성자 → 이니스프리
profile image

음... 나중에 ubuntu 환경에서 다시 해봐야겠네요.

comment menu
2019.01.20. 22:58

신고

"humit님의 댓글"

이 댓글을 신고 하시겠습니까?

변사또

기대됩니다!!

올리신 강의로 열심히 공부해야겠네요 ㅎㅎ

comment menu
2019.01.20. 22:54

신고

"변사또님의 댓글"

이 댓글을 신고 하시겠습니까?

title: 황금 서버 (30일)humit 작성자 → 변사또
profile image

넵 감사합니다 :)

comment menu
2019.01.21. 12:39

신고

"humit님의 댓글"

이 댓글을 신고 하시겠습니까?

도토리묵

- 스포어 자유 게시판 파싱 (라이믹스 기반인 홈페이지)

 

이 강좌가 가장 기대됩니다. 이걸 잘 활용하면 다른 라이믹스 기반 홈페이지나 좀 더 연구해서 XE기반 홈페이지까지 파싱이 가능하겠군요.

기존에는 rss를 활용해서 파싱했는데...

응원합니다!

comment menu
2019.01.21. 05:14

신고

"도토리묵님의 댓글"

이 댓글을 신고 하시겠습니까?

title: 황금 서버 (30일)humit 작성자 → 도토리묵
profile image

rss를 이용한 방식이 제일 확실합니다 ㅋㅋㅋㅋ

참고로 사용하는 테마에 따라 달라질 수 있기 때문에 해당 부분은 직접 하셔야 합니다.

comment menu
2019.01.21. 12:40

신고

"humit님의 댓글"

이 댓글을 신고 하시겠습니까?

title: 에그joyful
profile image

음악 차트 파싱이 있네요!

근데 DB 업로드는 없나요??;;

comment menu
2019.01.21. 10:09

신고

"joyful님의 댓글"

이 댓글을 신고 하시겠습니까?

title: 황금 서버 (30일)humit 작성자 → joyful
profile image

올라온 목록은 단순히 파싱만 작성한 것입니다.

DB에 넣는 과정이나 모듈화하는 과정, gui로 만드는 과정도 포함될 예정입니다.

comment menu
2019.01.21. 12:42

신고

"humit님의 댓글"

이 댓글을 신고 하시겠습니까?

포인트 폭탄+ → humit
humit님 축하합니다.
추가로 200포인트만큼 포인트 폭탄+를 받았습니다.
comment menu
2019.01.21. 12:42

신고

"포인트 폭탄+님의 댓글"

이 댓글을 신고 하시겠습니까?

삭제

"포인트 폭탄+님의 댓글"

이 댓글을 삭제하시겠습니까?

title: 에그joyful → humit
profile image

옷! 감사합니다:)

comment menu
2019.01.21. 14:48

신고

"joyful님의 댓글"

이 댓글을 신고 하시겠습니까?

이니스프리 → humit
profile image

오오~ DB에 넣고 모듈화하고 GUI로 넣는다니 정말 기대되네요~!

그런 부분까지 다뤄주셔서 바X파싱기 수요가 급감하겠네요 ㄷㄷ

다시 한 번 진심으로 감사드립니다 ^^

요새 공대 출신분들께서 유료 동영상 강좌 플랫폼에 크롤링과 관련된 강의를 많이 올리시던데

이 정도 컨텐츠라면 다른 분들 강의보다 훨씬 내용이 풍부한 것 같아요 :)

먼 훗날에 humit 님께서 유료강의 오픈하시면 저도 꼭 결제해서 수강할게요 ㅎㅎ

comment menu
2019.01.21. 18:39

신고

"이니스프리님의 댓글"

이 댓글을 신고 하시겠습니까?

권한이 없습니다.
번호 제목 글쓴이 날짜 조회 수
공지 시스템 점검 작업 완료 안내 10 마스터 마스터 24.09.05.16:25 2348
공지 [중요] 호스팅 만료와 관련하여 일부 수칙이 변경됩니다. 4 마스터 마스터 23.01.14.02:23 9259
공지 낚시성 불법도박 홍보 게시글을 주의하세요. 9 image 네모 네모 22.08.09.18:13 2882
공지 슬기로운 포인트 벌이를 하는 법 (22.10.11 업데이트) 64 네모 네모 18.06.17.20:25 17668
4254 간단한 픽셀 모델링! 2 image BVC_Liper_Okbul BVC_Liper_Okbul 19.01.21.21:07 170
4253 블로그를 직접 만들어 보았습니다. 12 image Hanam09 Hanam09 19.01.20.22:07 210
4252 사족. 蛇足. 뱀발. 29 갱생협스 갱생협스 19.01.20.21:57 295
이제 다시 ParseWEB 프로젝트를 시작합니다. 20 humit title: 황금 서버 (30일)humit 19.01.20.21:29 242
4250 쟝고 설치 시도중입니다. 7 NoYeah NoYeah 19.01.20.21:25 147
4249 허벌나게 무서웠습니다 2 15 제르엘 제르엘 19.01.20.20:21 190
4248 신기하네요 7 누리 19.01.20.12:27 170
4247 앞으로는 공지를 잘 읽겠습니당.. 1 NUBE title: 크롬NUBE 19.01.20.11:48 123
4246 자기 사이트에서 애드센스 쓰시는분 15 NoYeah NoYeah 19.01.20.10:58 253
4245 올해의 프로젝트! 상표권등록 성공! 17 image 라엘 라엘 19.01.20.00:38 253
4244 번역 도와주실분을 구합니다! 21 BVC_Liper_Okbul BVC_Liper_Okbul 19.01.19.21:53 337
4243 블록 체인 캠프에 갔다왔습니다~ 6 image humit title: 황금 서버 (30일)humit 19.01.19.21:50 163
4242 렛츠 빵파뤼!!! 21 image 국내산라이츄 국내산라이츄 19.01.19.16:23 208
4241 코딩입문자에게 Python보다 Go를 추천하는 6가지 이유 13 image 네모 네모 19.01.19.14:52 1995
4240 전투력측정기 1 file title: 대한민국 국기gimmepoint 19.01.19.10:06 336
4239 포코폰은 거르세요 14 Kongjak Kongjak 19.01.19.01:31 626
4238 방송을 하겠습니다아아! 2 BVC_Liper_Okbul BVC_Liper_Okbul 19.01.18.22:52 140
4237 Go lang 을 배우는게 좋을까요? 아님 Python 을 배우는게 좋을까요? 14 NoYeah NoYeah 19.01.18.20:48 1311
4236 전관리자가 아닌데요 4 image 홀민 홀민 19.01.18.20:26 118
4235 그러고보니까 이거 전략게임 만들다 생긴 의문점....? 8 image BVC_Liper_Okbul BVC_Liper_Okbul 19.01.17.23:25 147