• 목록
  • 아래로
  • 위로
  • 20
  • title: 황금 서버 (30일)humit
  • 조회 수 214

일단 파싱 강좌는 아래와 같이 진행할 예정입니다.


실시간 검색어 파싱

  • - 네이버 실시간 검색어 파싱
  • - 다음 실시간 검색어 파싱
  • - 네이트 실시간 검색어 파싱


도서 베스트 셀러 파싱

  • - yes24 베스트 셀러 파싱
  • - 알라딘 베스트 셀러 파싱
  • - 교보문고 베스트 셀러 파싱
  • - 영풍문고 베스트 셀러 파싱


블로그 데이터 파싱

  • - 네이버 블로그 데이터 파싱
  • - 다음 블로그 데이터 파싱
  • - 티스토리 블로그 데이터 파싱


음악 차트 파싱

  • - 멜론 차트 파싱
  • - 엠넷 차트 파싱
  • - 벅스 차트 파싱


주식 및 금융 데이터 파싱

  • - 네이버 증권에서 특정 주식 가격 파싱
  • - 네이버 증권에서 환율 파싱
  • - 다음 증권에서 특정 주식 가격 파싱
  • - 다음 증권에서 환율 파싱


검색 내용 파싱

  • - 네이버 검색 내용 파싱
  • - 다음 검색 내용 파싱
  • - 네이트 검색 내용 파싱


Selenium으로 로그인 해서 쿠키 가지고 오기

  • - 네이버 로그인 하기
  • - 다음 로그인 하기
  • - 네이트 로그인 하기


카페 게시물 파싱

  • - 네이버 카페 게시물 파싱하기
  • - 다음 카페 게시물 파싱하기


이메일 파싱

  • - 네이버 메일 파싱하기
  • - 다음 메일 파싱하기
  • - 네이트 메일 파싱하기


커뮤니티 게시물 파싱

  • - 오픈튜토리얼즈 강좌 제목 파싱 (직접 제작한 홈페이지)
  • - 스포어 자유 게시판 파싱 (라이믹스 기반인 홈페이지)
  • - SIR 자유 게시판 파싱 (그누보드 기반인 홈페이지)
  • - 씨넷코리아 최신 기사 파싱(워드프레스 기반인 홈페이지)

작성자
title: 황금 서버 (30일)humit 119 Lv. (0%) 1140460/115200000EXP

Study For Us Hosting 1기 모니터링 관리자 (16.12.01 ~ 17.01.08.)

C++, Python, PHP를 주로 사용하며 알고리즘, DL, 해킹 쪽에 관심이 있습니다.

휴학생입니다.

티스토리 블로그 : http://humit.tistory.com/

카카오톡 봇 : http://pf.kakao.com/_Efrbu/chat

지식인 프로필 : https://kin.naver.com/profile/jhjang1005

댓글 20

갱생협스
profile image

ParseWEB(대소문자 맞춰드려야죠~) 잘 보고 있었는데, 어째 뚝 끊겨서 무슨 일인지 의아해했었는데 다시 시작하신다니 꼬박꼬박 챙겨봐야겠네요.

 

파이썬 띄어쓰기 너무 귀찮..아요..

자료형도 없어서 불편하고

Multiline 주석도 불편하고

실행속도도 느리고

 

그래서 GO로 넘어갈까.. 생각중입니다 ㅋㅋ

comment menu
2019.01.20. 21:45

신고

"갱생협스님의 댓글"

이 댓글을 신고 하시겠습니까?

이니스프리 → 갱생협스
profile image

권장사항과 배치되기는 하지만 파이썬 들여쓰기를 탭으로 대체할 수 있지 않나요?

에디터의 여러 줄을 동시에 들여쓰기하는 기능을 활용하면 조금 수월하더군요.

익숙해지면 들여쓰기가 작성할 때에는 귀찮아도 나중에 스크립트를 스크롤 하면서 볼 때에는 괄호보다 편한 것 같아요 :)

여러 줄 주석은 역시 권장되는 것은 아니지만 ''' 로 처리하시면 되구요.

 

순수하게 언어 자체만 놓고보면 상대적으로 GO가 파이썬보다 더 쉽고 완성도도 높다고 알고 있습니다 ^^

하지만 저처럼 필요한 라이브러리 설치하고 구글링해서 복붙하여 사용하는 수준에서는 아무래도 파이썬이 더 쉽겠죠~!

우분투를 사용하다보니 파이썬에 저절로 손이 가는 것 같아요 ㅎㅎ

사실 제가 파이썬을 사용하는 이유 중에 beautifulsoup이 적지 않은 비중을 차지하는 것 같아요.

comment menu
2019.01.20. 21:52

신고

"이니스프리님의 댓글"

이 댓글을 신고 하시겠습니까?

갱생협스 → 이니스프리
profile image

아앗.. 괄호 중괄호 세미콜론은 제가 처음 프로그래밍을 배웠을 때부터 써 와서..

세 살 버릇 개 주기 어렵더군요.

 

계속 세미콜론을 붙이면서 써 놓고, 실행하려니까 세미콜론이 보여서 몽땅 지워버렸네요;;;

 

저 역시 복붙 장인입니다2222 그래서 파이썬을 배우고 있고요.

 

후에 엑셀 관련해서 배워서, 쓸 일은 없지만업무 효율을 높이는데도 써보고 싶네요협스는 학생입니다

comment menu
2019.01.20. 22:01

신고

"갱생협스님의 댓글"

이 댓글을 신고 하시겠습니까?

title: 황금 서버 (30일)humit 작성자 → 갱생협스
profile image

자료형을 따로 명시해주지 않아도 된다는 것이 강점인데요 ㅋㅋㅋㅋㅋ

띄어쓰기의 경우 에디터 설정을 하면 탭을 공백으로 바꿔주는 기능이 있습니다.

comment menu
2019.01.20. 21:59

신고

"humit님의 댓글"

이 댓글을 신고 하시겠습니까?

갱생협스 → humit
profile image

자료형 명시하지 않는 건 편해요. 편한데 이상해요 ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ

 

char parsed = (블라블라) 라고 써 놓으면 parsed 변수는 char형이라 오류 날 일이 없는데, parsed=(블라블라) 해놓고 parsed를 정규식에 박아넣으니까 변수 자료형 오류가 나오더라고요..

그래서 임시방편으로 chared = str(parsed) 구문으로 강제로 char형으로 변환해버렸습니다..ㅋㅋ

comment menu
2019.01.20. 22:03

신고

"갱생협스님의 댓글"

이 댓글을 신고 하시겠습니까?

이니스프리 → 갱생협스
profile image

자료형을 명시하는 것에 보다 익숙하시다면 파이썬 3.6 이상에서는 variable_name: type 형식으로 정적 타입 선언을 하시면 됩니다 ^^

예컨대 var_string: str = '항덕' 이렇게요~!

그런데 파이썬을 오래 사용하신 분한테 이런 코드를 보여드리면 이상하게 생각하시더군요 ㅎㅎ

comment menu
2019.01.20. 22:17

신고

"이니스프리님의 댓글"

이 댓글을 신고 하시겠습니까?

갱생협스 → 이니스프리
profile image
+1

파이썬 3.7인가를 깔아뒀을테니, 가능은 하겠지만,

동적 자료형을 쓰다가 얘 혼자 정적 자료형을 쓰려니 많이 코드가 이상해 질 것 같아서..요..

동적의 장점과 단점을 확인한 하루였습니다

comment menu
2019.01.20. 22:26

신고

"갱생협스님의 댓글"

이 댓글을 신고 하시겠습니까?

이니스프리
profile image

오오~ 목차만 봐도 정말 대단한 구성이네요! 정말 기대되는군요!!

제가 파싱을 다루는 IT 서적을 여러 권 구입했지만 그 책들보다 훨씬 알찬 내용일 것 같아요 ^^

(나중에 책을 출간하셔도 수요가 꽤 있을 것 같네요)

 

아참 그리고 요새 클리앙 등 대형 사이트에서 CSRF 토큰 등을 사용하던데요.

Selenium을 사용하지 않는 조금 난이도 있는 로그인에 대해 다루실 계획은 없으신지 여쭤봅니다 :)

PhantomJS가 deprecated 된다고 알고 있는데요.

상대적으로 다른 headless 브라우저는 우분투에서 설치가 까다로운 것 같아요 ㅠㅠ

comment menu
2019.01.20. 21:46

신고

"이니스프리님의 댓글"

이 댓글을 신고 하시겠습니까?

title: 황금 서버 (30일)humit 작성자 → 이니스프리
profile image

클리앙에서 적용하는 방식인 HTML에 직접 CSRF 토큰을 심어놓는 경우에는 쉽게 할 수 있지만 네이버에서와 같이 javascript로 코드를 실행해 CSRF 토큰을 생성하는 경우에는 코드의 분석이 들어가야 하기 때문에 어렵습니다.

 

제가 과거에 구름 ide에서 chrome headless 브라우저로 사용한 적이 있긴 한데 혹시 어떤 부분에서 막히셨었나요???

comment menu
2019.01.20. 22:03

신고

"humit님의 댓글"

이 댓글을 신고 하시겠습니까?

이니스프리 → humit
profile image

저같은 왕초보가 클리앙 로그인에 성공한 것을 보면 말씀하신대로 클리앙과 네이버는 난이도의 갭이 있네요~!

 

그리고 제가 headless 브라우저를 설치한 것이 몇 개월 전의 일이라서 기억이 가물가물한데요 ㅠㅠ

윈도우에서는 상대적으로 간단했던 것 같은데요.

우분투에서 headless 크롬을 설치하다가 제대로 구동이 안 되어서 headless 파폭을 사용하고 있네요~!

당시에 구글링했더니 그게 chromium 버전이 업데이트 되면서 충돌이 발생했던 것으로 기억하는데요.

(비슷한 증상을 겪는 분들이 많았던 것으로 알고 있네요)

현재의 최신버전에서는 어떤지 모르겠네요 ㅜㅜ

comment menu
2019.01.20. 22:08

신고

"이니스프리님의 댓글"

이 댓글을 신고 하시겠습니까?

title: 황금 서버 (30일)humit 작성자 → 이니스프리
profile image

음... 나중에 ubuntu 환경에서 다시 해봐야겠네요.

comment menu
2019.01.20. 22:58

신고

"humit님의 댓글"

이 댓글을 신고 하시겠습니까?

변사또

기대됩니다!!

올리신 강의로 열심히 공부해야겠네요 ㅎㅎ

comment menu
2019.01.20. 22:54

신고

"변사또님의 댓글"

이 댓글을 신고 하시겠습니까?

title: 황금 서버 (30일)humit 작성자 → 변사또
profile image

넵 감사합니다 :)

comment menu
2019.01.21. 12:39

신고

"humit님의 댓글"

이 댓글을 신고 하시겠습니까?

도토리묵

- 스포어 자유 게시판 파싱 (라이믹스 기반인 홈페이지)

 

이 강좌가 가장 기대됩니다. 이걸 잘 활용하면 다른 라이믹스 기반 홈페이지나 좀 더 연구해서 XE기반 홈페이지까지 파싱이 가능하겠군요.

기존에는 rss를 활용해서 파싱했는데...

응원합니다!

comment menu
2019.01.21. 05:14

신고

"도토리묵님의 댓글"

이 댓글을 신고 하시겠습니까?

title: 황금 서버 (30일)humit 작성자 → 도토리묵
profile image

rss를 이용한 방식이 제일 확실합니다 ㅋㅋㅋㅋ

참고로 사용하는 테마에 따라 달라질 수 있기 때문에 해당 부분은 직접 하셔야 합니다.

comment menu
2019.01.21. 12:40

신고

"humit님의 댓글"

이 댓글을 신고 하시겠습니까?

title: 에그joyful
profile image

음악 차트 파싱이 있네요!

근데 DB 업로드는 없나요??;;

comment menu
2019.01.21. 10:09

신고

"joyful님의 댓글"

이 댓글을 신고 하시겠습니까?

title: 황금 서버 (30일)humit 작성자 → joyful
profile image

올라온 목록은 단순히 파싱만 작성한 것입니다.

DB에 넣는 과정이나 모듈화하는 과정, gui로 만드는 과정도 포함될 예정입니다.

comment menu
2019.01.21. 12:42

신고

"humit님의 댓글"

이 댓글을 신고 하시겠습니까?

포인트 폭탄+ → humit
humit님 축하합니다.
추가로 200포인트만큼 포인트 폭탄+를 받았습니다.
comment menu
2019.01.21. 12:42

신고

"포인트 폭탄+님의 댓글"

이 댓글을 신고 하시겠습니까?

삭제

"포인트 폭탄+님의 댓글"

이 댓글을 삭제하시겠습니까?

title: 에그joyful → humit
profile image

옷! 감사합니다:)

comment menu
2019.01.21. 14:48

신고

"joyful님의 댓글"

이 댓글을 신고 하시겠습니까?

이니스프리 → humit
profile image

오오~ DB에 넣고 모듈화하고 GUI로 넣는다니 정말 기대되네요~!

그런 부분까지 다뤄주셔서 바X파싱기 수요가 급감하겠네요 ㄷㄷ

다시 한 번 진심으로 감사드립니다 ^^

요새 공대 출신분들께서 유료 동영상 강좌 플랫폼에 크롤링과 관련된 강의를 많이 올리시던데

이 정도 컨텐츠라면 다른 분들 강의보다 훨씬 내용이 풍부한 것 같아요 :)

먼 훗날에 humit 님께서 유료강의 오픈하시면 저도 꼭 결제해서 수강할게요 ㅎㅎ

comment menu
2019.01.21. 18:39

신고

"이니스프리님의 댓글"

이 댓글을 신고 하시겠습니까?

권한이 없습니다.
번호 제목 글쓴이 날짜 조회 수
공지 [작업 완료] 설 명절 맞이 서버 업데이트 안내 3 마스터 마스터 24.02.11.17:21 745
공지 [중요] 호스팅 만료와 관련하여 일부 수칙이 변경됩니다. 4 마스터 마스터 23.01.14.02:23 4416
공지 낚시성 불법도박 홍보 게시글을 주의하세요. 9 image 네모 네모 22.08.09.18:13 471
공지 슬기로운 포인트 벌이를 하는 법 (22.10.11 업데이트) 64 네모 네모 18.06.17.20:25 15377
6515 안드로이드에서 EXE 실행하기..! 6 image 네모 네모 18.05.10.06:17 35750
6514 인터넷 무료 및 유로 소설 사이트 어느곳이용하새여? 3 핫슈 17.12.12.16:01 16262
6513 어도비 학생 할인 받는 법이 왜 이리 간단하죠? 3 image 제르엘 제르엘 18.11.24.08:25 8160
6512 와이파이가 급 느려 터져서 핑테스트를 해봤는데... 12 image 국내산라이츄 국내산라이츄 17.11.01.18:10 6786
6511 카카오톡 API (채팅, 비공식) 리버싱에 관하여 17 Seia Seia 20.05.06.10:37 6314
6510 어라 ckeditor 유료인가요? 10 라엘 라엘 18.12.24.01:41 5581
6509 금융거래한도계좌로 웃고 웁니다 ㅠ.ㅠ 8 대전댁 title: 은메달대전댁 17.03.17.17:53 4927
6508 시험을 앞두고서 노트북 바탕화면을 갈았습니다. (+ 스카웃되었습니다만..) 24 image 갱생협스 갱생협스 19.06.18.18:51 4023
6507 배그때문에 C드라이브 용량이 꽉찼네요 6 title: 은메달도다 18.02.06.20:43 3746
6506 방문에 잠금장치를 추가했습니다! 17 image 네모 네모 18.05.03.00:04 3221
6505 이 광고의 정체는 무엇인가요? 12 image 연우빠 연우빠 22.01.29.02:05 3124
6504 평소 생각없이 듣던 노래가 수위곡이라면 어떤 기분들 드시나요? 16 image BVC_Liper_Okbul BVC_Liper_Okbul 19.01.30.23:19 3026
6503 KT의 QoS에 대한 제 경험에 덧붙여 약간의 질문 드립니다 18 image 이니스프리 이니스프리 17.12.03.23:02 2972
6502 크롬 다운로드도 이어받기 되겠죠...? 5 국내산라이츄 국내산라이츄 19.06.15.01:08 2944
6501 주간 근황 7 image 국내산라이츄 국내산라이츄 22.02.27.01:23 2934
6500 [투표] 선호하시는 WYSIWYG HTML 에디터가 있으신가요? ^^ 16 image 이니스프리 이니스프리 18.11.20.17:21 2873
6499 [설문조사 없는 설문조사 11탄] 암호와 관련된 뻘글 14 제르엘 제르엘 22.03.03.01:29 2728
6498 [애플페이] 저는 이제 지갑이 없어도 됩니다 10 image 갱생협스 갱생협스 22.02.22.14:21 2720
6497 여러분 들 인터넷 명칭 이더넷인분들도잇나요? 13 image 핫슈 17.10.18.22:06 2635
6496 새 번호를 팠습니다. 14 image 제르엘 제르엘 22.02.24.14:59 2605