- 20
- humit
- 조회 수 279
일단 파싱 강좌는 아래와 같이 진행할 예정입니다.
실시간 검색어 파싱
- 네이버 실시간 검색어 파싱- 다음 실시간 검색어 파싱- 네이트 실시간 검색어 파싱
도서 베스트 셀러 파싱
- yes24 베스트 셀러 파싱- - 알라딘 베스트 셀러 파싱
- - 교보문고 베스트 셀러 파싱
- - 영풍문고 베스트 셀러 파싱
블로그 데이터 파싱
- - 네이버 블로그 데이터 파싱
- - 다음 블로그 데이터 파싱
- - 티스토리 블로그 데이터 파싱
음악 차트 파싱
- - 멜론 차트 파싱
- - 엠넷 차트 파싱
- - 벅스 차트 파싱
주식 및 금융 데이터 파싱
- - 네이버 증권에서 특정 주식 가격 파싱
- - 네이버 증권에서 환율 파싱
- - 다음 증권에서 특정 주식 가격 파싱
- - 다음 증권에서 환율 파싱
검색 내용 파싱
- - 네이버 검색 내용 파싱
- - 다음 검색 내용 파싱
- - 네이트 검색 내용 파싱
Selenium으로 로그인 해서 쿠키 가지고 오기
- - 네이버 로그인 하기
- - 다음 로그인 하기
- - 네이트 로그인 하기
카페 게시물 파싱
- - 네이버 카페 게시물 파싱하기
- - 다음 카페 게시물 파싱하기
이메일 파싱
- - 네이버 메일 파싱하기
- - 다음 메일 파싱하기
- - 네이트 메일 파싱하기
커뮤니티 게시물 파싱
- - 오픈튜토리얼즈 강좌 제목 파싱 (직접 제작한 홈페이지)
- - 스포어 자유 게시판 파싱 (라이믹스 기반인 홈페이지)
- - SIR 자유 게시판 파싱 (그누보드 기반인 홈페이지)
- - 씨넷코리아 최신 기사 파싱(워드프레스 기반인 홈페이지)
작성자
댓글 20
권장사항과 배치되기는 하지만 파이썬 들여쓰기를 탭으로 대체할 수 있지 않나요?
에디터의 여러 줄을 동시에 들여쓰기하는 기능을 활용하면 조금 수월하더군요.
익숙해지면 들여쓰기가 작성할 때에는 귀찮아도 나중에 스크립트를 스크롤 하면서 볼 때에는 괄호보다 편한 것 같아요 :)
여러 줄 주석은 역시 권장되는 것은 아니지만 ''' 로 처리하시면 되구요.
순수하게 언어 자체만 놓고보면 상대적으로 GO가 파이썬보다 더 쉽고 완성도도 높다고 알고 있습니다 ^^
하지만 저처럼 필요한 라이브러리 설치하고 구글링해서 복붙하여 사용하는 수준에서는 아무래도 파이썬이 더 쉽겠죠~!
우분투를 사용하다보니 파이썬에 저절로 손이 가는 것 같아요 ㅎㅎ
사실 제가 파이썬을 사용하는 이유 중에 beautifulsoup이 적지 않은 비중을 차지하는 것 같아요.
아앗.. 괄호 중괄호 세미콜론은 제가 처음 프로그래밍을 배웠을 때부터 써 와서..
세 살 버릇 개 주기 어렵더군요.
계속 세미콜론을 붙이면서 써 놓고, 실행하려니까 세미콜론이 보여서 몽땅 지워버렸네요;;;
저 역시 복붙 장인입니다2222 그래서 파이썬을 배우고 있고요.
후에 엑셀 관련해서 배워서, 쓸 일은 없지만업무 효율을 높이는데도 써보고 싶네요협스는 학생입니다
자료형을 따로 명시해주지 않아도 된다는 것이 강점인데요 ㅋㅋㅋㅋㅋ
띄어쓰기의 경우 에디터 설정을 하면 탭을 공백으로 바꿔주는 기능이 있습니다.
자료형 명시하지 않는 건 편해요. 편한데 이상해요 ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ
char parsed = (블라블라) 라고 써 놓으면 parsed 변수는 char형이라 오류 날 일이 없는데, parsed=(블라블라) 해놓고 parsed를 정규식에 박아넣으니까 변수 자료형 오류가 나오더라고요..
그래서 임시방편으로 chared = str(parsed) 구문으로 강제로 char형으로 변환해버렸습니다..ㅋㅋ
자료형을 명시하는 것에 보다 익숙하시다면 파이썬 3.6 이상에서는 variable_name: type 형식으로 정적 타입 선언을 하시면 됩니다 ^^
예컨대 var_string: str = '항덕' 이렇게요~!
그런데 파이썬을 오래 사용하신 분한테 이런 코드를 보여드리면 이상하게 생각하시더군요 ㅎㅎ
파이썬 3.7인가를 깔아뒀을테니, 가능은 하겠지만,
동적 자료형을 쓰다가 얘 혼자 정적 자료형을 쓰려니 많이 코드가 이상해 질 것 같아서..요..
동적의 장점과 단점을 확인한 하루였습니다
오오~ 목차만 봐도 정말 대단한 구성이네요! 정말 기대되는군요!!
제가 파싱을 다루는 IT 서적을 여러 권 구입했지만 그 책들보다 훨씬 알찬 내용일 것 같아요 ^^
(나중에 책을 출간하셔도 수요가 꽤 있을 것 같네요)
아참 그리고 요새 클리앙 등 대형 사이트에서 CSRF 토큰 등을 사용하던데요.
Selenium을 사용하지 않는 조금 난이도 있는 로그인에 대해 다루실 계획은 없으신지 여쭤봅니다 :)
PhantomJS가 deprecated 된다고 알고 있는데요.
상대적으로 다른 headless 브라우저는 우분투에서 설치가 까다로운 것 같아요 ㅠㅠ
클리앙에서 적용하는 방식인 HTML에 직접 CSRF 토큰을 심어놓는 경우에는 쉽게 할 수 있지만 네이버에서와 같이 javascript로 코드를 실행해 CSRF 토큰을 생성하는 경우에는 코드의 분석이 들어가야 하기 때문에 어렵습니다.
제가 과거에 구름 ide에서 chrome headless 브라우저로 사용한 적이 있긴 한데 혹시 어떤 부분에서 막히셨었나요???
저같은 왕초보가 클리앙 로그인에 성공한 것을 보면 말씀하신대로 클리앙과 네이버는 난이도의 갭이 있네요~!
그리고 제가 headless 브라우저를 설치한 것이 몇 개월 전의 일이라서 기억이 가물가물한데요 ㅠㅠ
윈도우에서는 상대적으로 간단했던 것 같은데요.
우분투에서 headless 크롬을 설치하다가 제대로 구동이 안 되어서 headless 파폭을 사용하고 있네요~!
당시에 구글링했더니 그게 chromium 버전이 업데이트 되면서 충돌이 발생했던 것으로 기억하는데요.
(비슷한 증상을 겪는 분들이 많았던 것으로 알고 있네요)
현재의 최신버전에서는 어떤지 모르겠네요 ㅜㅜ
음... 나중에 ubuntu 환경에서 다시 해봐야겠네요.
기대됩니다!!
올리신 강의로 열심히 공부해야겠네요 ㅎㅎ
넵 감사합니다 :)
- 스포어 자유 게시판 파싱 (라이믹스 기반인 홈페이지)
이 강좌가 가장 기대됩니다. 이걸 잘 활용하면 다른 라이믹스 기반 홈페이지나 좀 더 연구해서 XE기반 홈페이지까지 파싱이 가능하겠군요.
기존에는 rss를 활용해서 파싱했는데...
응원합니다!
rss를 이용한 방식이 제일 확실합니다 ㅋㅋㅋㅋ
참고로 사용하는 테마에 따라 달라질 수 있기 때문에 해당 부분은 직접 하셔야 합니다.
음악 차트 파싱이 있네요!
근데 DB 업로드는 없나요??;;
올라온 목록은 단순히 파싱만 작성한 것입니다.
DB에 넣는 과정이나 모듈화하는 과정, gui로 만드는 과정도 포함될 예정입니다.
옷! 감사합니다:)
오오~ DB에 넣고 모듈화하고 GUI로 넣는다니 정말 기대되네요~!
그런 부분까지 다뤄주셔서 바X파싱기 수요가 급감하겠네요 ㄷㄷ
다시 한 번 진심으로 감사드립니다 ^^
요새 공대 출신분들께서 유료 동영상 강좌 플랫폼에 크롤링과 관련된 강의를 많이 올리시던데
이 정도 컨텐츠라면 다른 분들 강의보다 훨씬 내용이 풍부한 것 같아요 :)
먼 훗날에 humit 님께서 유료강의 오픈하시면 저도 꼭 결제해서 수강할게요 ㅎㅎ
ParseWEB(대소문자 맞춰드려야죠~) 잘 보고 있었는데, 어째 뚝 끊겨서 무슨 일인지 의아해했었는데 다시 시작하신다니 꼬박꼬박 챙겨봐야겠네요.
파이썬 띄어쓰기 너무 귀찮..아요..
자료형도 없어서 불편하고
Multiline 주석도 불편하고
실행속도도 느리고
그래서 GO로 넘어갈까.. 생각중입니다 ㅋㅋ