- 13
- 갱생협스
- 조회 수 371
다름이 아니고 크롤링을 한번 익혀볼까 합니다.
기어가는 법은 어렸을 때부터 알고 있었기 때문에 다시 배우는 것은 쉽겠지만(!) 이걸 어디다가 써먹냐가 문제일 듯 하더라고요.
어디에 써먹을 수 있을까요?
작성자
댓글 13
우선 가상서버에 컴퓨팅 파워가 좀 남아서 어떻게 써볼까 고민하다 크롤링을 생각하게 된 겁니다. 그런데 그닥 쓸 데도 없고 해서 어디에 써먹어야 할 지 질문 드린거고요.
그나저나 SIR 자게가 구조화가 잘 되어있나 보네요. 복잡해보여서 흐음🤔 이러고 넘어갔었습니다 ㅋㅋㅋㅋ
아, 미세먼지 데이터를 긁어오는 것도 괜찮을 것 같네요.
생각해보니 꼭 필요하진 않아도 활용도가 꽤 높아보이니 한번쯤은 익혀봐도 좋을 것 같습니다.
늘 정성스러운 댓글 감사드리고, 스포티콘이 새로 하나 추가되었습니다. 제가 만든겁니다 lol
SIR이 개발자분들께서 운영하는 사이트여서 여러모로 배울 점이 많더군요~!
물론 프로페셔널한 개발자분들께서 보시기에 구조화가 잘 되어있지 않다고 생각하신다면
감히 저같은 아마추어가 드릴 말씀은 없지만
그래도 딱히 크롤링을 차단한 부분도 없고 전반적으로 크롤링 연습하기에 좋은 것 같아요 :)
미세먼지 데이터는 저도 예전에 작업을 한 적이 있었는데
무료 API로 제공되고 있어서 이런건 크롤링 공부의 대상으로 생각하시는 범위는 아니라고 생각해서 말씀을 안 드렸네요~!
물론 API부터 연습하는 것도 도움이 되죠 :)
저도 시간이 날 때 디시콘을 퍼올게요 ^-^
그럼 굿밤 되세요! :)
요즘 프로그래밍을 전혀 하지 않은 덕택에 api 구현 방식도 다 잊어버렸네요~
api request 후에 음.. 정보를 받아와서.. 파싱을 하..는 거였나? 헷갈려요 🤣
아, 카카오톡 봇을 돌려도 되겠네요. 서버 자체의 활용도는 무궁무진한걸로!
옙 그렇게 하시면 되어요~ ^^
일반적인 크롤링보다 전반적으로 훨씬 간단하죠!
+)
VPS의 가용 자원 중에 스토리지가 많이 남아있다면 클라우드 스토리지,
네트워크가 많이 남아있다면 VPN을 돌리는 것도 좋을 것 같네요 :)
둘 다 남아있다면 Pictshare 같은 이미지 호스팅 서버를 돌리시는 것도 좋구요!
Requests 크롤링은 엄청나게 이미지를 긁어오는게 아니라면 시스템 리소스를 별로 안 잡아먹어서 말이죠 ㄷㄷ
네트워크는 어 음.. 많이 남네요 ㅎㅎ,,,
1테라 플랜에서 대략 50기가정도를 쓴 것으로 나오니 말이죠.
스토리지 20기가중 쓴 건 1기가도 안 될 것 같고..
제일싼 3.5불 플랜임에도 불구하고 많이 남네요;;;
오오~ 그렇군요! ^^
그럼 네트워크도 남고 스토리지도 남으니...
스포어의 유머게시판이나 마나모아처럼 이미지가 많은 사이트를 크롤링하는 연습을 해보세요!! :)
후자의 경우에는 github에 참고할만한 자료가 있는 것 같네요 ㅎㄷㄷ
+) 제가 예전에 팁게시판에 올려놓은 글이 조금 참고가 될 수 있겠네요 ^^
감사합니다 많이 도움이 되었습니다 :)
그쵸! 짤 생성기 좋은 것 같아요 :)
파이썬을 조금만 만져보시면 짤을 자동으로 퍼와서 이미지 호스팅 URL을 반환하는 방식이나
이모티콘을 A 사이트에서 퍼와서 B 사이트로 그대로 옮기는 로직도 구현 가능해요 ^-^
혹시 구체적으로 어떤 방식의 짤 생성기를 생각하고 계시는가요오?? ^-^
저는 예전에 A 사이트에 올라온 짤을 캡쳐하여 하나의 파일로 만들어서
B 사이트에 새 글을 작성하여 첨부하는 스크립트를 작성한 적이 있었거든요 :)
이런걸 말씀하시는건 아닌 것 같은데요 ㄷㄷ
댓글을 아주 길게 작성했는데 서버가 불안정해서 날아갔네요 ㅠㅠ
요지만 말씀드리면 사용할 용도가 정해진 후에 공부하시는게 좋을 것 같아요~!
방향성이 정해지지 않으면 일단 의욕이 반감되는 것 같구요 ㄷㄷ
어떤 언어로 어떤 웹페이지의 정보를 크롤링할지에 따라서 공부방향이 많이 달라지니깐요 :)
PHP 사이트를 보면 보통 크롤링의 필요성이 생겨서 공부를 시작하시는 분들이 많더군요!
처음에는 SIR 자게처럼 비교적 구조화가 잘 되어 있으면서도 크롤링하기 간단한 페이지부터 연습하세요~
결정하기 어려우시면 학교 홈페이지나 할인정보가 담긴 홈페이지를 목표로 하시구요 ㅎㅎ
그럼 홧팅하세요~!