Extra Form
라이선스 MIT

안녕하세요?


지난 주말에 친구의 부탁으로 정부기관 사이트(gosi.kr)를 파싱해서 텔레그램 봇으로 새글알림을 하는 코드를 짜봤습니다.


텔레그램 봇과 관련해서는 매우 허접하지만 이미 작년에도 제가 스포어에 글을 올렸기 때문에


원래 작성한 코드를 조금 변형해서 PC통신이나 텍스트 기반 브라우저처럼 열람하고 싶은 게시글 번호를 입력하면 


해당 게시글의 내용을 출력해주는 것으로 수정했습니다.


해당 웹페이지는 정부기관의 공고와 관련된 것으로서 


저작권법 등 관련법률에 저촉되지 않는다고 생각되어서 코드를 올립니다.



소스는 파이썬 3.7에서 작성되었으며 


다른 스포어 회원님들께서 기본적으로 알고계실 수준의 아주 기초적인 BeautifulSoup과 정규식을 사용했습니다.


작성하고보니 파이썬이 추구하는 아름답고 간결한 코딩과는 굉장히 거리가 멀지만 

(아스날의 아름다운 축구를 보다가 이란의 침대축구를 보는 것처럼 가슴이 답답해지는군요 -_-;;;)


일단 2018년 9월 현재 기준으로 오류 없이 돌아가는 데에 의의를 두겠습니다 ㅠㅠ


1~10까지 게시글 번호를 input으로 입력받은 후 그 문자열을 정수로 바꿔서


해당 게시글을 출력하는 부분에서 여러 유형의 오류가 발생하던데요.


len 함수와 아스키코드로 최대한 걸러내긴 했는데 제가 미처 발견하지 못한 버그가 있을 수도 있겠네요 ㅜㅜ


아쉽게도 게시글 목록의 페이지 넘김과 첨부파일 다운로드는 아직 지원하지 않습니다 T.T



제가 한가지 궁금한 점이 파싱하려는 페이지가 POST 방식으로 페이지 이동을 할 때 


저는 파이어폭스 개발자도구에서 Convert form POSTs to GETs로 URL을 알아낸 후에 


숫자 네자리로 된 파라미터를 정규식으로 파싱해서 


URL과 파라미터를 조합하는 방식으로 파싱하려는 페이지에 접근했는데요. 


상당히 조잡하고 주먹구구식 방법이지만 제 수준에서는 뾰족한 방법이 없더군요 ㅠㅠ


스포어의 고수님들께서 알고계시는 더 깔끔한 방법은 없을지 여쭤봅니다 ^^


허접한 글 읽어주셔서 감사합니다!



추신: 파이참을 추천해주신 humit 님께 감사합니다 ^-^



import urllib.request
import re
from bs4 import BeautifulSoup

url = "https://www.gosi.kr/cop/bbs/selectBoardList.do?bbsId=BBSMSTR_000000000131"
response = urllib.request.urlopen(url)

soup = BeautifulSoup(response, 'html.parser')
results = soup.select("span.nobr")

a = 1
for result in results:
    print(a, "\b. ", end='')
    print(result.string)
    a+=1

links = soup.find_all('a', href=True)
link_result = []

for link in links:
    if link.get('href') == "#":
        continue
    this = link.get('href')
    this2 = re.search('\'[1-9][0-9]{3}\'', this)
    if this2:
        link_result.append(this2.group()[1:5])
    else:
        continue


order = "m"
while order != "q" and order !="Q":
    order = input("목록(l), 나가기(q) >> ")
    if order == "l" or order == "L":
        a = 1
        for result in results:
            print(a, "\b. ", end='')
            print(result.string)
            a+=1

    elif order == "q" and order !="Q":
        print ('종료합니다.\n')

    elif len(order) > 1 and order != "10":
        print ('잘못 입력하였습니다.\n')
        continue

    elif order == "10" or (ord(order) >= 48 and ord(order) <=57):
        order2 = 0 - int(order)
        codenumber = link_result[order2]

        url1 = "https://www.gosi.kr/cop/bbs/selectBoardArticle.do;jsessionid=+xTTfDIqxVVspsCsttQPVTnn.node_cybergosiwas11?bbsId=BBSMSTR_000000000131&nttId="
        url2 = "&bbsTyCode=BBST01&bbsAttrbCode=BBSA01&authFlag=Y&examgubunPosblAt=Y&anonymous=&examGubuncd=&searchCnd=0&searchWrd=&pageIndex=1"
        url3 = url1 + codenumber + url2

        response2 = urllib.request.urlopen(url3)
        soup2 = BeautifulSoup(response2, 'html.parser')
        results2 = soup2.select("div.board_con p")

        for result2 in results2:
            print(result2.text)
 
    else:
        print ('잘못 입력하였습니다.\n')
        continue


  • profile
    title: 황금 서버 (30일)humit 2018.09.15 08:01
    단순히 1부터 10까지의 숫자만 인식하길 원한다면 아래와 같은 방법도 있겠네요.

    avail_input = [str(i) for i in range(1, 11)]
    if order not in avail_input:
    print("잘못 입력하셨습니다.")
  • profile
    이니스프리 2018.09.15 08:14
    역시 humit 님 같은 고수님의 코딩은 간결하고 아름답군요! ^-^

    제가 range() 함수를 사용하려고 시도해봤는데

    str(i) 부분을 누락해서 그런지 if 문에서 제대로 작동을 안 하더군요 ㅠㅠ

    humit 님께서 str() 함수를 알려주신 덕분에 구글링해서 공부했습니다!

    주말에 시간을 내서 내장함수를 더 공부해야겠네요~

    번번이 감사합니다 ^-^

    그럼 humit 님께서도 좋은 주말 되세요~!
  • profile
    네모 2018.09.15 17:46
    이런 방법도 있습니다.

    if not order.isdigit() or 1 > int(order) or 10 < int(order):
    print("잘못 입력하셨습니다.")
  • profile
    이니스프리 2018.09.15 19:35
    역시 현직 개발자분들께선 대단하시네요!!

    저도 그 부분 코드를 짜면서 "이렇게 하는 것보다 훨씬 좋은 방법이 있을텐데"라고 생각했는데 말이죠 ㅠㅠ

    제가 고민했던 부분을 정말 간결하게 처리해주셔서 감사합니다!

    isdigit() 메소드란 것이 있었군요~

    네모 님 덕분에 덕분에 많이 배우고 갑니다!

    그럼 네모 님께서도 즐거운 주말 저녁 되세요 ^-^

    다시 한 번 감사드립니다 :)

List of Articles
번호 분류 제목 글쓴이 날짜 조회 수
58 코드 [Python] Selenium을 이용하여 특정 element를 캡처하는 스크립트 2 file 이니스프리 2019.07.03 6138
57 코드 [Python] 선택한 파일을 Dropbox API를 이용하여 업로드하고 공유링크를 받아서 이미지 호스팅 용도로 URL을 변환하기 1 file 이니스프리 2019.07.02 1175
56 코드 [JS]클라이언트에서 Ip를 얻어보자 2 Hanam09 2019.01.21 790
55 코드 [JS] http를 https로 리디렉션! 3 Hanam09 2018.12.30 847
54 코드 [PHP] 이미지를 원하는 크기(원본비율 유지)로 리사이즈 하여 출력 (원본 이미지는 수정하지 않습니다) 6 이니스프리 2018.12.20 8003
53 코드 [아미나] 네이트 실시간 검색어 순위 위젯 (아미나 캐시 적용) 3 file 이니스프리 2018.12.18 1132
52 코드 [아미나] 출석 여부를 나타내는 메인화면 위젯 4 file 이니스프리 2018.12.15 794
51 코드 [PHP] 간단한 캐싱 클래스 3 title: 황금 서버 (30일)humit 2018.12.06 880
50 코드 [Python] 텔레그램을 이용한 게시판 새 글 알림봇 7 이니스프리 2018.12.02 4004
49 코드 [아미나] 게시글을 작성하면 ID와 IP로 필터링하여 자동으로 랜덤 댓글을 남기기 (+랜덤 포인트) 7 file 이니스프리 2018.11.18 805
48 코드 [PHP] 그누보드 자동 게시글 작성 - 일본기상협회의 우리나라 날씨를 크롤링한 후 파파고로 번역하여 글 작성 4 file 이니스프리 2018.11.15 830
47 코드 [PHP] 기상청 RSS 시간별 예보 위젯 - cache 적용(?) 9 file 이니스프리 2018.10.28 1003
46 코드 [오토핫키] 브라우저를 열어 지난번과 동일한 폴더에 MZK를 다운받고 압축을 네이티브로 해제하는 스크립트 file 이니스프리 2018.10.20 920
45 코드 [PHP] 기상청 중기예보를 캐러셀로 보여주는 위젯 (매우 허접합니다 ㅠㅠ) 10 file 이니스프리 2018.09.28 735
44 코드 [오토핫키] 구글 드라이브의 공유링크를 이미지 호스팅을 위한 다이렉트 링크로 바꿔주는 스크립트 10 file 이니스프리 2018.09.25 1762
43 코드 [오토핫키] 특정 사이트에 대한 ping 테스트 결과를 실행시간과 함께 로그 파일로 저장하는 스크립트 2 이니스프리 2018.09.22 2067
» 코드 [Python] 모 정부기관 사이트 파싱 후 PC 통신처럼 열람하고 싶은 게시글 번호를 입력하면 내용을 보여주는 소스 (허접) 4 이니스프리 2018.09.14 751
41 코드 파이선 셸에서 실행하면...? 3 제르엘 2018.07.22 546
40 코드 C언어 삼중자를 이용한 코드 title: 황금 서버 (30일)humit 2018.07.22 491
39 코드 폰트를 자동 설치하는 코드 1 네모 2018.07.16 1007
Board Pagination Prev 1 2 3 4 Next
/ 4