조회 수 2446 추천 수 0 댓글 1
?

단축키

Prev이전 문서

Next다음 문서

크게 작게 위로 아래로 댓글로 가기 인쇄
?

단축키

Prev이전 문서

Next다음 문서

크게 작게 위로 아래로 댓글로 가기 인쇄
Extra Form
라이선스 기타(따로 작성)

안녕하세요?


humit 님의 도움으로 싸이월드 미니홈피 백업 스크립트를 허접하게나마 완성했습니다.


원래 의도는 최대한 selenium을 사용하지 않고 작성하는 것이었지만


'더 보기'를 클릭하는 부분 등 여러 부분에서 javascript가 사용된 관계로 부득이 selenium에 많은 부분을 의존하였습니다.


짧은 시간에 완성하다보니 부족한 점이 많은 스크립트이지만


싸이월드 도메인 만료를 앞두고 급히 필요하신 분들이 계실 것 같다는 생각에 일단 올립니다.



from bs4 import BeautifulSoup
from selenium import webdriver
import urllib, time, os
import urllib.request
from urllib.parse import unquote

driver = webdriver.Firefox(executable_path='geckodriver')
driver.implicitly_wait(15)
waiting_time = 3 # time.sleep()의 대기시간을 지정합니다.

def parse():
    html = driver.page_source
    soup = BeautifulSoup(html, 'html.parser')
    return soup

def naming(filename, extension):
    full_filename = filename + extension
    add_number = 1
    while os.path.isfile(path + '\\' + full_filename) == True: # 파일명이 중복되는 경우를 처리합니다.
        full_filename = filename + '-' + str(add_number) + extension
        add_number += 1
    full_path = path + '\\' + full_filename
    return full_path

url = '미니홈피 URL을 입력하세요!!!'
driver.get(url)
time.sleep(waiting_time)
if driver.current_url == 'http://www.cyworld.com/error/error.html' or driver.title == '싸이홈 | 에러메세지':
    print("Page doesn't exist.")
    quit()

# '더보기'를 마지막까지 반복 실행합니다.
while True:
    soup = parse()
    button = soup.find('p', attrs = {'class' : 'btn_list_more'})
    if button['style'] == '':
        driver.execute_script("getPostList('more','');")
        time.sleep(1)
    else:
        break

# 미니홈피의 작성자 이름으로 폴더를 생성합니다.
path = os.getcwd() + '\\' + soup.select_one('input#homenm')['value']
if not os.path.exists(path):
    print('New directory "%s" was created.' % path)
    os.mkdir(path)

count, count_image, count_swf = 0, 0, 0
while True:
    try:
        driver.execute_script("viewDetail(" + str(count) + ",'Y');") # 게시글로 이동합니다.
        time.sleep(waiting_time)
        frame = driver.find_element_by_xpath('/html/body/div[1]/article[2]/iframe')
        driver.switch_to.frame(frame) # 게시글의 프레임으로 이동합니다.
        time.sleep(1)
        soup = parse()
        date = soup.select_one('div.view1 p') # 태그에 작성일이 들어있습니다.
        # 게시글을 작성한 날짜를 추출하여 파일명으로 지정합니다.
        unwanted = date.find('strong')
        unwanted.extract() # p 태그 내부의 strong 태그(글 작성자)를 제거합니다.
        filename = date.text.replace('\n', '').split()[0].replace('.', '-')
        if soup.select_one('figure img') != None: # 이미지 파일을 처리합니다.
            try:
                image = soup.select_one('figure img')
                extension = '.' + image['src'].split('.')[-1] # 확장자를 추출합니다.
                full_path = naming(filename, extension)
                urllib.request.urlretrieve(unquote(image['src']), full_path)
                if os.path.getsize(full_path) < 1024: # 1kb 이하의 파일인 경우 삭제합니다.
                    os.remove(full_path)
                else:
                    count_image += 1
            except:
                pass
        if soup.select_one('div.webPage object param') != None: # swf 파일을 처리합니다.
            try:
                image = soup.select_one('div.webPage object param')
                extension = '.' + image['value'].split('.')[-1] # 확장자를 추출합니다.
                full_path = naming(filename, extension)
                req = urllib.request.Request(image['value'])
                req.add_header('Referer', url)
                sourcecode = urllib.request.urlopen(req).read()
                with open(full_path, 'wb') as f:
                    f.write(sourcecode)
                if os.path.getsize(full_path) < 1024: # 1kb 이하의 파일인 경우 삭제합니다.
                    os.remove(full_path)
                else:
                    count_swf += 1
            except:
                pass
        driver.switch_to.default_content() # 원래의 프레임으로 돌아갑니다.
        time.sleep(1)
        count += 1
    except:
        break

print('Total downloaded images : %d files' % count_image)
print('Total downloaded flashes : %d files' % count_swf)
driver.quit()



참고로 예전에 올려놓은 이미지가 뜨지 않는 경우도 있더군요.

(이미지 링크가 깨진 것인지, 싸이월드 측에서 백업하는 과정에서 파일 자체가 삭제된 것인지는 모르겠습니다)


이런 경우에 이미지 파일이 흰색으로 뜨는 경우가 있어서 파일 사이즈를 확인한 후 삭제하도록 처리했습니다.

(사이즈보다는 RGB로 판단하는 것이 정확하겠지만, swf 파일의 경우에 어떻게 처리해야 되는지 모르겠네요)


그리고 78~80행에서 swf 파일을 다운로드 하려면 referer가 필요한데 이 부분에서 막혀서 고생했네요.


이 부분에 결정적 도움을 주신 humit 님께 다시 한 번 감사드립니다.


최대한 안정적으로 구동하게 하려고 노력했는데 그 결과 테스트 결과 무난하게 구동되지만


스크립트 자체만 놓고보면 전반적으로 여러 군데에 군더더기가 있네요 ㅠㅠ


함수로 처리해서 좀 더 간결하게 대략 80행 정도로 작성하면 좋겠지만, 제가 실력도 없고 요새 시간이 부족했습니다.



이것으로 추억의 싸이월드도 굿바이네요~


추억을 오래 간직하려면 역시 아마존 라이트세일을 활용해야 되는 것일까요? ㅎㅎ


그럼 스포어 회원님들께서도 감기 조심하시고 굿밤 되세요! ^-^

  • profile
    이니스프리 2021.03.13 22:24

    오오~ 제 스크립트를 더욱 발전시키신 분이 계시네요 ^-^
    https://godpeople.or.kr/mopds/4971280

    "로그인 작업 및 안정성 작업을 추가하였습니다."라고 하시는군요!


  1. AWSCLI, in a single file (portable, linux)

    Date2021.04.10 Category코드 BySeia Views312
    Read More
  2. [Python-Gnuboard] 파이썬으로 구현한 그누보드 자동 글쓰기 함수

    Date2021.04.08 Category코드 By이니스프리 Views1504
    Read More
  3. [Python] 휴일지킴이 약국을 크롤링하여 Folium 지도에 마커로 표시하는 PyQt 윈도우 앱

    Date2021.03.13 Category코드 By이니스프리 Views1254
    Read More
  4. 도박 중독자를 위한 광고 차단 규칙

    Date2020.08.21 Category코드 By제르엘 Views440
    Read More
  5. [Python] 유튜브 영상을 다운받아 일정 간격으로 캡쳐하여 10장씩 merge하기

    Date2020.05.27 Category코드 By이니스프리 Views1243
    Read More
  6. [Python/Telegram] Studyforus 알림봇 (댓글, 스티커 파싱)

    Date2020.05.15 Category코드 By이니스프리 Views833
    Read More
  7. [Python] url 주소로부터 IP 주소 알아내기

    Date2020.02.20 Category코드 Bytitle: 황금 서버 (30일)humit Views2223
    Read More
  8. [Python] 네이버 실시간 검색어

    Date2020.01.23 Category코드 Bytitle: 황금 서버 (30일)humit Views1321
    Read More
  9. Koa에서 자동으로 라우팅 채워주기

    Date2020.01.22 Category코드 BySeia Views662
    Read More
  10. JavaScript에서 파이썬 문자열 처리 함수 중 하나 (바인딩)를 구현

    Date2020.01.20 Category코드 BySeia Views564
    Read More
  11. [Python] Google Image Search 결과를 받아오기

    Date2019.12.09 Category코드 By이니스프리 Views1189
    Read More
  12. [파이썬] Requests를 사용한 네이버 카페 크롤링 - 일정수 이상의 리플이 달린 게시글만 텔레그램 알림

    Date2019.11.17 Category코드 By이니스프리 Views4347
    Read More
  13. [JS] 클라이언트단 GET Parameter

    Date2019.11.16 Category코드 ByHanam09 Views656
    Read More
  14. [Python] 싸이월드 미니홈피 백업 스크립트

    Date2019.11.07 Category코드 By이니스프리 Views2446
    Read More
  15. [Python] PIL을 이용한 Animated GIF의 리사이징

    Date2019.11.03 Category코드 By이니스프리 Views1317
    Read More
  16. [PyQt] sir.kr에서 스크랩한 게시글을 보여주는 윈도우앱 (검색 및 정렬 가능)

    Date2019.08.09 Category코드 By이니스프리 Views1126
    Read More
  17. [아미나] Dropbox API를 이용한 이미지 호스팅 보드스킨

    Date2019.07.13 Category코드 By이니스프리 Views1593
    Read More
  18. [Python] 네이버 모바일 이미지 검색에서의 이미지 파일을 멀티스레드로 다운받고 1개의 파일로 병합

    Date2019.07.12 Category코드 By이니스프리 Views1473
    Read More
  19. [PHP/Javascript] 아미나에 자동으로 게시글을 생성하고 Ajax로 전송하여 결과를 표시하기

    Date2019.07.09 Category코드 By이니스프리 Views925
    Read More
  20. [Python] Selenium을 이용하여 특정 element를 캡처하는 스크립트

    Date2019.07.03 Category코드 By이니스프리 Views6105
    Read More
Board Pagination Prev 1 2 3 4 Next
/ 4