• 목록
  • 아래로
  • 위로

안녕하세요?


새해의 첫 근무일 잘 보내고 계시는지요? ^^



어제 휴일이어서 예전에 작성한 Selenium을 이용하여 특정 element를 스크린 캡쳐하는 스크립트를 수정해봤는데요.


iframe 내의 element의 경우에 직접 접근할 수 없으므로 iframe_on = 1으로 대입한 경우에 switch_to.frame을 하도록 하도록 하였구요.


iframe_on = 0으로 대입한 경우에는 바로 element에 접근하도록 했는데요.



이렇게 일일이 iframe의 존재 여부 및 XPath값을 대입하지 않고서도 


원하는 element의 XPath만 입력받아서 iframe 내부에 존재하는 element에 접근할 수 있는 방법을 생각해보고 있는데 쉽지 않네요 ㅠㅠ


제가 뭔가 웹에 대한 이해가 전반적으로 부족한 것 같기도 하구요~


Selenium에서는 XPath를 이용하여 바로 접근할 수 있지만, BeautifulSoup에서는 이런 방식이 허용되지 않는 문제와 겹쳐서 더욱 어려운 것 같네요.


특정 XPath에서 parent 노드의 iframe을 알아내서 그 XPath값을 얻어낸다면 해결될 수 있는 문제 같은데요.


1. //*[@id="post_688075132"] // parent :: iframe 이런 방식으로는 접근이 안 되는 것 같네요. 다른 접근 방법은 없을까요??


2. BeautifulSoup에서 Xpath를 지원한다면 조금 수월하게 해결될지도 모르겠는데 그렇다면 lxml이나 htmlement를 사용하면 해결 가능할까요??

(설치해서 시도는 해봤는데 아직까지는 잘 안 되네요 ㅠㅠ)



그럼 주말에 다시 날씨가 쌀쌀해진다는데 감기 조심하시구요.


스포어 회원님들께 항상 감사드립니다!


좋은 오후 되세요~ ^^



from selenium import webdriver
from selenium.webdriver.firefox.options import Options
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from bs4 import BeautifulSoup
from PIL import Image
from io import BytesIO
import time

options = Options()
options.headless = True
driver = webdriver.Firefox(options=options)
driver.implicitly_wait(10)

url = 'https://cafe.naver.com/joonggonara/689072432' # iframe을 사용한 예제 페이지로 중고나라를 선택했습니다.
xpath_e = '//*[@id="post_689072432"]'
driver.get(url)
time.sleep(1)
WebDriverWait(driver, 5).until(EC.visibility_of_all_elements_located((By.TAG_NAME, 'body')))

# 전체 페이지의 사이즈를 구하여 브라우저의 창 크기를 확대하고 스크린캡처를 합니다.
#driver.execute_script("document.body.style.zoom='zoom 100%'")
page_width = driver.execute_script('return document.body.parentNode.scrollWidth')
time.sleep(1)
page_height = driver.execute_script('return document.body.parentNode.scrollHeight')
time.sleep(1)
driver.set_window_size(page_width, page_height)
time.sleep(1)
png = driver.get_screenshot_as_png()
time.sleep(1)

# 특정 element 및 해당 iframe의 위치를 구합니다.

iframe_on = 1 # 만약 iframe이 없으면 0을 대입합니다.
if iframe_on == 1:
    #WebDriverWait(driver, 5).until(EC.visibility_of_all_elements_located((By.XPATH, '//*[@id="cafe_main"]')))
    iframe = driver.find_element_by_xpath('//*[@id="cafe_main"]')
    iframe_location = iframe.location
    iframe_size = iframe.size
    driver.switch_to.frame(iframe)
    time.sleep(1)

element = driver.find_element_by_xpath(xpath_e)
image_location = element.location
image_size = element.size

# 이미지를 element의 위치에 맞춰서 crop 하고 저장합니다.
im = Image.open(BytesIO(png))

if iframe_on == 1:
    left = image_location['x'] + iframe_location['x']
    top = image_location['y'] + iframe_location['y']
    right = image_location['x'] + iframe_location['x'] + image_size['width']
    bottom = image_location['y']  + iframe_location['y'] + image_size['height']    
else:
    left = image_location['x']
    top = image_location['y']
    right = image_location['x'] + image_size['width']
    bottom = image_location['y'] + image_size['height']

im = im.crop((left, top, right, bottom))
rgb_im = im.convert('RGB')
filename = 'screenshot.jpg'
rgb_im.save(filename)
print('The element "' + xpath_e + '" was captured. : ' + filename)
driver.quit()



작성자
이니스프리 119 Lv. (0%) 1876250/115200000EXP

당분간 일신상의 사정으로 쪽지나 댓글로 답변을 드리기 어렵습니다. 죄송합니다.

 

CSVpuymXAAAVVpd.jpg

댓글 2

포인트 폭탄+
이니스프리님 축하합니다.
추가로 200포인트만큼 포인트 폭탄+를 받았습니다.
comment menu
2020.01.02. 16:04

신고

"포인트 폭탄+님의 댓글"

이 댓글을 신고 하시겠습니까?

삭제

"포인트 폭탄+님의 댓글"

이 댓글을 삭제하시겠습니까?

이니스프리 작성자 → 포인트 폭탄+
profile image

포인트 폭탄+도 궁금했나 보네요 ^-^

comment menu
2020.01.02. 16:04

신고

"이니스프리님의 댓글"

이 댓글을 신고 하시겠습니까?

권한이 없습니다.
번호 제목 글쓴이 날짜 조회 수
공지 [작업 완료] 설 명절 맞이 서버 업데이트 안내 3 마스터 24.02.11.17:21 394
공지 [중요] 호스팅 만료와 관련하여 일부 수칙이 변경됩니다. 4 마스터 23.01.14.02:23 4075
공지 [필독] 질문하는 방법 17 마스터 18.02.23.03:09 4465
902 xlsx 파일로 된 DB백업 데이터를 가져오기로 DB에 넣으려면 어떻게 해야할까요? 4 image 동파육 22.08.31.01:49 127
901 phpMyAdmin 접속시 mysqli_real_connect(): (HY000/1045): Access denied for user '000000'@'localhost' (using password: YES) 4 동파육 22.08.31.00:59 143
900 curl: (7) Failed to connect to localhost port 80: Connection refused 2 image 국내산라이츄 22.07.25.15:57 1551
899 Possible attack detected. This action has been logged. 패널접속하니 메세지가뜨네요 1 막시모 22.07.08.12:58 115
898 LTE 폰에서 3G 수신감도 확인방법?? 8 이니스프리 22.05.01.20:42 498
897 Vesa 마운트를 이용한 미니PC의 거치 4 이니스프리 22.04.07.12:23 273
896 우분투 20.04 cockpit 설치 안됨(해결) gunwook 22.04.01.22:20 113
895 브라우저 익스텐션이 있는 self hosted VPN으로 어떤 것이 있을까요? image 이니스프리 22.03.20.13:57 144
894 백업 파일도 디스크 용량에 포함인가요? 3 마당쇠15 22.03.10.10:52 166
893 DNS 관련 질문 (Netlify, CloudFlare) 5 밍원 22.02.14.15:24 200
892 나리야 빌더로 게임커뮤니티 운영 2 핫슈블로그 22.01.27.08:28 467
891 혹시 라이브러리나 개발자문서 한글 번역 정리 2 제목학원장 22.01.11.13:23 286
890 혹시 파이어베이스 사용하고 계시는 분 있으실까요? 공부에 도움될 만한 개발자 문서가 따로 있을까요? 3 제목학원장 22.01.07.13:57 244
889 호스팅 처음 해보는데 받은 주소를 쓰면 스터디 포 어스 페이지가 나옵니다. 7 yuyu 22.01.05.11:35 328
888 개인 홈페이지를 만들려고 하는데 보통 이미지들 어디서 얻으시나요? 다 만들어서 쓸 수는 없을 것 같고.. 2 yuyu 21.12.31.12:53 283
887 홈페에지가 구글에서 검색되도록 봇이 수집하게 설정했는데 API도 수집하도록 설정해도 되나요? 4 손가락개 21.12.06.03:45 278
886 sfuhost에서 사용 가능한 언어 6 모여라꿈동산 21.11.22.14:43 303
885 index 파일은 어디에 넣어야 되는걸까요? 3 모여라꿈동산 21.11.22.08:44 229
884 홈 서버 운영과 관련하여 사소한 질문 몇 가지가 있습니다. 8 image 제르엘 21.11.22.01:54 340
883 호스팅 신청했는데 초기 설정 어떻게 하는건가요? 5 모여라꿈동산 21.11.21.23:44 182