• 목록
  • 아래로
  • 위로

image.png.jpg

 

안녕하세요?

 

오래간만에 작성하는 강좌네요 ^-^

 

 

웹 크롤링을 하다보면 때로는 Selenium에서 개발자도구 중 '네트워크' 탭의 로그를 얻어야 하는 경우가 발생합니다.

 

이런 경우에는 BrowserMobProxy와 같은 proxy를 사용하는 방법이 일반적이죠~

 

하지만 proxy를 사용하지 않고서도 Geckodriver(Firefox) 및 javascript를 적절히 활용하여 네트워크 탭의 로그를 얻을 수 있어요!

 

 

from selenium import webdriver
import time

driver = webdriver.Firefox() # 파폭만 가능한 방법입니다.
driver.get('URL을 입력하세요')
time.sleep(2) # 적당한 딜레이를 필요로 합니다.
logs = driver.execute_script("var performance = window.performance || window.mozPerformance || window.msPerformance || window.webkitPerformance || {}; var network = performance.getEntries() || {}; return network;")
names = [x['name'] for x in logs] # 네트워크 탭에서 name만 추출합니다.
print(names)

 

 

만약 네트워크 탭의 name 중에서 특정 확장자만 추출하려면

 

names = [x['name'] for x in test if x['name'].split('.')[-1] == '원하는 확장자']

 

이런 방식으로 추출할 수 있겠네요 :)

 

 

다만 브라우저에서 직접 특정 페이지를 열고 개발자도구에서 requests 개수를 확인한 결과와

 

위와 같은 방법으로 얻어진 dict의 길이를 비교하는 테스트를 해보면 약간의 차이가 발생하는군요 ㅎㄷㄷ

 

아마도 페이지 로딩 후의 async/ajax call에 대해서는 누락이 되는 것 같아요 ㅠㅠ

 

결론적으로 proxy를 사용하는 것만큼 완벽한 로그를 얻을 수는 없지만,

 

경우에 따라서는 proxy의 대안이 되기에 충분할 수도 있겠네요 :)

 

 

허접한 내용인데 읽어주셔서 감사합니다~

 

그럼 즐거운 주말 되세요 ^^

 

gamb1t님 gamb1t 포함 3명이 추천

추천인 3

작성자
이니스프리 119 Lv. (0%) 1926050/115200000EXP

Make StudyForUs Great Again!

 

CSVpuymXAAAVVpd.jpg

댓글 0

권한이 없습니다.
번호 제목 글쓴이 날짜 조회 수
29 [번외편 - 법률] 나무위키의 서술 중 법률용어의 사용에 있어 바로잡아야 할 부분 image 이니스프리 이니스프리 19.07.17.22:44 447
28 0. 행의 분리 및 결합 / 멀티라인 문자열 image 이니스프리 이니스프리 21.04.18.11:53 453
27 [번외편 - 한컴한글] 스마트한 문서 작성을 위한 팁 (작성 중) 이니스프리 이니스프리 20.08.08.13:50 498
26 (序) Python 강좌를 시작하며... 2 image 이니스프리 이니스프리 19.12.05.21:55 500
25 4. 문자열 처리 (2) - 문자열 조작에 대한 기본함수 및 메서드 1 image 이니스프리 이니스프리 19.12.12.02:27 561
24 [번외편 - 아미나] 아미나의 회원 이미지와 관련하여 x2 3 image 이니스프리 이니스프리 18.12.10.19:57 705
23 [번외편 - 아미나] Basic Youtube Title Widget 1.0에서 처음에 엑박으로 뜨는 경우의 해결책 3 image 이니스프리 이니스프리 18.12.15.23:02 751
22 9. [정리] 파이써닉한 파이썬 문법 팁 for COS Pro image 이니스프리 이니스프리 20.01.04.23:47 1015
21 3. 문자열 처리 (1) - 문자열 접근 및 검색방법 4 image 이니스프리 이니스프리 19.12.09.20:00 1184
20 21. [OpenPyXL] 엑셀 문서를 열고 시트에서 셀의 값을 얻기 3 image 이니스프리 이니스프리 20.02.01.23:46 1275
19 [번외편 - 법률] 현행 저작권법 제30조(사적이용을 위한 복제)에 대하여 - 음원 다운로더의 처벌과 관련하여 6 이니스프리 이니스프리 18.12.07.14:16 1313
18 [Requests-HTML] Requests와 비교할 때의 장점! (네이버 뉴스 등 크롤링) 7 image 이니스프리 이니스프리 20.05.14.19:08 1438
[Selenium] proxy를 사용하지 않고 개발자도구에서 Network 탭의 로그를 얻기 image 이니스프리 이니스프리 21.03.06.23:35 1575
16 [python-telegram-bot] 4096자 글자수 제한을 우회하는 방법 image 이니스프리 이니스프리 20.01.12.11:25 2089
15 6. 리스트와 관련된 기본함수 및 메서드 7 image 이니스프리 이니스프리 19.12.10.21:16 2101
14 1. 반복문 (1) - while 문 7 image 이니스프리 이니스프리 19.12.06.20:50 2513
13 [번외편 - 아미나] 그누보드/아미나에서 게시글의 날짜를 최종수정일로 변경하고, 목록스킨 및 위젯을 최종수정일 순으로 정렬하기 2 image 이니스프리 이니스프리 18.11.11.22:36 2573
12 [디지털포렌식전문가] 제21회 필기시험 합격 후기 9 image 이니스프리 이니스프리 23.10.29.16:11 2682
11 [번외편 - 유튜브] Youtube API를 이용하거나 또는 이용하지 않고 채널ID를 추출하는 방법 2 image 이니스프리 이니스프리 19.07.16.17:55 2752
10 [번외편 - 구글뉴스] 리뉴얼된 구글뉴스에서 RSS 피드를 생성하는 방법 6 image 이니스프리 이니스프리 18.10.07.17:58 3533