• 목록
  • 아래로
  • 위로

안녕하세요?


Beautifulsoup에서 .find(text=True, recursive=False)과 관련하여 질문 드립니다.



대략 다음과 같은 html 소스와 파이썬 스크립트가 있다고 가정하면요.


from bs4 import BeautifulSoup

html  = '<span class="member"><span class="lv-icon lv-100">100</span> <img src="https://able.net/data/member/abc.gif"> 댄스</span>'
soup = BeautifulSoup(html, 'html5lib')



member = soup.select_one('span.member').find(text=True, recursive=False).strip()


=> '' (none)


member = soup.select_one('span.member').find(text=True).strip()


=> 100


member = soup.select_one('span.member').text

=> 100  댄스



위와 같은 결과가 나오는데요.


text=True 옵션은 .text 메서드와 같은 결과를 리턴하고, recursive=False는 child를 제외한 해당 element만 선택한다고 알고 있는데요.


첫번째에서 ' 댄스'가 나오고, 두번째에서는 세번째와 같은 결과가 나와야 하는 것이 아닌가 하는 생각을 했는데요.



구글링해보니 다음과 같은 글이 있기는 한데 직관적으로 이해가 되지 않네요.


"If used with find_all or find, text=true looks for every tags with texts inside it while get_text() returns the text from your found tags."


출처: https://stackoverflow.com/questions/46124681/difference-and-when-to-use-text-true-and-get-text



제가 어디에서 실수를 하거나, 어느 부분에서 잘못 생각한 것인지 여쭤봅니다 ㅠㅠ


어제와 오늘 이 부분에서 막혀서 고민했는데 제 실력에서는 도저히 답이 안 나오네요~


그럼 즐거운 2020년의 첫 불금 되세요 ^-^


항상 감사드립니다!


작성자
이니스프리 119 Lv. (0%) 1903900/115200000EXP

Make StudyForUs Great Again!

 

CSVpuymXAAAVVpd.jpg

댓글 2

title: 황금 서버 (30일)humit
profile image

soup.select_one('span.member').find(text=True, recursive=False)

=> 100의 사이에 있는 공백이 나오게 됩니다. 그래서 여기에서 strip() 함수를 적용하면 빈 문자가 나오게 됩니다.

 

2번째 경우에는 find로 찾기 때문에 마찬가지로 첫 번째 텍스트 노드인 100이 반환됩니다. 만약 find 부분을 find_all로 바꾸면 3개의 원소가 반환되는 것을 확인할 수 있습니다.

 

3번째 경우인 .text의 경우에는 내부적으로 모든 child node에 대해서 텍스트 노드를 찾아서 연결하기 때문에 '100 댄스'라는 결과가 나오게 됩니다.

즉 elem.text는 ''.join(soup.select_one('span.member').find_all(text=True)) 와 같이 동작한다고 생각하시면 되겠습니다.

 

https://github.com/wention/BeautifulSoup4/blob/master/bs4/element.py#L846

comment menu
2020.01.04. 01:39

신고

"humit님의 댓글"

이 댓글을 신고 하시겠습니까?

이니스프리 작성자 → humit
profile image

앗 제가 완전히 잘못 이해하고 있었네요 ㅠㅠ

답변해주셔서 정말 감사합니다!!

.text가 ''.join(soup.select_one('span.member').find_all(text=True))와 같고, .find(text=Ture)는 다른 것이라고 보아야 되는군요~

그럼 humit 님께서도 즐거운 2020년의 첫 토요일 되시길 기원합니다 ^-^

comment menu
2020.01.04. 09:05

신고

"이니스프리님의 댓글"

이 댓글을 신고 하시겠습니까?

권한이 없습니다.
번호 제목 글쓴이 날짜 조회 수
공지 [작업 완료] 설 명절 맞이 서버 업데이트 안내 3 마스터 24.02.11.17:21 706
공지 [중요] 호스팅 만료와 관련하여 일부 수칙이 변경됩니다. 4 마스터 23.01.14.02:23 4381
공지 [필독] 질문하는 방법 17 마스터 18.02.23.03:09 4475
905 미디어위키 다시 시작하는데 위키에서 모듈 설정 해 보신 분 저좀 도와주세요 2 wikiowner 22.10.01.19:34 265
904 질문 2 poiega 22.09.03.23:35 148
903 FTP, FTPS, SFTP, WebDAV를 사용하지 않고 원격지 서버에 파일을 업로드하는 방법이 있을까요? 10 제르엘 22.09.01.14:33 219
902 xlsx 파일로 된 DB백업 데이터를 가져오기로 DB에 넣으려면 어떻게 해야할까요? 4 image 동파육 22.08.31.01:49 127
901 phpMyAdmin 접속시 mysqli_real_connect(): (HY000/1045): Access denied for user '000000'@'localhost' (using password: YES) 4 동파육 22.08.31.00:59 153
900 curl: (7) Failed to connect to localhost port 80: Connection refused 2 image 국내산라이츄 22.07.25.15:57 1569
899 Possible attack detected. This action has been logged. 패널접속하니 메세지가뜨네요 1 막시모 22.07.08.12:58 115
898 LTE 폰에서 3G 수신감도 확인방법?? 8 이니스프리 22.05.01.20:42 500
897 Vesa 마운트를 이용한 미니PC의 거치 4 이니스프리 22.04.07.12:23 274
896 우분투 20.04 cockpit 설치 안됨(해결) gunwook 22.04.01.22:20 113
895 브라우저 익스텐션이 있는 self hosted VPN으로 어떤 것이 있을까요? image 이니스프리 22.03.20.13:57 144
894 백업 파일도 디스크 용량에 포함인가요? 3 마당쇠15 22.03.10.10:52 166
893 DNS 관련 질문 (Netlify, CloudFlare) 5 밍원 22.02.14.15:24 202
892 나리야 빌더로 게임커뮤니티 운영 2 핫슈블로그 22.01.27.08:28 470
891 혹시 라이브러리나 개발자문서 한글 번역 정리 2 제목학원장 22.01.11.13:23 286
890 혹시 파이어베이스 사용하고 계시는 분 있으실까요? 공부에 도움될 만한 개발자 문서가 따로 있을까요? 3 제목학원장 22.01.07.13:57 244
889 호스팅 처음 해보는데 받은 주소를 쓰면 스터디 포 어스 페이지가 나옵니다. 7 yuyu 22.01.05.11:35 329
888 개인 홈페이지를 만들려고 하는데 보통 이미지들 어디서 얻으시나요? 다 만들어서 쓸 수는 없을 것 같고.. 2 yuyu 21.12.31.12:53 283
887 홈페에지가 구글에서 검색되도록 봇이 수집하게 설정했는데 API도 수집하도록 설정해도 되나요? 4 손가락개 21.12.06.03:45 278
886 sfuhost에서 사용 가능한 언어 6 모여라꿈동산 21.11.22.14:43 303