목록
아래로
위로

Beautifulsoup에서 .find(text=True, recursive=False)과 관련하여 질문 드립니다.

2
이니스프리
2020.01.03. 23:11
조회 수 1205

안녕하세요?

대략 다음과 같은 html 소스와 파이썬 스크립트가 있다고 가정하면요.

from bs4 import BeautifulSoup

html  = '<span class="member"><span class="lv-icon lv-100">100</span> <img src="https://able.net/data/member/abc.gif"> 댄스</span>'
soup = BeautifulSoup(html, 'html5lib')

member = soup.select_one('span.member').find(text=True, recursive=False).strip()

=> '' (none)

member = soup.select_one('span.member').find(text=True).strip()

=> 100

member = soup.select_one('span.member').text

=> 100 댄스

위와 같은 결과가 나오는데요.

text=True 옵션은 .text 메서드와 같은 결과를 리턴하고, recursive=False는 child를 제외한 해당 element만 선택한다고 알고 있는데요.

첫번째에서 ' 댄스'가 나오고, 두번째에서는 세번째와 같은 결과가 나와야 하는 것이 아닌가 하는 생각을 했는데요.

구글링해보니 다음과 같은 글이 있기는 한데 직관적으로 이해가 되지 않네요.

"If used with find_all or find, text=true looks for every tags with texts inside it while get_text() returns the text from your found tags."

출처: https://stackoverflow.com/questions/46124681/difference-and-when-to-use-text-true-and-get-text

제가 어디에서 실수를 하거나, 어느 부분에서 잘못 생각한 것인지 여쭤봅니다 ㅠㅠ

어제와 오늘 이 부분에서 막혀서 고민했는데 제 실력에서는 도저히 답이 안 나오네요~

그럼 즐거운 2020년의 첫 불금 되세요 ^-^

항상 감사드립니다!

작성자

이니스프리 119 Lv. (2%) 4155910/115200000EXP

Make StudyForUs Great Again!

humit

soup.select_one('span.member').find(text=True, recursive=False)

=> 100와 의 사이에 있는 공백이 나오게 됩니다. 그래서 여기에서 strip() 함수를 적용하면 빈 문자가 나오게 됩니다.

2번째 경우에는 find로 찾기 때문에 마찬가지로 첫 번째 텍스트 노드인 100이 반환됩니다. 만약 find 부분을 find_all로 바꾸면 3개의 원소가 반환되는 것을 확인할 수 있습니다.

3번째 경우인 .text의 경우에는 내부적으로 모든 child node에 대해서 텍스트 노드를 찾아서 연결하기 때문에 '100 댄스'라는 결과가 나오게 됩니다.

즉 elem.text는 ''.join(soup.select_one('span.member').find_all(text=True)) 와 같이 동작한다고 생각하시면 되겠습니다.

https://github.com/wention/BeautifulSoup4/blob/master/bs4/element.py#L846

2020.01.04. 01:39

"humit님의 댓글"

이 댓글을 신고 하시겠습니까?

이니스프리 작성자 → humit

앗 제가 완전히 잘못 이해하고 있었네요 ㅠㅠ

답변해주셔서 정말 감사합니다!!

.text가 ''.join(soup.select_one('span.member').find_all(text=True))와 같고, .find(text=Ture)는 다른 것이라고 보아야 되는군요~

그럼 humit 님께서도 즐거운 2020년의 첫 토요일 되시길 기원합니다 ^-^

2020.01.04. 09:05

"이니스프리님의 댓글"

이 댓글을 신고 하시겠습니까?

권한이 없습니다.

번호	제목	글쓴이	날짜	조회 수
공지	시스템 점검 작업 완료 안내 10	마스터	24.09.05.16:25	2095
공지	[중요] 호스팅 만료와 관련하여 일부 수칙이 변경됩니다. 4	마스터	23.01.14.02:23	8883
공지	[필독] 질문하는 방법 17	마스터	18.02.23.03:09	4870
666	커뮤니티 사이트의 출첵 게시판의 활성화에 대한 좋은 아이디어가 있을까요?? 4	이니스프리	20.01.19.00:44	361
665	VPS에서의 Selenium 사용과 관련하여 질문 드립니다. 4	이니스프리	20.01.17.14:37	365
664	'링 피트 어드벤처'가 정말 운동이 되는가요?? 4	이니스프리	20.01.11.12:41	345
663	우분투만 사용하다가 페도라 13 / Centos 6.9 시험에 응시하려면 적응하기 어려울까요? ㅠㅠ 8	이니스프리	20.01.08.22:56	488
662	파이썬 에디터로 어떤 것이 좋나요? 14	NoYeah	20.01.08.21:08	4589
661	이미지 외부링크가 엑박으로 나온다면 어느 부분을 우선적으로 검토해야 될까요?	이니스프리	20.01.05.23:15	667
660	해상도는 다르지만 동일한 이미지인지 체크하는 방법이 있을까요? 2	이니스프리	20.01.05.20:52	608
	Beautifulsoup에서 .find(text=True, recursive=False)과 관련하여 질문 드립니다. 2	이니스프리	20.01.03.23:11	1205
658	[Selenium] 특정 XPath에서 parent 노드의 iframe을 알아낼 수 있을까요? 2	이니스프리	20.01.02.16:04	610
657	[파이썬] 윈도우에서 pip install로 모듈 설치시에 문제가 발생하는 것과 관련하여 질문 드립니다 2	이니스프리	19.12.29.00:51	423
656	여러 개의 반복작업을 켜고 끄는 버튼을 비동기적으로 구현해보려고 하는데요 ㅠㅠ 2	이니스프리	19.12.27.23:10	615
655	유튜브 채널 주소 잘아시는분있나요? 2	슬기	19.12.27.09:55	210
654	Requests나 Selenium에서 어떤 XHR 전송이 있었는지 확인할 수 있는 방법이 있을까요? 3	이니스프리	19.12.26.18:47	310
653	카고야 VPS에서 메일이 왔는데 일본어 관련해서 질문 드립니다. 5	이니스프리	19.12.26.11:45	323
652	[파이썬] 결과를 print 문으로 출력하는 것과 파일로 출력하는 것과 결과가 왜 다른가요? 8	이니스프리	19.12.25.13:19	824
651	음성번역기 앱 중에 켜놓으면 계속 번역을 해주는 앱이 있을까요?	이니스프리	19.12.25.11:16	296
650	https://imgnbvip.com/ 라는 이미지 호스팅 사이트가 있나요?	이니스프리	19.12.24.11:08	295
649	Google Developer Console의 API 라이브러리 무료 이용에 대해 질문 드립니다. 5	이니스프리	19.12.23.12:58	294
648	부산 맛집 추천 부탁드려요~! 3	이니스프리	19.12.20.19:00	226
647	[Requests] multipart/form-data의 전송에 대해 질문 드립니다 ^^ 4	이니스프리	19.12.18.22:00	3162

번호

제목

글쓴이

날짜

조회 수

공지

시스템 점검 작업 완료 안내 10

마스터

24.09.05.16:25

2095

공지

[중요] 호스팅 만료와 관련하여 일부 수칙이 변경됩니다. 4

마스터

23.01.14.02:23

8883

공지

[필독] 질문하는 방법 17

마스터

18.02.23.03:09

4870

666

커뮤니티 사이트의 출첵 게시판의 활성화에 대한 좋은 아이디어가 있을까요?? 4

작성자 이니스프리 119 Lv. (2%) 4155910/115200000EXP

댓글 2

신고

신고

검색

로그인

작성자

이니스프리 119 Lv. (2%) 4155910/115200000EXP