- 0
- 이니스프리
- 조회 수 289
1. 인코딩의 문제
https://stackoverflow.com/questions/31126831/beautifulsoup-with-xml-fails-to-parse-full-unicode-strings
위 글을 참조하시면 좋을 것 같습니다.
2. 파서의 문제
출처: https://brownbears.tistory.com/414
제가 테스트해보니 html.parser를 사용해서 짤리는 경우에 html5lib를 사용하면 제대로 나오는 경우가 있습니다.
tbody 안의 tr 태그가 몇 개인지 체크하는 스크립트를 통해 테스트했는데,
전자를 사용하면 1개로 나오는 것이 후자를 사용하면 6개로 정확히 나오더군요.
위 표에는 html5lib는 별도의 설치가 필요하다고 설명되어 있는데, 아나콘다 또는 미니콘다 환경에서는 이미 설치되어 있습니다 ^^
그리고 제가 테스트한 환경에서는 html.text와 html.content의 차이는 없는 것 같네요.
작성자
댓글 0
권한이 없습니다.