• 목록
  • 아래로
  • 위로

저는 파이썬에 대해 아주 기초적인 내용만을 알고 있습니다 ㅠㅠ


나중에 수정해야 할 부분이나 새로 추가해야 할 부분을 발견하게 되면 보완하도록 하겠습니다.



1) 파이썬3은 파이썬2와 달리 UTF-8이 디폴트이기 때문에 #-*- coding:utf-8 -*- 이 구문은 불필요합니다.



2) 스트링의 인코딩과 관련해서는 파이썬 2.X와 표현이 조금 달라진 점이 있습니다.



s = "한글" 
u = str(s, "utf-8")



3) 변수에 담긴 문자열에 인코딩 문제가 발생하면 다음과 같이 해결하시면 됩니다 ^^



var_string = var_string.decode('cp949').encode('utf-8')




4) 외부 라이브러리의 인코딩을 설정하려면 다음과 같은 방식으로 하시면 됩니다.



import sys

reload(sys)

sys.setdefaultencoding('utf-8')




5) 입출력과 관련해서는 다음과 같은 방식으로 처리하시면 됩니다.



with open('euc_kr.txt', encoding='euc-kr') as f:

또는

f = open("utf8.txt", 'w', encoding='UTF-8')




6) 아톰 계열의 에디터에서 문제가 발생하면 다음과 같은 내용을 스크립트에 추가하시면 됩니다.



import sys

import io

sys.stdout = io.TextIOWrapper(sys.stdout.detach(), encoding = 'utf-8')

sys.stderr = io.TextIOWrapper(sys.stderr.detach(), encoding = 'utf-8')




추가) Beautifulsoup에서의 인코딩은 다음과 같이 처리합니다.



soup = BeautifulSoup(html, 'html.parser', from_encoding='euc-kr')



작성자
이니스프리 119 Lv. (2%) 4149710/115200000EXP

Make StudyForUs Great Again!

 

CSVpuymXAAAVVpd.jpg

댓글 3

NoYeah
profile image
cp949를 따로 지정하는 것을 보니 윈도우와 utf-8의 간극 때문에 설정해줘야 하는 현상 같군요.

2바이트 문자권인 한글로 인해 항상 문제가 생기는 것 같습니다. ㅠㅠ
comment menu
2018.11.06. 16:39

신고

"NoYeah님의 댓글"

이 댓글을 신고 하시겠습니까?

이니스프리 작성자 → NoYeah
profile image

현재 윈도우 커널에 유니코드가 적용되었음에도 불구하고

윈도우 95 시절의 CP949를 왜 아직도 윈도우의 디폴트 인코딩으로 사용하는지 모르겠어요.

그리고 일부 웹사이트에서 CP949를 아직도 사용하더군요 ㅠㅠ

심지어 인코딩으로 EUC-KR을 선언해 놓고서 CP949로 인코딩된 페이지를 보내는 웹사이트들도 있어서 헷갈리더군요.


여담이지만 인코딩 문제에 아주 민감하신 분들은 

커널에 직접 접근하는 보안프로그램은 2바이트 문자권의 언어가 아닌 영문판을 사용하길 권한다고 말씀하시기도 하더군요.

comment menu
2018.11.06. 16:45

신고

"이니스프리님의 댓글"

이 댓글을 신고 하시겠습니까?

NoYeah → 이니스프리
profile image
인코딩을 연구하다보면 왜 영어가 세계 표준으로 사용되는지 이해가 되긴 하더라구요.
comment menu
2018.11.06. 17:34

신고

"NoYeah님의 댓글"

이 댓글을 신고 하시겠습니까?

권한이 없습니다.
번호 제목 글쓴이 날짜 조회 수
공지 시스템 점검 작업 완료 안내 10 마스터 마스터 24.09.05.16:25 2033
공지 [중요] 호스팅 만료와 관련하여 일부 수칙이 변경됩니다. 4 마스터 마스터 23.01.14.02:23 8815
180 [학술정보] Breaking character and natural image based CAPTCHA using feature classification 1 이니스프리 이니스프리 18.11.13.16:01 216
179 윈도우 탐색기의 새로 고침 기능 자동화하기 2 이니스프리 이니스프리 18.11.13.13:59 2072
178 [우분투/파이썬] pip로 pytesseract를 설치 후 not installed or not in your path 메세지에 대한 대처방법 이니스프리 이니스프리 18.11.12.20:05 2237
177 유튜브에서 국내 캐시서버로 연결되었는지 확인하는 방법 image 이니스프리 이니스프리 18.11.09.22:41 846
176 윈도우의 CMD 창에서 Ctrl+V로 붙여넣기 (윈도우 10 / 윈도우 8 이하) 3 image 이니스프리 이니스프리 18.11.08.00:15 5836
파이썬3에서 인코딩과 관련된 문제의 해결방법 3 이니스프리 이니스프리 18.11.06.00:49 415
174 동일한 페이지 내에서 복수의 OwlCarousel의 설정을 달리하는 방법 이니스프리 이니스프리 18.11.05.22:15 496
173 ABBYY FineReader의 OCR 언어 세팅 - 한국어(한글) vs 한국어 등 관련 이니스프리 이니스프리 18.11.05.16:07 2141
172 아미나에서 우측 사이드를 제거하기 (+화면 폭 꽉 차도록 수정) 이니스프리 이니스프리 18.11.04.21:14 686
171 아미나에서 헤더와 푸터를 출력하지 않는 가장 간단한 방법 이니스프리 이니스프리 18.11.04.20:41 219
170 [Python] Selenium에서 팝업을 허용하는 방법 이니스프리 이니스프리 18.11.01.21:37 2182
169 Owl Carousel에서 버전별 하단 dots를 없애는 방법 image 이니스프리 이니스프리 18.10.29.18:25 898
168 탐색기에서 현재 폴더를 CMD로 열기 / CMD에서 현재 폴더를 탐색기로 열기 이니스프리 이니스프리 18.10.27.14:31 1758
167 JavaScript에서 Array로 Multipul Evaluation을 사용하면서 어디에 오류가 발생했는지 확인하기 Seia Seia 18.10.21.14:47 445
166 온라인 TTS 이용할 수 있는곳 2 슬기 슬기 18.10.18.22:42 256
165 Youtube-DLG에서 10014 소켓 에러가 뜨는 경우 해결 방법 (방화벽 관련) 2 image 이니스프리 이니스프리 18.10.16.06:44 1975
164 특정 파일을 제외한 현재 디렉토리 내의 모든 파일을 삭제하는 배치파일 이니스프리 이니스프리 18.10.12.17:11 3233
163 외부 IP 주소만 보여주는 사이트 이니스프리 이니스프리 18.10.12.11:40 351
162 마지막 방문일자 알려주기 슬기 슬기 18.10.11.00:31 487
161 [Ubuntu/Python] Selenium에서 Headless browser의 설치 및 실행 이니스프리 이니스프리 18.10.09.23:54 1020