• 목록
  • 아래로
  • 위로

2021-10-31 01.33.27.jpg

아니 뭐 했다고 12월이... (주륵) 


 

1. 처음보는 파일인데 뭔 파일인가요? 

FASTA와 FASTAQ파일은 생물학 전공자, 특히 Bioinformatics를 하는 사람들이 아니면 볼 일은 크게 없습니다. 왜냐하면... DNA/RNA/단백질의 시퀀스 데이터를 담고 있는 파일이니까요. (대충 펀쿨섹좌 짤) 생물정보학쪽으로 종사하거나 공부하는 사람들이라면 적어도 한번은 접해본 적 있는 파일입니다. 특히 FASTA 파일은요. (Biopython도 첫 빠따는 FASTA 파일 여는겁니다) 

 

2. FASTA file

스크린샷, 2021-12-09 12-30-27.png.jpg

(NCBI의 sra data)

스크린샷, 2021-12-09 12-41-34.png.jpg

(RCSB PDB에서 제공하는 단백질 시퀀스)

 

FASTA 파일은 단백질 혹은 핵산 시퀀스 데이터를 담고 있는 파일입니다. 프로그래머는 첫 빠따가 hello, world!이고 양자역학에는 슈뢰딩거 방정식이 있듯이 그게 뭔데요 몰라 아무튼 복잡한거 있어 FASTA 파일은 꺾쇠(>)로 시작하는 게 국룰입니다. 꺾쇠 시퀀스 꺾쇠 시퀀스죠. 꺾쇠는 description영역이고, 어떤 DB에서 받았느냐에 따라 다르게 기재됩니다. 

스크린샷, 2021-12-09 12-13-36.png.jpg

DB가 생각보다 많으니 대충 이렇구나만 보고 넘어가시면 됩니다. 

 

3. FASTAQ file

스크린샷, 2021-12-09 12-29-51.png.jpg

(sra data file)

FASTAQ 파일도 국룰이 있는데, 네 줄로 끊어서 기록하는 게 국룰입니다. 

 

1. 첫 줄은 골뱅이(@)로 시작하고, description 영역입니다. (이 시퀀스 뭐임) 

2. 두번째 줄에 시퀀스 데이터가 들어갑니다. 

3. 세번째 줄은 더하기(+)로 시작하고 optional 영역입니다. 

4. 네번째 줄에 Quality values가 들어갑니다. 이래서 FASTAQ인가 

 

NGS(Next-generation sequencing)을 진행하게 되면 쌩으로 생성되는 파일은 BCL(이진 파일)이고, 이걸 변환해서 최종적으로 FASTAQ 파일이 나오게 됩니다. 퀄리티 값도 그것때문에 있는거고요. 생물정보학에서 사용하는 Biopython은 두 파일 다 불러올 수 있고, FASTAQ파일의 경우 FASTA파일로 변환도 가능하지만 역으로 변환은 안 됩니다. FASTA 파일은 시퀀스 데이터만 존재하거든요. 

 

Appendix.  FASTA/FASTAQ file에서 쓰는 문자 

스크린샷, 2021-12-09 12-16-04.png.jpg

(DNA/RNA용 문자)

스크린샷, 2021-12-09 12-16-18.png.jpg

(단백질용 문자, FASTA)

 

FASTAQ는 단백질에 대해서는 생성되지 않습니다. (단백질은 시퀀싱을 못하죠...)

 

Appendix 2. FASTAQ의 Quality value

스크린샷, 2021-12-09 12-54-55.png.jpg

Quality value는 ASCII code 중 인쇄 가능한 글자를 사용하며, !가 제일 작고 ~가 제일 큽니다. 

포함 2명이 추천

추천인 2

작성자
국내산라이츄 101 Lv. (92%) 831180/832320EXP

인생은 양자역학이외다

댓글 0

권한이 없습니다.
번호 제목 글쓴이 날짜 조회 수
31 19. 카리킨에 대해 알아보시츄 9 image 국내산라이츄 국내산라이츄 18.08.26.22:35 1035
30 20. 알레르기츄 3 image 국내산라이츄 국내산라이츄 18.10.03.23:44 935
29 21. 혈액형입니츄 12 image 국내산라이츄 국내산라이츄 18.12.08.04:58 1290
28 22. 혈액입니츄 1 image 국내산라이츄 국내산라이츄 19.02.05.01:35 966
27 23. 완충용액이츄 2 image 국내산라이츄 국내산라이츄 19.03.24.02:35 2691
26 24. 메탄올과 에탄올 듀오였츄 14 image 국내산라이츄 국내산라이츄 19.07.07.22:10 1297
25 25. GHS였츄 3 image 국내산라이츄 국내산라이츄 20.01.15.02:02 1011
24 특별편-보건용 마스크란 2 image 국내산라이츄 국내산라이츄 20.01.30.00:14 1159
23 26. Next generation sequencing이었츄 2 image 국내산라이츄 국내산라이츄 20.05.17.02:01 460
22 27. 멘델의 유전법칙이였츄 (부제: 파란 장미는 어떻게 교배해야 나오나요) 1 image 국내산라이츄 국내산라이츄 20.05.31.03:29 12608
21 28. 탈리도마이드츄 1 image 국내산라이츄 국내산라이츄 20.09.20.02:37 447
20 29. 생활 속의 진법이었츄 5 image 국내산라이츄 국내산라이츄 21.02.25.23:43 652
19 30. 밀도에 대해 알아보시츄 image 국내산라이츄 국내산라이츄 21.10.19.23:40 3329
18 31. EC50과 IC50이었츄 12 image 국내산라이츄 국내산라이츄 21.10.31.23:32 2625
17 32. SMILES였츄 image 국내산라이츄 국내산라이츄 21.11.12.11:45 404
16 33. 그래프 이론이었츄 4 image 국내산라이츄 국내산라이츄 21.11.12.12:56 910
15 34. 단백질이 접히는 과정츄 5 image 국내산라이츄 국내산라이츄 21.11.16.12:38 3364
35. FASTA와 FASTAQ 파일이었츄 image 국내산라이츄 국내산라이츄 21.12.09.13:27 2949
13 36. Bradford assay였츄 4 image 국내산라이츄 국내산라이츄 21.12.28.12:12 2439
12 37. VCF file image 국내산라이츄 국내산라이츄 22.01.06.14:56 7517