• 목록
  • 아래로
  • 위로

2021-10-31 01.33.27.jpg

아니 뭐 했다고 12월이... (주륵) 


 

1. 처음보는 파일인데 뭔 파일인가요? 

FASTA와 FASTAQ파일은 생물학 전공자, 특히 Bioinformatics를 하는 사람들이 아니면 볼 일은 크게 없습니다. 왜냐하면... DNA/RNA/단백질의 시퀀스 데이터를 담고 있는 파일이니까요. (대충 펀쿨섹좌 짤) 생물정보학쪽으로 종사하거나 공부하는 사람들이라면 적어도 한번은 접해본 적 있는 파일입니다. 특히 FASTA 파일은요. (Biopython도 첫 빠따는 FASTA 파일 여는겁니다) 

 

2. FASTA file

스크린샷, 2021-12-09 12-30-27.png.jpg

(NCBI의 sra data)

스크린샷, 2021-12-09 12-41-34.png.jpg

(RCSB PDB에서 제공하는 단백질 시퀀스)

 

FASTA 파일은 단백질 혹은 핵산 시퀀스 데이터를 담고 있는 파일입니다. 프로그래머는 첫 빠따가 hello, world!이고 양자역학에는 슈뢰딩거 방정식이 있듯이 그게 뭔데요 몰라 아무튼 복잡한거 있어 FASTA 파일은 꺾쇠(>)로 시작하는 게 국룰입니다. 꺾쇠 시퀀스 꺾쇠 시퀀스죠. 꺾쇠는 description영역이고, 어떤 DB에서 받았느냐에 따라 다르게 기재됩니다. 

스크린샷, 2021-12-09 12-13-36.png.jpg

DB가 생각보다 많으니 대충 이렇구나만 보고 넘어가시면 됩니다. 

 

3. FASTAQ file

스크린샷, 2021-12-09 12-29-51.png.jpg

(sra data file)

FASTAQ 파일도 국룰이 있는데, 네 줄로 끊어서 기록하는 게 국룰입니다. 

 

1. 첫 줄은 골뱅이(@)로 시작하고, description 영역입니다. (이 시퀀스 뭐임) 

2. 두번째 줄에 시퀀스 데이터가 들어갑니다. 

3. 세번째 줄은 더하기(+)로 시작하고 optional 영역입니다. 

4. 네번째 줄에 Quality values가 들어갑니다. 이래서 FASTAQ인가 

 

NGS(Next-generation sequencing)을 진행하게 되면 쌩으로 생성되는 파일은 BCL(이진 파일)이고, 이걸 변환해서 최종적으로 FASTAQ 파일이 나오게 됩니다. 퀄리티 값도 그것때문에 있는거고요. 생물정보학에서 사용하는 Biopython은 두 파일 다 불러올 수 있고, FASTAQ파일의 경우 FASTA파일로 변환도 가능하지만 역으로 변환은 안 됩니다. FASTA 파일은 시퀀스 데이터만 존재하거든요. 

 

Appendix.  FASTA/FASTAQ file에서 쓰는 문자 

스크린샷, 2021-12-09 12-16-04.png.jpg

(DNA/RNA용 문자)

스크린샷, 2021-12-09 12-16-18.png.jpg

(단백질용 문자, FASTA)

 

FASTAQ는 단백질에 대해서는 생성되지 않습니다. (단백질은 시퀀싱을 못하죠...)

 

Appendix 2. FASTAQ의 Quality value

스크린샷, 2021-12-09 12-54-55.png.jpg

Quality value는 ASCII code 중 인쇄 가능한 글자를 사용하며, !가 제일 작고 ~가 제일 큽니다. 

입체그림님 입체그림 포함 2명이 추천

추천인 2

작성자
title: 왕관 (12개월 이용권)허니버터라이츄 91 Lv. (37%) 667950/677120EXP

"만날 인연이면 어떤 형태로든 다시 만나고, 헤어질 인연이면 아무리 붙들고 애써도 헤어집디다."

댓글 0

권한이 없습니다.
번호 제목 글쓴이 날짜 조회 수
42 38. 감마퐝숀이었츄 1 image 허니버터라이츄 title: 왕관 (12개월 이용권)허니버터라이.. 22.04.25.23:41 3378
41 특별편: 저세상 코드 등⭐장 image 허니버터라이츄 title: 왕관 (12개월 이용권)허니버터라이.. 22.01.14.17:07 6240
40 37. VCF file image 허니버터라이츄 title: 왕관 (12개월 이용권)허니버터라이.. 22.01.06.14:56 7330
39 36. Bradford assay였츄 4 image 허니버터라이츄 title: 왕관 (12개월 이용권)허니버터라이.. 21.12.28.12:12 2185
35. FASTA와 FASTAQ 파일이었츄 image 허니버터라이츄 title: 왕관 (12개월 이용권)허니버터라이.. 21.12.09.13:27 2624
37 34. 단백질이 접히는 과정츄 5 image 허니버터라이츄 title: 왕관 (12개월 이용권)허니버터라이.. 21.11.16.12:38 3109
36 33. 그래프 이론이었츄 4 image 허니버터라이츄 title: 왕관 (12개월 이용권)허니버터라이.. 21.11.12.12:56 725
35 32. SMILES였츄 image 허니버터라이츄 title: 왕관 (12개월 이용권)허니버터라이.. 21.11.12.11:45 253
34 31. EC50과 IC50이었츄 12 image 허니버터라이츄 title: 왕관 (12개월 이용권)허니버터라이.. 21.10.31.23:32 2288
33 30. 밀도에 대해 알아보시츄 image 허니버터라이츄 title: 왕관 (12개월 이용권)허니버터라이.. 21.10.19.23:40 3213
32 29. 생활 속의 진법이었츄 5 image 허니버터라이츄 title: 왕관 (12개월 이용권)허니버터라이.. 21.02.25.23:43 385
31 28. 탈리도마이드츄 1 image 허니버터라이츄 title: 왕관 (12개월 이용권)허니버터라이.. 20.09.20.02:37 348
30 27. 멘델의 유전법칙이였츄 (부제: 파란 장미는 어떻게 교배해야 나오나요) 1 image 허니버터라이츄 title: 왕관 (12개월 이용권)허니버터라이.. 20.05.31.03:29 12447
29 26. Next generation sequencing이었츄 2 image 허니버터라이츄 title: 왕관 (12개월 이용권)허니버터라이.. 20.05.17.02:01 396
28 특별편-보건용 마스크란 2 image 허니버터라이츄 title: 왕관 (12개월 이용권)허니버터라이.. 20.01.30.00:14 1073
27 25. GHS였츄 3 image 허니버터라이츄 title: 왕관 (12개월 이용권)허니버터라이.. 20.01.15.02:02 930
26 24. 메탄올과 에탄올 듀오였츄 14 image 허니버터라이츄 title: 왕관 (12개월 이용권)허니버터라이.. 19.07.07.22:10 1201
25 23. 완충용액이츄 2 image 허니버터라이츄 title: 왕관 (12개월 이용권)허니버터라이.. 19.03.24.02:35 2510
24 22. 혈액입니츄 1 image 허니버터라이츄 title: 왕관 (12개월 이용권)허니버터라이.. 19.02.05.01:35 910
23 21. 혈액형입니츄 12 image 허니버터라이츄 title: 왕관 (12개월 이용권)허니버터라이.. 18.12.08.04:58 1222