본문 바로가기
바이오 데이터/유전체 분석

전차체 분석 기초 - 전사체 분석 개론

by _avocado_ 2021. 3. 12.

전사체 : transcriptome

 

● 전사체 분석의 목적

 

- 표현형 질의 특성, 조절 기전의 이해

 

- 유전정보 기능 분석

 

- 질병 or 생물학적 기능 이상의 검출, 예측

● DNA가 아닌 RNA 발현을 연구하는 이유

 

- 기능적 연구, 유전자 발현량에 대해 알 수 있다.

 

- 일부 분자적 특성이 RNA에서만 나타난다. splicing, RNA editting

 

- 단백질 서열에 영향을 미치지 않는 돌연변이 해석 가능

 

- 단백질 코딩 체세포 돌연변이의 우선순위를 결정 가능

 

● 전사체 분석으로 알 수 있는 것

 

- 참조 유전체/전사체가 없을 때 새로운 전사체를 조립

 

- 새로운 isoform 검색

 

- 전사체 기능 검색과 분류

 

- 발현량 측정 및 서로 다른 환경에서 차등적으로 발현되는 유전자 분석

 

- 유전자의 온톨로지나 경로 확인


전사체 연구 발전 과정

 

sanger, microarray → NGS no PCR NGS → single cell RNA-seq

 

NGS platform의 선택

 

- 종류마다 Data size, 길이 등 다르기 때문에 연구에 맞는 platform을 선택하는 것이 중요

 

NGS는 DNA, RNA, epigenetic, pritein 모두 사용 가능하다.


Microarray vs RNA-seq

 

1. Microarray

 

- cDNA를 이용하여 cell에 특정 RNA존재하는지를 확인/비교

 

- noncoding RNA도 가능

- 알려진 유전체 정보를 프로브로 디자인한다.

 

- 높은 background level로 발현량이 적은 유전체는 검출이 어렵다.

 

- 제한된 발현 범위(형광을 이용하기 때문에)

 

 

2. RNA-seq

 

- NGS 방법을 이용하여 발현 RNA를 검출한다.

 

- 낮은 발현의 유전자도 확인이 가능하다.

 

- 알지 못하는 유전자(새로운)의 발현도 측정 가능하다.

 

- 다양한 분석 연구에 활용 가능. Alternative Splicing, SNPs, gene fusion

 

- 최신 동향 : smRNAs, miRNA-seq, single-cell RNA-seq


RNA-seq 실험 디자인과 NGS

● RNA-seq pipe line

 

1. pre analysis

 

   - 실험 디자인, seq-디자인, QC

 

2. core analysis

 

   - transcriptome profiling, DEG, interprofiling

NGS -> preprocessing -> mapping -> estimate expression -> DEG selection -> Functional annotation

 

3. advanced analysis

 

   - 시각화, 다른 seq과의 융합


● 실험 디자인

 

고려 요인

 

1. 최종 목적

 

2. 어떤 성격의 실험군인가?

 

   - control, repilcates 설정

3. 반복수

 

   - 최소 3번, 많을수록 좋다.

   - technical, biological 하게 오차가 생길 수 있기 때문이다.

 

4. cDNA library (RNA targeting)

 

5. 서열의 길이를 고려(isoform을 확인하기 위해 긴 것이 좋다.)

 

   - SE, PE를 구분한다.

 

   - SE : 단일가닥 seq, 잘 알려진 transcriptome이라면 short SE로 충분하다.

 

   - PE : 양방향 seq, de novo transcript discover와 isoform 발현 분석에 유리하다.

 

6. sequencing depth

 

   - 라이브러리를 얼마나 많이 읽을 것인가? (PCR 수준에서)

 

   - sample이 많을수록 발경, 정량이 정확해지지만 off-target, noise 또한 증가

 

7. RNA 추출 및 quality check


● RNA-seq 분석의 유형

 

1. Referance genome-based

 

   - 유전체 정보가 있는 경우

   - transcript 재구성하는 능력이 크게 향상

   - 대부분의 model organism

 

2. Referance genome-free

 

   - de novo assemble 과정이 필요하다.

   - RNA-seq 파라미터 의존적, 좋은 결과를 만들기 어렵다.

 

 

● Mapping의 3가지 전략

1. Referace genome-based

 

   - 인트론 갭을 인정하는 알고리즘 사용(top hat, STAR)

 

   -> prfiling(cufflinks) -> fuction annotation(Blast2 GO)

 

2. Referance-free but gene model

 

   - 인트론에 대한 정보 x, 갭이 없어도 mapping 가능한 알고리즘 사용(Bowtio)

 

   -> RSEM, Kallisto

 

3. Referance, gene model - free

 

   - De novo assemble -> 다양한 알고리즘 존재(De Brujin graphs, Trinity) -> Bowtio -> RSEM


● 새로운 transcriptome 검출

 

   - Short read를 이용한 novel transcript를 검출하는 것은 RNA-seq의 중요한 과제 중 하나

 

   - Short read는 splice junction에 위치하는 경우가 적다.

   - PE read와 높은 coverage는 소량 발현되는 유전자의 재구성에 유리하다.

   - 반복 실험은 false-positive를 줄이기 위해 중요.

 

 

● read mapping result

 

   - SAM/BAM 파일

 

   - mapping 된 비율로 QC (refer: 85~95%, de novo: 70~%)

 

● 발현량 측정

 

   - mapping 된 양으로 측정

   - library가 크거나 exon이 많으면 더 크게 측정된다. -> gene 길이를 고려하는 수치를 이용

   

   - RPKM/FPKM : 샘플 간, 유전자 간 발현량 비교

$$RPKM/FPKM = \frac{\text{total exon read}}{\text{mapping reads} \times \text{exon length}}$$

   - TPM : RNA population에서 transcript length까지 고려

 

   - TMM : 샘플 간 nomalization 방법 (단일 샘플 x)

 

  ▶ 차등발현 비교 전 실험 결과의 재현성을 확인해야 한다.

 

      - 반복수에 따라 PCA그래프를 그려서 뭉쳐있는 지를 확인한다. cluster Dendrogram


DEG

● Fold - Change

$$FC = \frac{\text{expression in treatment}}{\text{expression control}}$$

 

   - 주로 log를 취하여 사용한다.

 

   - student's t-test, ANOVA, 2 way-ANOVA를 이용한다.

 

▶ 다중 비교 문제

 

   - p <0.05에서 100번의 연구 중 5번의 오류가 발생한다. -> 최소화 하자

 

   - 본페로니 FWER(보수적) -> multi-step 보정법(FDR) -> Volcano plot, MA plot을 비교한다.

▶ cluster 분석(HCL, k-means)

 

   - 유전자 발현량을 기준으로 cell 군집화

 

 

● 차등 발현 유전자의 기능적 해석

 

   - 다양한 DB를 이용한다.

 

  ▶ GSEA : 동일한 기능을 하는 Gene을 통계적으로 발굴

     

      - 사전에 정의된 gene set

 

  ▶ GO : 유전자 정보가 든 DB, 세계적으로 공통

 

  ▶ DAVID : functional annotation을 위한 tool + infomatics

 

  ▶ Blast2GO : 사용 tool로 가장 많이 사용한다.(omicsBox), 기능 예측

 

 

● pathway 분석

 

  ▶ KEGG pathway : 네트워크와 관련된 DB

 

  ▶ Cytocape : 네트워크 시각화 소프트 웨어

 

  ▶ IPA : 많이 사용, 전문가 큐레이션 DB

'바이오 데이터 > 유전체 분석' 카테고리의 다른 글

Microarray 데이터 전처리(RMA)  (0) 2021.03.17
GEO 에서 데이터 다운받기(R)  (0) 2021.03.17
GEO 에서 데이터 다운받기(web)  (0) 2021.03.17
RNA-seq Technology  (0) 2021.03.12

댓글