본문 바로가기
바이오 데이터/유전체 분석

RNA-seq Technology

by _avocado_ 2021. 3. 12.

● RNA-seq 과정

 

samples -> isolate RNA -> cDNA -> Create sequencing library -> NGS

 

● RNA-seq purpose

 

  ▶ Gene expression pattern vary in

 

      - Tissue types

      - Cell type

      - Development stages

      - Disease conditions

      - Time points

 

      + detection of novel transcripts

 

 

● Uses of RNA-seq

 

1. Assembling and annotating a transcriptome : 새로운 RNA 찾기

 

2. Characterization of alternative splicing patterns

 

3. Gene fusion detection

 

4. Small RNA profiling : miRNA

 

5. Targeted approaches using RNA-seq

 

6. Direct RNA sequencing

 

 

● Difficulty of RNA-seq

 

1. Bias : PCR, smoll sample, technological issue

 

2. Splicing : 하나의 gene 다양한 RNA

 

3. Gene level, exon level?

 

4. Multi-mapping, partial mapping, not mapping

5. nomalization issue : mapping read 수가 gene, exon의 길이에 영향을 받는다.


RNA-seq Library

▶ total RNA의 80%는 r-RNA, 15%는 t-RNA -> 대부분 m-RNA를 비롯한 다른 RNA에 관심이 많다.

 

    -> total RNA or r-RNA 제거 or m-RNA 골라내기 등 lsolate RNA를 선정한다.

 

▶ cDNA를 만들기

 

   - primer 선정의 어려움 : oligo-dT 사용 시 중간에 잘리는 경우 발생(긴 경우) -> 3'에 mapping이 많이 나온다.

 

   - random primer 사용시 정보가 손실된다.

 

   - RNA는 방향성이 존재한다. (DNA 두 가닥 중 어떤 가닥에서 유례 된 RNA인지)

 

      -> cDNA 양쪽에 adapter를 붙여 사용한다. (양쪽에 다른 어뎁터를 이용하면 가닥을 구분할 수 있다.)


Read Alignment(mapping)

- mapping 된 결과에 대한 QC

 

몇가지 issue

 

a.

한 gene에 mapping 된 read가 복잡하게 붙어 있으면 good!

같은 위치에 같은 길이의 read가 mapping 되면 정확한 발현량을 알기 어렵다. (PCR에 의한 복제)

 

b.

gene이 아닌 부위에 mapping 된 경우

-> non-coding-RNA 연구에서는 Sense orientation

-> 위 경우가 아니라면 comtam 등의 Antisense orientation

 

c and d

균등하지 않은 RNA-mapping

-> 특이한 구조의 gene이거나 PCR과정에서의 문제점


Methods in RNA-seq

 

Short read VS Long read

 

- 길이, 연구 목적에 따라 NGS platform을 결정한다.

 

  Short read Long read
장점 빠르다, 싸다, 정확하다.
workflow가 잘 되어있다.
RNA-modification까지 측정 가능하다.
de novo assemble에 활용하기 좋다.
단점 bias가 많이 생긴다.
isoform detection이 약하다
오래걸린다. 비싸다. 하나하나 정확도가 떨어진다.


다양한 RNA-seq

 

● nascent RNA-seq : 만들어지고 있는 RNA에 대한 sequencing

 

   - sample 고정 후 RNA-poltmerase를 끌어당겨 RNA를 얻는다.

 

● translatome analysis : 단백질 합성중인 RNA에 대한 sequencing

 

   - sample 고정 후 ribosome을 끌어 당겨 RNA를 얻는다.

   - 특정 ribosome을 골라 낼 수도 있다.

 

● RNA structure, RNA-protein interaction


RNA-seq pipeline 

 

● base pipeline

 

1. Evaluate and manipulate raw data -> fastqc

 

2. Map to reference, assess result -> STAR

 

3. Assemble Transcripts (선택적)

 

4. Quantify transcipts, read counting -> RSEM

 

5. TEST for differential expression -> cufflinks

 

6. Visulalize and perform other downstream analysis -> IGV, UCSC


발현량 측정 지표

 

1. RPKM/FPKM

 

$$\frac{\text{Total reads (or fragments)}}{\text{Mapped read(million)} \times \text{exon length(kb)}}$$

 

▶ 원본 데이터(read count)

Gene name sample 1 sample 2 sample 3
A:2kb 1,000,000 1,200,000 3,000,000
B:4kb 2,000,000 2,500,000 6,000,000
C:1kb 500,000 800,000 1,500,000
D:10kb 0 0 100,000

▶ total read 수로 나눈다.

Gene name sample 1 sample 2 sample 3
A:2kb 286,000 267,000 283,000
B:4kb 571,000 556,000 566,000
C:1kb 143,000 178,000 142,000
D:10kb 0 0 9,000

▶ exon 길이로 나눈다.

Gene name sample 1 sample 2 sample 3
A:2kb 143,000 133,000 142,000
B:4kb 143,000 139,000 142,000
C:1kb 143,000 178,000 142,000
D:10kb 0 0 943

2. TPM

 

$$\frac{\text{Total reads}}{\text{exon length(kb)} \times \text{total transpript count(million)}}$$

 

▶ 원본 데이터(위와 동일)

Gene name sample 1 sample 2 sample 3
A:2kb 1,000,000 1,200,000 3,000,000
B:4kb 2,000,000 2,500,000 6,000,000
C:1kb 500,000 800,000 1,500,000
D:10kb 0 0 100,000

▶ exon 길이로 나눈다.

Gene name sample 1 sample 2 sample 3
A:2kb 500,000 600,000 1,500,000
B:4kb 500,000 625,000 1,500,000
C:1kb 500,000 800,000 1,500,000
D:10kb 0 0 10,000

▶ total transcrip 수로 나눈다.

Gene name sample 1 sample 2 sample 3
A:2kb 333,333 396,000 332,666
B:4kb 333,333 309,000 332,666
C:1kb 333,333 395,000 332,666
D:10kb 0 0 2,000

댓글