● RNA-seq 과정
samples -> isolate RNA -> cDNA -> Create sequencing library -> NGS
● RNA-seq purpose
▶ Gene expression pattern vary in
- Tissue types
- Cell type
- Development stages
- Disease conditions
- Time points
+ detection of novel transcripts
● Uses of RNA-seq
1. Assembling and annotating a transcriptome : 새로운 RNA 찾기
2. Characterization of alternative splicing patterns
3. Gene fusion detection
4. Small RNA profiling : miRNA
5. Targeted approaches using RNA-seq
6. Direct RNA sequencing
● Difficulty of RNA-seq
1. Bias : PCR, smoll sample, technological issue
2. Splicing : 하나의 gene 다양한 RNA
3. Gene level, exon level?
4. Multi-mapping, partial mapping, not mapping
5. nomalization issue : mapping read 수가 gene, exon의 길이에 영향을 받는다.
RNA-seq Library
▶ total RNA의 80%는 r-RNA, 15%는 t-RNA -> 대부분 m-RNA를 비롯한 다른 RNA에 관심이 많다.
-> total RNA or r-RNA 제거 or m-RNA 골라내기 등 lsolate RNA를 선정한다.
▶ cDNA를 만들기
- primer 선정의 어려움 : oligo-dT 사용 시 중간에 잘리는 경우 발생(긴 경우) -> 3'에 mapping이 많이 나온다.
- random primer 사용시 정보가 손실된다.
- RNA는 방향성이 존재한다. (DNA 두 가닥 중 어떤 가닥에서 유례 된 RNA인지)
-> cDNA 양쪽에 adapter를 붙여 사용한다. (양쪽에 다른 어뎁터를 이용하면 가닥을 구분할 수 있다.)
Read Alignment(mapping)
- mapping 된 결과에 대한 QC
몇가지 issue
a.
한 gene에 mapping 된 read가 복잡하게 붙어 있으면 good!
같은 위치에 같은 길이의 read가 mapping 되면 정확한 발현량을 알기 어렵다. (PCR에 의한 복제)
b.
gene이 아닌 부위에 mapping 된 경우
-> non-coding-RNA 연구에서는 Sense orientation
-> 위 경우가 아니라면 comtam 등의 Antisense orientation
c and d
균등하지 않은 RNA-mapping
-> 특이한 구조의 gene이거나 PCR과정에서의 문제점
Methods in RNA-seq
Short read VS Long read
- 길이, 연구 목적에 따라 NGS platform을 결정한다.
Short read | Long read | |
장점 | 빠르다, 싸다, 정확하다. workflow가 잘 되어있다. |
RNA-modification까지 측정 가능하다. de novo assemble에 활용하기 좋다. |
단점 | bias가 많이 생긴다. isoform detection이 약하다 |
오래걸린다. 비싸다. 하나하나 정확도가 떨어진다. |
다양한 RNA-seq
● nascent RNA-seq : 만들어지고 있는 RNA에 대한 sequencing
- sample 고정 후 RNA-poltmerase를 끌어당겨 RNA를 얻는다.
● translatome analysis : 단백질 합성중인 RNA에 대한 sequencing
- sample 고정 후 ribosome을 끌어 당겨 RNA를 얻는다.
- 특정 ribosome을 골라 낼 수도 있다.
● RNA structure, RNA-protein interaction
RNA-seq pipeline
● base pipeline
1. Evaluate and manipulate raw data -> fastqc
2. Map to reference, assess result -> STAR
3. Assemble Transcripts (선택적)
4. Quantify transcipts, read counting -> RSEM
5. TEST for differential expression -> cufflinks
6. Visulalize and perform other downstream analysis -> IGV, UCSC
발현량 측정 지표
1. RPKM/FPKM
$$\frac{\text{Total reads (or fragments)}}{\text{Mapped read(million)} \times \text{exon length(kb)}}$$
▶ 원본 데이터(read count)
Gene name | sample 1 | sample 2 | sample 3 |
A:2kb | 1,000,000 | 1,200,000 | 3,000,000 |
B:4kb | 2,000,000 | 2,500,000 | 6,000,000 |
C:1kb | 500,000 | 800,000 | 1,500,000 |
D:10kb | 0 | 0 | 100,000 |
▶ total read 수로 나눈다.
Gene name | sample 1 | sample 2 | sample 3 |
A:2kb | 286,000 | 267,000 | 283,000 |
B:4kb | 571,000 | 556,000 | 566,000 |
C:1kb | 143,000 | 178,000 | 142,000 |
D:10kb | 0 | 0 | 9,000 |
▶ exon 길이로 나눈다.
Gene name | sample 1 | sample 2 | sample 3 |
A:2kb | 143,000 | 133,000 | 142,000 |
B:4kb | 143,000 | 139,000 | 142,000 |
C:1kb | 143,000 | 178,000 | 142,000 |
D:10kb | 0 | 0 | 943 |
2. TPM
$$\frac{\text{Total reads}}{\text{exon length(kb)} \times \text{total transpript count(million)}}$$
▶ 원본 데이터(위와 동일)
Gene name | sample 1 | sample 2 | sample 3 |
A:2kb | 1,000,000 | 1,200,000 | 3,000,000 |
B:4kb | 2,000,000 | 2,500,000 | 6,000,000 |
C:1kb | 500,000 | 800,000 | 1,500,000 |
D:10kb | 0 | 0 | 100,000 |
▶ exon 길이로 나눈다.
Gene name | sample 1 | sample 2 | sample 3 |
A:2kb | 500,000 | 600,000 | 1,500,000 |
B:4kb | 500,000 | 625,000 | 1,500,000 |
C:1kb | 500,000 | 800,000 | 1,500,000 |
D:10kb | 0 | 0 | 10,000 |
▶ total transcrip 수로 나눈다.
Gene name | sample 1 | sample 2 | sample 3 |
A:2kb | 333,333 | 396,000 | 332,666 |
B:4kb | 333,333 | 309,000 | 332,666 |
C:1kb | 333,333 | 395,000 | 332,666 |
D:10kb | 0 | 0 | 2,000 |
'바이오 데이터 > 유전체 분석' 카테고리의 다른 글
Microarray 데이터 전처리(RMA) (0) | 2021.03.17 |
---|---|
GEO 에서 데이터 다운받기(R) (0) | 2021.03.17 |
GEO 에서 데이터 다운받기(web) (0) | 2021.03.17 |
전차체 분석 기초 - 전사체 분석 개론 (0) | 2021.03.12 |
댓글