GEO에서 데이터 다운로드하기(web)에서 확인한 accession number를 이용합니다.
R에서 GEOquery package를 이용하여 2가지 방법으로 데이터를 받을 수 있다.
1. R을 이용하여 데이터 파일을 다운받기 (web으로 받는 것과 같은 결과)
- pheno, feature Data를 가져올 수 없다.
2. R 객체(ExpressionSet)으로 받기
(권장)
- pheno, feature Data를 가져올 수 있다.
GEOquery 다운로드
# BiocManager를 이용
BiocManager::install(GEOquery)
library(GEOquery)
1. 데이터 파일 다운로드
- 파일을 로컬에 저장한다.
getGEOSuppFiles('Accession number')
- 저장된 파일로 ExpressionSet 만들기
# tar 파일 압축 풀기
untar('filepath', exdir='저장할 폴더') # 파일이 많을 수 있으니 새로운 폴더에 저장한다.(없으면 만들어준다.)
cels <- list.files('저장한 폴더', pattern=[gz]) # 파일들 path, pattern은 알아서
# gz 압축 풀기
sapply(paste('폴더',cels,sep='/'), gunzip)
# CEL 파일을 읽어 ExpressionSet으로 가져오기
eset <- read.celfiles(list.cilfiles('폴더',full.names=T))
2. R 객체로 가져오기
eset <- getGEO('Accession number') # 리스트 형태로 반환
eset <- eset[[1]] # ExpressionSet
'바이오 데이터 > 유전체 분석' 카테고리의 다른 글
Microarray 데이터 전처리(RMA) (0) | 2021.03.17 |
---|---|
GEO 에서 데이터 다운받기(web) (0) | 2021.03.17 |
RNA-seq Technology (0) | 2021.03.12 |
전차체 분석 기초 - 전사체 분석 개론 (0) | 2021.03.12 |
댓글