본문 바로가기
바이오 데이터/유전체 분석

GEO 에서 데이터 다운받기(R)

by _avocado_ 2021. 3. 17.
GEO에서 데이터 다운로드하기(web)에서 확인한 accession number를 이용합니다.

R에서 GEOquery package를 이용하여 2가지 방법으로 데이터를 받을 수 있다.

 

1. R을 이용하여 데이터 파일을 다운받기 (web으로 받는 것과 같은 결과)

   

    - pheno, feature Data를 가져올 수 없다.

 

2. R 객체(ExpressionSet)으로 받기

(권장)

 

    - pheno, feature Data를 가져올 수 있다.


GEOquery 다운로드

# BiocManager를 이용

BiocManager::install(GEOquery)

library(GEOquery)

1. 데이터 파일 다운로드

- 파일을 로컬에 저장한다.

getGEOSuppFiles('Accession number')

- 저장된 파일로 ExpressionSet 만들기

# tar 파일 압축 풀기

untar('filepath', exdir='저장할 폴더') # 파일이 많을 수 있으니 새로운 폴더에 저장한다.(없으면 만들어준다.)

cels <- list.files('저장한 폴더', pattern=[gz]) # 파일들 path, pattern은 알아서

# gz 압축 풀기

sapply(paste('폴더',cels,sep='/'), gunzip)

# CEL 파일을 읽어 ExpressionSet으로 가져오기

eset <- read.celfiles(list.cilfiles('폴더',full.names=T))

2. R 객체로 가져오기

eset <- getGEO('Accession number') # 리스트 형태로 반환

eset <- eset[[1]] # ExpressionSet

 

댓글