본문 바로가기
바이오 데이터/유전체 분석

GEO 에서 데이터 다운받기(web)

by _avocado_ 2021. 3. 17.

GEO : NCBI에서 운영하는 공개 데이터 저장소

- microarray, NGS 등 유전체 데이터를 제공한다.

 

- 실험 platform, sample, 실험 내용에 대한 정보로 구분하여 제공한다.

 

- platform:GPL, sample:GSM, Series:GSE라는 명칭으로 제공

 

● GEO 사이트 이용방법

 

1. 구글에서 GEO를 검색한다.

 

2. GEO 페이지 검색창에 키워드 or Accession number를 입력하면 해당 실험에 대한 데이터를 볼 수 있다.

- 검색결과는 아래 빨간 필터들로 필터링하여 원하는 데이터를 찾을 수 있다.

3. 클릭하여 정보를 확인한다. 실험에 정보와 accession number를 확인할 수 있다.(기억할 것)

- 해당 실험의 platfrom 정보(GPL), sample 정보(GSM) 링크도 클릭하여 확인한다.

4. 페이지 맨 아래 Download 버튼으로 다운 받을 수 있다.

 

- 다운받은 파일의 확장자는 CEL/CHP 파일이다. (압축 해제 후)

 

- web에서 받은 파일은 ExpressionSet의 assayData만을 가지고 있으며 Pheno, feature Data까지 받으려면 R에서 받자!


sampleData 확인 사항

- sampleData에서 Value 값을 확인한다.

 

- 예를 들어 macroarray data에서 값이 signal 값 그대로 인지 normalization 한 값인지를 확인한다.

 


GEO 페이지에서 Analysis

- GSE data 페이지에서 간단한 analysis 기능을 제공한다.

 

- 실험의 종류에 따라 다른 tool을 제공한다.

- Microarray 예시

1. 각 sample을 group을 나누기 위해 그룹을 만들고 sample에 부여한다.

 

   - group을 만든 뒤 sample 클릭(다중가능) 후 group 버튼을 누른다.

 

2. 분석 option을 정할 수 있고 분석에 사용된 R script를 확인/다운로드할 수 있다.

 

3. 분석 버튼을 누르면 그래프와 결과가 나온다.


Web에서 받은 파일로 R에서 ExpressionSet으로 불러오기(pData, fData는 없다.)

# GEOquery packege 사용

BiocManager::install('GEOquery')

library(GEOquery)

# tar 파일 압축 풀기

untar('filepath', exdir='저장할 폴더') # 파일이 많을 수 있으니 새로운 폴더에 저장한다.(없으면 만들어준다.)

cels <- list.files('저장한 폴더', pattern=[gz]) # 파일들 path, pattern은 알아서

# gz 압축 풀기

sapply(paste('폴더',cels,sep='/'), gunzip)

# CEL 파일을 읽어 ExpressionSet으로 가져오기

eset <- read.celfiles(list.cilfiles('폴더',full.names=T))

댓글