GEO : NCBI에서 운영하는 공개 데이터 저장소
- microarray, NGS 등 유전체 데이터를 제공한다.
- 실험 platform, sample, 실험 내용에 대한 정보로 구분하여 제공한다.
- platform:GPL, sample:GSM, Series:GSE라는 명칭으로 제공
● GEO 사이트 이용방법
1. 구글에서 GEO를 검색한다.
2. GEO 페이지 검색창에 키워드 or Accession number를 입력하면 해당 실험에 대한 데이터를 볼 수 있다.
- 검색결과는 아래 빨간 필터들로 필터링하여 원하는 데이터를 찾을 수 있다.
3. 클릭하여 정보를 확인한다. 실험에 정보와 accession number를 확인할 수 있다.(기억할 것)
- 해당 실험의 platfrom 정보(GPL), sample 정보(GSM) 링크도 클릭하여 확인한다.
4. 페이지 맨 아래 Download 버튼으로 다운 받을 수 있다.
- 다운받은 파일의 확장자는 CEL/CHP 파일이다. (압축 해제 후)
- web에서 받은 파일은 ExpressionSet의 assayData만을 가지고 있으며 Pheno, feature Data까지 받으려면 R에서 받자!
sampleData 확인 사항
- sampleData에서 Value 값을 확인한다.
- 예를 들어 macroarray data에서 값이 signal 값 그대로 인지 normalization 한 값인지를 확인한다.
GEO 페이지에서 Analysis
- GSE data 페이지에서 간단한 analysis 기능을 제공한다.
- 실험의 종류에 따라 다른 tool을 제공한다.
- Microarray 예시
1. 각 sample을 group을 나누기 위해 그룹을 만들고 sample에 부여한다.
- group을 만든 뒤 sample 클릭(다중가능) 후 group 버튼을 누른다.
2. 분석 option을 정할 수 있고 분석에 사용된 R script를 확인/다운로드할 수 있다.
3. 분석 버튼을 누르면 그래프와 결과가 나온다.
Web에서 받은 파일로 R에서 ExpressionSet으로 불러오기(pData, fData는 없다.)
# GEOquery packege 사용
BiocManager::install('GEOquery')
library(GEOquery)
# tar 파일 압축 풀기
untar('filepath', exdir='저장할 폴더') # 파일이 많을 수 있으니 새로운 폴더에 저장한다.(없으면 만들어준다.)
cels <- list.files('저장한 폴더', pattern=[gz]) # 파일들 path, pattern은 알아서
# gz 압축 풀기
sapply(paste('폴더',cels,sep='/'), gunzip)
# CEL 파일을 읽어 ExpressionSet으로 가져오기
eset <- read.celfiles(list.cilfiles('폴더',full.names=T))
'바이오 데이터 > 유전체 분석' 카테고리의 다른 글
Microarray 데이터 전처리(RMA) (0) | 2021.03.17 |
---|---|
GEO 에서 데이터 다운받기(R) (0) | 2021.03.17 |
RNA-seq Technology (0) | 2021.03.12 |
전차체 분석 기초 - 전사체 분석 개론 (0) | 2021.03.12 |
댓글