본문 바로가기

전체 글53

GEO 에서 데이터 다운받기(R) GEO에서 데이터 다운로드하기(web)에서 확인한 accession number를 이용합니다. R에서 GEOquery package를 이용하여 2가지 방법으로 데이터를 받을 수 있다. 1. R을 이용하여 데이터 파일을 다운받기 (web으로 받는 것과 같은 결과) - pheno, feature Data를 가져올 수 없다. 2. R 객체(ExpressionSet)으로 받기 (권장) - pheno, feature Data를 가져올 수 있다. GEOquery 다운로드 # BiocManager를 이용 BiocManager::install(GEOquery) library(GEOquery) 1. 데이터 파일 다운로드 - 파일을 로컬에 저장한다. getGEOSuppFiles('Accession number') - 저장.. 2021. 3. 17.
GEO 에서 데이터 다운받기(web) GEO : NCBI에서 운영하는 공개 데이터 저장소 - microarray, NGS 등 유전체 데이터를 제공한다. - 실험 platform, sample, 실험 내용에 대한 정보로 구분하여 제공한다. - platform:GPL, sample:GSM, Series:GSE라는 명칭으로 제공 ● GEO 사이트 이용방법 1. 구글에서 GEO를 검색한다. 2. GEO 페이지 검색창에 키워드 or Accession number를 입력하면 해당 실험에 대한 데이터를 볼 수 있다. - 검색결과는 아래 빨간 필터들로 필터링하여 원하는 데이터를 찾을 수 있다. 3. 클릭하여 정보를 확인한다. 실험에 정보와 accession number를 확인할 수 있다.(기억할 것) - 해당 실험의 platfrom 정보(GPL), sam.. 2021. 3. 17.
Bioconductor - 기본 자료구조(ExpressionSet, GenomicRange) Bioconductor - 유전체 분석을 위한 R package 제공 시스템 (많은 package 모음) - bioconductor 홈페이지에서 각 package에 대한 정보를 확인할 수 있다. - 분석 tool 및 예제 데이터 제공 ▶ 설치 방법 # 설치 if (!requireNamespace("BiocManager", quietly = TRUE)) install.packages("BiocManager") # 기본 package 다운 BiocManager::install() # 특정 package 다운 BiocManager::install(원하는 package 이름) BioBase - 가장 기본적인 package - ExpressionSet 구조를 지원한다. ● ExpresssionSet - 유전자 발.. 2021. 3. 15.
RNA-seq Technology ● RNA-seq 과정 samples -> isolate RNA -> cDNA -> Create sequencing library -> NGS ● RNA-seq purpose ▶ Gene expression pattern vary in - Tissue types - Cell type - Development stages - Disease conditions - Time points + detection of novel transcripts ● Uses of RNA-seq 1. Assembling and annotating a transcriptome : 새로운 RNA 찾기 2. Characterization of alternative splicing patterns 3. Gene fusion detect.. 2021. 3. 12.
전차체 분석 기초 - 전사체 분석 개론 전사체 : transcriptome ● 전사체 분석의 목적 - 표현형 질의 특성, 조절 기전의 이해 - 유전정보 기능 분석 - 질병 or 생물학적 기능 이상의 검출, 예측 ● DNA가 아닌 RNA 발현을 연구하는 이유 - 기능적 연구, 유전자 발현량에 대해 알 수 있다. - 일부 분자적 특성이 RNA에서만 나타난다. splicing, RNA editting - 단백질 서열에 영향을 미치지 않는 돌연변이 해석 가능 - 단백질 코딩 체세포 돌연변이의 우선순위를 결정 가능 ● 전사체 분석으로 알 수 있는 것 - 참조 유전체/전사체가 없을 때 새로운 전사체를 조립 - 새로운 isoform 검색 - 전사체 기능 검색과 분류 - 발현량 측정 및 서로 다른 환경에서 차등적으로 발현되는 유전자 분석 - 유전자의 온톨로.. 2021. 3. 12.
[R] - 기초 연산 및 데이터 구조 데이터 종류 ● 숫자(numeric) : 1, 2, 3 ● 문자(charicter) : 'abc', '123', "가나다" (따옴표로 감싸면 문자로 인식한다.) ● 논리(logical) : TRUE, T, FALSE, F 데이터 종류 관련 함수 class(X) : X의 데이터 타입을 알려준다. as.numeric(X) : X를 숫자형으로 변경한다. '123' -> 123으로, 숫자로 바꿀 수 없으면 에러 (TURE =1, FALSE=0) as.charicter() : 문자열로 바꾸어 준다. as.logical() : 논리형으로 바꾸어 준다. (숫자에서 0만 FALSE, 문자에서 빈 문자열만 '' FAlSE) 기초 연산 ▶ 산술 연산 연산 기호 더하기 + 빼기 - 곱하기 * 나누기 / 몫 %/% 나머지 %.. 2021. 3. 5.
기초통계 - 범주형 자료분석 ● 범주형 자료: 관측된 결과를 속성에 따라 몇 개의 범주로 분류하여 도수로 정리한 자료 ● 분할표: 각 변수의 범주를 나누어 관측도수를 표현하여 나타낸 표 정상 당뇨 정상 20 10 비만 10 20 ● 범주형 자료분석 방법 ▶ 카이제곱 검정 1. 적합도 검정 - 범주형으로 조사된 자료의 분석결과가 기존에 알려진 이론에 부합하는지 여부를 확인한다. 2. 독립성 검정 - 관측된 자료를 두 요인에 의해 분할하여 도수를 조사하고 두 요인 사이에 관련이 있는지 없는지(독립인지) 여부를 검정하는 것 3. 동일성 검정 - 범주형으로 조사된 두 개 이상의 모집단의 비율이 서로 동일한지 여부를 결정하는 것 ● 적합도 검정 과정 가설: $H_{0}: p_{0} = p_{10}, p_{1} = p_{20},···$ , $.. 2021. 2. 25.
기초 통계 - 상관분석과 회귀분석 두 변수 간의 관계성 - 선형성 : 두 변수 간의 직선의 관계 - ex) a가 1 증가하면 b가 2 증가한다. ▶ 얼마나 연관성이 있는가? - 단위, 평균의 크기에 영향을 받지 않기 위해 정규화된 측도를 이용하여 통계적 추론을 한다. ▶ 얼마나 직선의 관계가 있는가? (기울기는 중요하지 않다. 단위, 절편 등의 영향을 받기 때문에) 산점도와 선형성 - 기울기나 절편이 아닌 얼마나 직선에 가까운가? 를 확인한다. - 직선에 가까울수록 강한 상관관계를 갖는다. - 함께 증가하면 양의 상관관계, 하나가 증가할 때 다른 하나가 감소한다면 음의 상관관계를 갖는다. 공분산 두 확률변수 $X,Y$의 기댓값을 $\mu_{X},\mu_{Y}$라고 할 때 $X$가 증가함에 따라 $Y$가 증가하는지를 측정하는 측도 $$Co.. 2021. 2. 25.
기초통계 - 그룹간 평균비교 ● 대표적인 평균 비교 분석 방법 ● 모집단 분포에 대한 정규성 검정 검정방법 Shapiro-Wilk test Kolmogorov-Smirnov test 표본의 크기 표본 크기가 작을 때 표본 크기가 클 때 목적 정규분포의 적합성 임의의 분포에 대한 적합성 가설($H_{0}) 정규분포를 따른다 임의의 분포를 따른다. 한 그룹의 평균이 그 집단의 특성을 잘 대표하는가? ● 일표본 Z-검정($\sigma$를 알 때) 확률분포: $X_{1},X_{2},···,X_{n}$ ~ 평균 $\mu$, 분산 $\sigma^{2}$인 임의의 대표본 모집단 가설: $H_{0}$ - $\mu = \mu_{0}$, $H_{1}$ - $\mu \neq \mu_{0}$ (또는 >, , , t_{\alpha/2}(n_{1}+n_{2.. 2021. 2. 22.
기초통계 -1 용어 정리 ● 통계적 추론 - 추출된 표본에 내포된 정보를 분석하여 모집단의 여러 가지 특성에 대하여 합리적이고 과학적인 결론을 내리는 과정(추론, 가설검정) ● 모수(parameter) - 모집단(population)의 특성을 나타내는 값 (모평균, 모 분산 등) ● 관심사항 - 미지의 값에 대한 예상 or 확인되지 않는 사항에 대한 검증 (모수의 추정, 검정) ▶ 모집단 vs 표본 모집단 표본 평균 $\bar{x}$ $\mu$ 표준편차 $\sigma$ $s$ 분산 $\sigma^{2}$ $s^{2}$ ● 변동 계수 - 평균이 크게 다른 두 개 이상의 집단을 비교하고자 할 때, 또는 각 집단의 상대적 동질성을 비교할 때 이용한다. $$cv = \frac {s}{\bar {x}}$$ - 변동 계수(cv).. 2021. 2. 22.
[알고리즘] 최단거리 구하기, 다익스트라 알고리즘 ● 자료구조 우선순위 큐 - 자료 중 최소 or 최대 값을 먼저 출력한다. (기본적으로 최소) - 라이브러리 heapq를 사용한다. - 입력(heapq.heappush(list, value), 출력(heapq.heappop(list)) ● 다익스트라 알고리즘 (시작 지점부터 최단거리를 구하는 알고리즘) 1. 경로가 가장 짧은 노드 부터 탐색 2. 최단 거리 list를 무한으로 설정한다. 3. 노드 중에서 가장 짧은 거리를 갖고 있는 노드를 방문한다. 4. 현재 노드와 연결된 노드들의 거리를 계산하고 최단거리 list를 갱신한다. 5. 3,4를 반복한다. 모든 노드를 방문할 때까지 ● 코드로 구현 import heapq graph = [[] for _ in range(n+1)] # 각 노드가 연결된 정보(.. 2021. 2. 20.
[알고리즘] DFS/ BFS ● 자료구조 스택 & 큐 1. 스택 : 선입 수출의 구조를 갖는 자료구조 - 박스 쌓기에 비유할 수 있다. 마지막에 쌓은 박스를 먼저 꺼내야 아래 박스를 꺼낼 수 있다. - 일반적인 리스트 구조가 스택에 해당된다. (스택을 이용한 알고리즘을 사용할 때 일반 리스트 사용) - 입력(append), 출력(pop) 사용. 2. 큐 : 선입선출의 구조를 갖는 자료구조 - 대기줄처럼 먼저 들어온 데이터를 먼저 출력한다. - 라이브러리 collections에서 deque로 사용 가능하다. - 입력(append), 출력(popleft) 사용. ● DFS / BFS 1. DFS 깊이 우선 탐색 : 그래프에서 가장 깊은 곳을 먼저 탐색하는 방법 - 1번부터 인접한 노드를 DFS로 탐색하는 과정 - 위 과정을 반복하여 전.. 2021. 2. 13.