본문 바로가기

분류 전체보기53

RNA-seq Technology ● RNA-seq 과정 samples -> isolate RNA -> cDNA -> Create sequencing library -> NGS ● RNA-seq purpose ▶ Gene expression pattern vary in - Tissue types - Cell type - Development stages - Disease conditions - Time points + detection of novel transcripts ● Uses of RNA-seq 1. Assembling and annotating a transcriptome : 새로운 RNA 찾기 2. Characterization of alternative splicing patterns 3. Gene fusion detect.. 2021. 3. 12.
전차체 분석 기초 - 전사체 분석 개론 전사체 : transcriptome ● 전사체 분석의 목적 - 표현형 질의 특성, 조절 기전의 이해 - 유전정보 기능 분석 - 질병 or 생물학적 기능 이상의 검출, 예측 ● DNA가 아닌 RNA 발현을 연구하는 이유 - 기능적 연구, 유전자 발현량에 대해 알 수 있다. - 일부 분자적 특성이 RNA에서만 나타난다. splicing, RNA editting - 단백질 서열에 영향을 미치지 않는 돌연변이 해석 가능 - 단백질 코딩 체세포 돌연변이의 우선순위를 결정 가능 ● 전사체 분석으로 알 수 있는 것 - 참조 유전체/전사체가 없을 때 새로운 전사체를 조립 - 새로운 isoform 검색 - 전사체 기능 검색과 분류 - 발현량 측정 및 서로 다른 환경에서 차등적으로 발현되는 유전자 분석 - 유전자의 온톨로.. 2021. 3. 12.
[R] - 기초 연산 및 데이터 구조 데이터 종류 ● 숫자(numeric) : 1, 2, 3 ● 문자(charicter) : 'abc', '123', "가나다" (따옴표로 감싸면 문자로 인식한다.) ● 논리(logical) : TRUE, T, FALSE, F 데이터 종류 관련 함수 class(X) : X의 데이터 타입을 알려준다. as.numeric(X) : X를 숫자형으로 변경한다. '123' -> 123으로, 숫자로 바꿀 수 없으면 에러 (TURE =1, FALSE=0) as.charicter() : 문자열로 바꾸어 준다. as.logical() : 논리형으로 바꾸어 준다. (숫자에서 0만 FALSE, 문자에서 빈 문자열만 '' FAlSE) 기초 연산 ▶ 산술 연산 연산 기호 더하기 + 빼기 - 곱하기 * 나누기 / 몫 %/% 나머지 %.. 2021. 3. 5.
기초통계 - 범주형 자료분석 ● 범주형 자료: 관측된 결과를 속성에 따라 몇 개의 범주로 분류하여 도수로 정리한 자료 ● 분할표: 각 변수의 범주를 나누어 관측도수를 표현하여 나타낸 표 정상 당뇨 정상 20 10 비만 10 20 ● 범주형 자료분석 방법 ▶ 카이제곱 검정 1. 적합도 검정 - 범주형으로 조사된 자료의 분석결과가 기존에 알려진 이론에 부합하는지 여부를 확인한다. 2. 독립성 검정 - 관측된 자료를 두 요인에 의해 분할하여 도수를 조사하고 두 요인 사이에 관련이 있는지 없는지(독립인지) 여부를 검정하는 것 3. 동일성 검정 - 범주형으로 조사된 두 개 이상의 모집단의 비율이 서로 동일한지 여부를 결정하는 것 ● 적합도 검정 과정 가설: $H_{0}: p_{0} = p_{10}, p_{1} = p_{20},···$ , $.. 2021. 2. 25.
기초 통계 - 상관분석과 회귀분석 두 변수 간의 관계성 - 선형성 : 두 변수 간의 직선의 관계 - ex) a가 1 증가하면 b가 2 증가한다. ▶ 얼마나 연관성이 있는가? - 단위, 평균의 크기에 영향을 받지 않기 위해 정규화된 측도를 이용하여 통계적 추론을 한다. ▶ 얼마나 직선의 관계가 있는가? (기울기는 중요하지 않다. 단위, 절편 등의 영향을 받기 때문에) 산점도와 선형성 - 기울기나 절편이 아닌 얼마나 직선에 가까운가? 를 확인한다. - 직선에 가까울수록 강한 상관관계를 갖는다. - 함께 증가하면 양의 상관관계, 하나가 증가할 때 다른 하나가 감소한다면 음의 상관관계를 갖는다. 공분산 두 확률변수 $X,Y$의 기댓값을 $\mu_{X},\mu_{Y}$라고 할 때 $X$가 증가함에 따라 $Y$가 증가하는지를 측정하는 측도 $$Co.. 2021. 2. 25.
기초통계 - 그룹간 평균비교 ● 대표적인 평균 비교 분석 방법 ● 모집단 분포에 대한 정규성 검정 검정방법 Shapiro-Wilk test Kolmogorov-Smirnov test 표본의 크기 표본 크기가 작을 때 표본 크기가 클 때 목적 정규분포의 적합성 임의의 분포에 대한 적합성 가설($H_{0}) 정규분포를 따른다 임의의 분포를 따른다. 한 그룹의 평균이 그 집단의 특성을 잘 대표하는가? ● 일표본 Z-검정($\sigma$를 알 때) 확률분포: $X_{1},X_{2},···,X_{n}$ ~ 평균 $\mu$, 분산 $\sigma^{2}$인 임의의 대표본 모집단 가설: $H_{0}$ - $\mu = \mu_{0}$, $H_{1}$ - $\mu \neq \mu_{0}$ (또는 >, , , t_{\alpha/2}(n_{1}+n_{2.. 2021. 2. 22.
기초통계 -1 용어 정리 ● 통계적 추론 - 추출된 표본에 내포된 정보를 분석하여 모집단의 여러 가지 특성에 대하여 합리적이고 과학적인 결론을 내리는 과정(추론, 가설검정) ● 모수(parameter) - 모집단(population)의 특성을 나타내는 값 (모평균, 모 분산 등) ● 관심사항 - 미지의 값에 대한 예상 or 확인되지 않는 사항에 대한 검증 (모수의 추정, 검정) ▶ 모집단 vs 표본 모집단 표본 평균 $\bar{x}$ $\mu$ 표준편차 $\sigma$ $s$ 분산 $\sigma^{2}$ $s^{2}$ ● 변동 계수 - 평균이 크게 다른 두 개 이상의 집단을 비교하고자 할 때, 또는 각 집단의 상대적 동질성을 비교할 때 이용한다. $$cv = \frac {s}{\bar {x}}$$ - 변동 계수(cv).. 2021. 2. 22.
[알고리즘] 최단거리 구하기, 다익스트라 알고리즘 ● 자료구조 우선순위 큐 - 자료 중 최소 or 최대 값을 먼저 출력한다. (기본적으로 최소) - 라이브러리 heapq를 사용한다. - 입력(heapq.heappush(list, value), 출력(heapq.heappop(list)) ● 다익스트라 알고리즘 (시작 지점부터 최단거리를 구하는 알고리즘) 1. 경로가 가장 짧은 노드 부터 탐색 2. 최단 거리 list를 무한으로 설정한다. 3. 노드 중에서 가장 짧은 거리를 갖고 있는 노드를 방문한다. 4. 현재 노드와 연결된 노드들의 거리를 계산하고 최단거리 list를 갱신한다. 5. 3,4를 반복한다. 모든 노드를 방문할 때까지 ● 코드로 구현 import heapq graph = [[] for _ in range(n+1)] # 각 노드가 연결된 정보(.. 2021. 2. 20.
[알고리즘] DFS/ BFS ● 자료구조 스택 & 큐 1. 스택 : 선입 수출의 구조를 갖는 자료구조 - 박스 쌓기에 비유할 수 있다. 마지막에 쌓은 박스를 먼저 꺼내야 아래 박스를 꺼낼 수 있다. - 일반적인 리스트 구조가 스택에 해당된다. (스택을 이용한 알고리즘을 사용할 때 일반 리스트 사용) - 입력(append), 출력(pop) 사용. 2. 큐 : 선입선출의 구조를 갖는 자료구조 - 대기줄처럼 먼저 들어온 데이터를 먼저 출력한다. - 라이브러리 collections에서 deque로 사용 가능하다. - 입력(append), 출력(popleft) 사용. ● DFS / BFS 1. DFS 깊이 우선 탐색 : 그래프에서 가장 깊은 곳을 먼저 탐색하는 방법 - 1번부터 인접한 노드를 DFS로 탐색하는 과정 - 위 과정을 반복하여 전.. 2021. 2. 13.