본문 바로가기

바이오 데이터/R4

[유전체 분석] R을 이용한 clustering Clustering 데이터를 기반으로 비슷한 특성을 갖는 값들을 집단으로 분류하는 과정이다. 비지도 학습으로 집단의 개수, 분류 기준에 따라 결과가 달라진다. 목차. 유전체 분석에서 많이 사용되는 clustering 방법 1. Hierarchical clustering 2. Consensus clustering 3. NMF clustering Expression Set의 데이터 전처리(cluster 하기 위한) 유전체 분석에서 많이 사용되는 clustering 방법 ● Hierarchical clustering 가장 일반적으로 사용되는 방법이다. 가장 비슷하다고 생각되는 것을 묶어가며 군집화 한다. 최종적으로 1개의 군집이 될 때까지 진행한 뒤 그래프를 기준으로 적당한 클러스터 개수에서 분류한다. 아래 .. 2021. 3. 19.
Differential Expression Gene(DEG) with R DEG(차등 발현 유전자 분석)은 microarray나 RNA-seq을 이용한 분석방법 같은 유전자에 대해 sample별로 발현량을 비교하는 방법이다. DEG 분석 후 GO, KEGG pathway 분석 등을 통해 차등 발현한 유전자의 fuctional analysis도 함께 진행한다. 목차 1. DEG 분석 (차등 발현된 유전자 골라내기) 2. 간단한 GO, KEGG-pathway 3. web을 이용한 방법 1. DEG 분석 (차등 발현된 유전자 골라내기) GEO에서 받은 데이터와 R limma package를 이용하여 분석한다. # limma 설치 및 로드 BiocManager::install('limma') # RMA 전처리한 data GSEdata # limma package를 이용하기 위해 da.. 2021. 3. 17.
Bioconductor - 기본 자료구조(ExpressionSet, GenomicRange) Bioconductor - 유전체 분석을 위한 R package 제공 시스템 (많은 package 모음) - bioconductor 홈페이지에서 각 package에 대한 정보를 확인할 수 있다. - 분석 tool 및 예제 데이터 제공 ▶ 설치 방법 # 설치 if (!requireNamespace("BiocManager", quietly = TRUE)) install.packages("BiocManager") # 기본 package 다운 BiocManager::install() # 특정 package 다운 BiocManager::install(원하는 package 이름) BioBase - 가장 기본적인 package - ExpressionSet 구조를 지원한다. ● ExpresssionSet - 유전자 발.. 2021. 3. 15.
[R] - 기초 연산 및 데이터 구조 데이터 종류 ● 숫자(numeric) : 1, 2, 3 ● 문자(charicter) : 'abc', '123', "가나다" (따옴표로 감싸면 문자로 인식한다.) ● 논리(logical) : TRUE, T, FALSE, F 데이터 종류 관련 함수 class(X) : X의 데이터 타입을 알려준다. as.numeric(X) : X를 숫자형으로 변경한다. '123' -> 123으로, 숫자로 바꿀 수 없으면 에러 (TURE =1, FALSE=0) as.charicter() : 문자열로 바꾸어 준다. as.logical() : 논리형으로 바꾸어 준다. (숫자에서 0만 FALSE, 문자에서 빈 문자열만 '' FAlSE) 기초 연산 ▶ 산술 연산 연산 기호 더하기 + 빼기 - 곱하기 * 나누기 / 몫 %/% 나머지 %.. 2021. 3. 5.