본문 바로가기

분류 전체보기53

[그로스 해킹] 그로스 해킹이란 + 전제조건_PMF 인프런 - 그로스 해킹 양승화 님의 강의를 듣고 정리한 자료입니다. 그로스 해킹이란? "데이터를 기반으로 서비스/비지니스에서 마주한 문제를 푸는 일, 그 문제를 풀어 기대하는 효과는 서비스의 성장" ● 그로스 해킹의 필요성 좋은 아이디어, 안정적인 개발, 예쁜 디자인, 효과적인 마케팅을 바탕으로 성공하는 서비스를 만들던 시대는 지나갔다. 쏟아져 나오는 제품/서비스 중에서 선택받는 소수가 되는 것은 매우 어렵다. - 프린세스 메이커 VS 클래시 오브 클랜 프린세스 메이커 : 완전한 제품을 만들어 출시하는 방식, 과거의 제품의 공급 방식이다. -> 어떻게 하면 좋은 제품을 만들까? 클래시 오브 클랜 : 제품 출시가 곧 시작, 사용자 로그, 반응 등을 분석하여 제품을 관리하고 개선해 나간다. -> 어떻게 제품.. 2021. 4. 8.
[핸즈온 머신러닝] 12장. 텐서플로우를 사용한 사용자 정의 모델과 훈련 ● 텐서플로우(Tensorflow) - 강력한 수치 계산용 라이브러리, 딥러닝 최적화가 되어있다. - 핵심 구조는 넘파이(Numpy)와 비슷하지만 GPU를 지원한다. - 분산 컴퓨팅을 지원한다. - 계산 그래프를 이용하여 함수 최적화 및 중립적 포맷을 유지한다.(리눅스 python 환경에서 훈련 후 안드로이드 자바에서 사용 가능) - 자동 미분 기능 제공, 고성능 옵티마이저 제공 - 텐서 플로 허브 등에서 다수의 만들어진 모델을 다운 가능하다. (커뮤니티가 잘 되어 있고 사용자도 많다.) 목차 1. 텐서 플로우 연산(numpy처럼 사용하기) 2. 사용자 정의로 모델 만들기 - 손실 함수, 활성화 함수, 규제, 지표, 층 등 사용자 정의로 모델의 구성요소를 만들어 보기 3. 텐서 플로우 함수 만들기 1. .. 2021. 3. 31.
[핸즈온 머신러닝] 11장. 심층 신경망 훈련하기 목차 1. 그레디언트 소실 및 그레디언트 폭주 문제 2. 전이 학습 3. 옵티마이저 4. 규제 ● 그레디언트 소실 및 그레디언트 폭주 - 깊은 신경망 학습 시 그레디언트가 점점 작아지거나 발산하는 현상 - 하위층에 대한 훈련이 매우 어려워진다. 시간 또는 비용이 많이 발생하게 된다. - 과대 적합에 빠질 위험이 많다. - 초반에 많이 사용하던 로지스틱 활성화 함수와 표준 정규분포 초기화로 인해 발생 ▶ 글로럿 초기화 출력층의 분산과 입력층의 분산이 같아야 적절한 신호가 흐를 수 있다. 글로럿 초기화를 사용하면 훈련 속도를 매우 높일 수 있다. 현재 딥러닝의 성공을 견인한 기술이다. 입력층의 개수를 $fan_{in}$, 출력층의 개수를 $fan_{out}$으로 표현하고 $fan_{avg}$는 둘의 평균입니.. 2021. 3. 28.
[유전체 분석] R을 이용한 clustering Clustering 데이터를 기반으로 비슷한 특성을 갖는 값들을 집단으로 분류하는 과정이다. 비지도 학습으로 집단의 개수, 분류 기준에 따라 결과가 달라진다. 목차. 유전체 분석에서 많이 사용되는 clustering 방법 1. Hierarchical clustering 2. Consensus clustering 3. NMF clustering Expression Set의 데이터 전처리(cluster 하기 위한) 유전체 분석에서 많이 사용되는 clustering 방법 ● Hierarchical clustering 가장 일반적으로 사용되는 방법이다. 가장 비슷하다고 생각되는 것을 묶어가며 군집화 한다. 최종적으로 1개의 군집이 될 때까지 진행한 뒤 그래프를 기준으로 적당한 클러스터 개수에서 분류한다. 아래 .. 2021. 3. 19.
Differential Expression Gene(DEG) with R DEG(차등 발현 유전자 분석)은 microarray나 RNA-seq을 이용한 분석방법 같은 유전자에 대해 sample별로 발현량을 비교하는 방법이다. DEG 분석 후 GO, KEGG pathway 분석 등을 통해 차등 발현한 유전자의 fuctional analysis도 함께 진행한다. 목차 1. DEG 분석 (차등 발현된 유전자 골라내기) 2. 간단한 GO, KEGG-pathway 3. web을 이용한 방법 1. DEG 분석 (차등 발현된 유전자 골라내기) GEO에서 받은 데이터와 R limma package를 이용하여 분석한다. # limma 설치 및 로드 BiocManager::install('limma') # RMA 전처리한 data GSEdata # limma package를 이용하기 위해 da.. 2021. 3. 17.
Microarray 데이터 전처리(RMA) 전처리가 필요한 이유 2-color Micro array에서 발현량을 signal로 비교한다. 이때 background 효과를 제거, normalization 이 필요하고 형광 signal 값을 발현량 값으로 변환이 필요하다. RMA preprocessing 위에서 말한 변환 과정을 RMA라고 한다. # assayData를 RMA 전처리 RMA_assay 2021. 3. 17.
GEO 에서 데이터 다운받기(R) GEO에서 데이터 다운로드하기(web)에서 확인한 accession number를 이용합니다. R에서 GEOquery package를 이용하여 2가지 방법으로 데이터를 받을 수 있다. 1. R을 이용하여 데이터 파일을 다운받기 (web으로 받는 것과 같은 결과) - pheno, feature Data를 가져올 수 없다. 2. R 객체(ExpressionSet)으로 받기 (권장) - pheno, feature Data를 가져올 수 있다. GEOquery 다운로드 # BiocManager를 이용 BiocManager::install(GEOquery) library(GEOquery) 1. 데이터 파일 다운로드 - 파일을 로컬에 저장한다. getGEOSuppFiles('Accession number') - 저장.. 2021. 3. 17.
GEO 에서 데이터 다운받기(web) GEO : NCBI에서 운영하는 공개 데이터 저장소 - microarray, NGS 등 유전체 데이터를 제공한다. - 실험 platform, sample, 실험 내용에 대한 정보로 구분하여 제공한다. - platform:GPL, sample:GSM, Series:GSE라는 명칭으로 제공 ● GEO 사이트 이용방법 1. 구글에서 GEO를 검색한다. 2. GEO 페이지 검색창에 키워드 or Accession number를 입력하면 해당 실험에 대한 데이터를 볼 수 있다. - 검색결과는 아래 빨간 필터들로 필터링하여 원하는 데이터를 찾을 수 있다. 3. 클릭하여 정보를 확인한다. 실험에 정보와 accession number를 확인할 수 있다.(기억할 것) - 해당 실험의 platfrom 정보(GPL), sam.. 2021. 3. 17.
Bioconductor - 기본 자료구조(ExpressionSet, GenomicRange) Bioconductor - 유전체 분석을 위한 R package 제공 시스템 (많은 package 모음) - bioconductor 홈페이지에서 각 package에 대한 정보를 확인할 수 있다. - 분석 tool 및 예제 데이터 제공 ▶ 설치 방법 # 설치 if (!requireNamespace("BiocManager", quietly = TRUE)) install.packages("BiocManager") # 기본 package 다운 BiocManager::install() # 특정 package 다운 BiocManager::install(원하는 package 이름) BioBase - 가장 기본적인 package - ExpressionSet 구조를 지원한다. ● ExpresssionSet - 유전자 발.. 2021. 3. 15.