본문 바로가기

데이터 분석7

huggingface dataset upload 하기 with cmd git-lfs LLM 학습데이터를 사용하면서 huggingface에 데이터를 upload 할 필요가 있었다. 웹 사이트에서도 가능하지만 작업 중인 서버에서 데이터를 올리기 위해서는 번거로운 과정이 필요했으며 서버에서 바로 huggingface dataset에 올리는 방법이 필요했다. git-lfs 설치 lfs는 Large File Storage 의 약자이다. 100M 이상의 파일을 git으로 push 할 때 필요한 프로그램이다. 사용법은 일반적인 git과 비슷하기 때문에 쉽게 사용할 수 있다. 설치명령어는 아래와 같다. bash:$ apt-get install git-lfs huggingface cli 로그인 huggingface repository에 접근하기 위해서는 cli를 통한 로그인이 필요하며 로그인 시에는 a.. 2024. 1. 23.
[그로스 해킹] AARRR 개념 및 Acquistion 인프런 - 그로스 해킹 양승화 님의 강의를 듣고 정리한 자료입니다. 지표의 중요성 지표(metric) - 로그를 특정 기준에 따라 요약한 숫자 1. 현재 상황을 정확하게 이해하도록 해준다. 2. 목표를 명확하게 해 준다. 3. 의사결정을 하는데 기준이 된다. ● 지표를 관리하는 2가지 방법 1. Task-based, 업무기반 - 결과적으로 안좋은 것 마케팅, 운영, 개발, 사업 등 업무를 기반으로 생성된 지표를 각각 관리하는 것 - 마케팅 팀: 검색광고 키워드별 CTR은 3.5% 이다. - 운영 팀: CS 문의 처리 건 수가 300건이다. - 개발 팀: 이번 배포에서 총 12개의 버그를 수정했다. - 사업 팀: 이 달 신규계약은 12건입니다. ▶ 문제점 - 무엇이 중요한지 판단하기 어렵다. - 전체 프로.. 2021. 4. 19.
[그로스 해킹] 그로스 해킹이란 + 전제조건_PMF 인프런 - 그로스 해킹 양승화 님의 강의를 듣고 정리한 자료입니다. 그로스 해킹이란? "데이터를 기반으로 서비스/비지니스에서 마주한 문제를 푸는 일, 그 문제를 풀어 기대하는 효과는 서비스의 성장" ● 그로스 해킹의 필요성 좋은 아이디어, 안정적인 개발, 예쁜 디자인, 효과적인 마케팅을 바탕으로 성공하는 서비스를 만들던 시대는 지나갔다. 쏟아져 나오는 제품/서비스 중에서 선택받는 소수가 되는 것은 매우 어렵다. - 프린세스 메이커 VS 클래시 오브 클랜 프린세스 메이커 : 완전한 제품을 만들어 출시하는 방식, 과거의 제품의 공급 방식이다. -> 어떻게 하면 좋은 제품을 만들까? 클래시 오브 클랜 : 제품 출시가 곧 시작, 사용자 로그, 반응 등을 분석하여 제품을 관리하고 개선해 나간다. -> 어떻게 제품.. 2021. 4. 8.
기초통계 - 범주형 자료분석 ● 범주형 자료: 관측된 결과를 속성에 따라 몇 개의 범주로 분류하여 도수로 정리한 자료 ● 분할표: 각 변수의 범주를 나누어 관측도수를 표현하여 나타낸 표 정상 당뇨 정상 20 10 비만 10 20 ● 범주형 자료분석 방법 ▶ 카이제곱 검정 1. 적합도 검정 - 범주형으로 조사된 자료의 분석결과가 기존에 알려진 이론에 부합하는지 여부를 확인한다. 2. 독립성 검정 - 관측된 자료를 두 요인에 의해 분할하여 도수를 조사하고 두 요인 사이에 관련이 있는지 없는지(독립인지) 여부를 검정하는 것 3. 동일성 검정 - 범주형으로 조사된 두 개 이상의 모집단의 비율이 서로 동일한지 여부를 결정하는 것 ● 적합도 검정 과정 가설: $H_{0}: p_{0} = p_{10}, p_{1} = p_{20},···$ , $.. 2021. 2. 25.
기초 통계 - 상관분석과 회귀분석 두 변수 간의 관계성 - 선형성 : 두 변수 간의 직선의 관계 - ex) a가 1 증가하면 b가 2 증가한다. ▶ 얼마나 연관성이 있는가? - 단위, 평균의 크기에 영향을 받지 않기 위해 정규화된 측도를 이용하여 통계적 추론을 한다. ▶ 얼마나 직선의 관계가 있는가? (기울기는 중요하지 않다. 단위, 절편 등의 영향을 받기 때문에) 산점도와 선형성 - 기울기나 절편이 아닌 얼마나 직선에 가까운가? 를 확인한다. - 직선에 가까울수록 강한 상관관계를 갖는다. - 함께 증가하면 양의 상관관계, 하나가 증가할 때 다른 하나가 감소한다면 음의 상관관계를 갖는다. 공분산 두 확률변수 $X,Y$의 기댓값을 $\mu_{X},\mu_{Y}$라고 할 때 $X$가 증가함에 따라 $Y$가 증가하는지를 측정하는 측도 $$Co.. 2021. 2. 25.
기초통계 - 그룹간 평균비교 ● 대표적인 평균 비교 분석 방법 ● 모집단 분포에 대한 정규성 검정 검정방법 Shapiro-Wilk test Kolmogorov-Smirnov test 표본의 크기 표본 크기가 작을 때 표본 크기가 클 때 목적 정규분포의 적합성 임의의 분포에 대한 적합성 가설($H_{0}) 정규분포를 따른다 임의의 분포를 따른다. 한 그룹의 평균이 그 집단의 특성을 잘 대표하는가? ● 일표본 Z-검정($\sigma$를 알 때) 확률분포: $X_{1},X_{2},···,X_{n}$ ~ 평균 $\mu$, 분산 $\sigma^{2}$인 임의의 대표본 모집단 가설: $H_{0}$ - $\mu = \mu_{0}$, $H_{1}$ - $\mu \neq \mu_{0}$ (또는 >, , , t_{\alpha/2}(n_{1}+n_{2.. 2021. 2. 22.
기초통계 -1 용어 정리 ● 통계적 추론 - 추출된 표본에 내포된 정보를 분석하여 모집단의 여러 가지 특성에 대하여 합리적이고 과학적인 결론을 내리는 과정(추론, 가설검정) ● 모수(parameter) - 모집단(population)의 특성을 나타내는 값 (모평균, 모 분산 등) ● 관심사항 - 미지의 값에 대한 예상 or 확인되지 않는 사항에 대한 검증 (모수의 추정, 검정) ▶ 모집단 vs 표본 모집단 표본 평균 $\bar{x}$ $\mu$ 표준편차 $\sigma$ $s$ 분산 $\sigma^{2}$ $s^{2}$ ● 변동 계수 - 평균이 크게 다른 두 개 이상의 집단을 비교하고자 할 때, 또는 각 집단의 상대적 동질성을 비교할 때 이용한다. $$cv = \frac {s}{\bar {x}}$$ - 변동 계수(cv).. 2021. 2. 22.