본문 바로가기
데이터 분석

huggingface dataset upload 하기 with cmd git-lfs

by _avocado_ 2024. 1. 23.

LLM 학습데이터를 사용하면서 huggingface에 데이터를 upload 할 필요가 있었다. 웹 사이트에서도 가능하지만 작업 중인 서버에서 데이터를 올리기 위해서는 번거로운 과정이 필요했으며 서버에서 바로 huggingface dataset에 올리는 방법이 필요했다.


git-lfs 설치

lfs는 Large File Storage 의 약자이다. 100M 이상의 파일을 git으로 push 할 때 필요한 프로그램이다. 사용법은 일반적인 git과 비슷하기 때문에 쉽게 사용할 수 있다.

 

설치명령어는 아래와 같다.

bash:$ apt-get install git-lfs

huggingface cli 로그인

huggingface repository에 접근하기 위해서는 cli를 통한 로그인이 필요하며 로그인 시에는 access token이 필요하다.

 

access token 발급방법

1. huggingface 홈페이지 로그인

2. 프로필 이동 및 프로필 설정(Profile edit 클릭)

3. Access Token 클릭 및 발급

    발급시 주의할 점은 토큰은 2가지 종류가 있다.

    READ : 읽기 전용
    WRITH : 쓰기 전용

    각 목적에 맞는 token을 넣어야 인증을 받을 수 있다. 이번 데이터 업로드에서는 WRITH token이 필요하다.

dataset repo clone

repo와 연결할 폴더로 이동하여 lfs 사용을 선언하고 repository를 clone 한다.

bash:$ git lfs install #lfs를 사용하겠다고 선언
bahs:$ git clone [dataset https 주소]

data upload

데이터를 폴더로 옮긴 후 track 할 데이터를 입력해 준 뒤 add, commit, push를 순서대로 해준다.

bash:$ git lfs track [data_path]
bash:$ git add .
bash:$ git commit -m [commit_message]
bash:$ git push

이때 자격증명을 요구하면 아이디와 비밀번호 모두 WHITH access token을 입력해 준다.

댓글