LLM 학습데이터를 사용하면서 huggingface에 데이터를 upload 할 필요가 있었다. 웹 사이트에서도 가능하지만 작업 중인 서버에서 데이터를 올리기 위해서는 번거로운 과정이 필요했으며 서버에서 바로 huggingface dataset에 올리는 방법이 필요했다.
git-lfs 설치
lfs는 Large File Storage 의 약자이다. 100M 이상의 파일을 git으로 push 할 때 필요한 프로그램이다. 사용법은 일반적인 git과 비슷하기 때문에 쉽게 사용할 수 있다.
설치명령어는 아래와 같다.
bash:$ apt-get install git-lfs
huggingface cli 로그인
huggingface repository에 접근하기 위해서는 cli를 통한 로그인이 필요하며 로그인 시에는 access token이 필요하다.
access token 발급방법
1. huggingface 홈페이지 로그인
2. 프로필 이동 및 프로필 설정(Profile edit 클릭)
3. Access Token 클릭 및 발급
발급시 주의할 점은 토큰은 2가지 종류가 있다.
READ : 읽기 전용
WRITH : 쓰기 전용
각 목적에 맞는 token을 넣어야 인증을 받을 수 있다. 이번 데이터 업로드에서는 WRITH token이 필요하다.
dataset repo clone
repo와 연결할 폴더로 이동하여 lfs 사용을 선언하고 repository를 clone 한다.
bash:$ git lfs install #lfs를 사용하겠다고 선언
bahs:$ git clone [dataset https 주소]
data upload
데이터를 폴더로 옮긴 후 track 할 데이터를 입력해 준 뒤 add, commit, push를 순서대로 해준다.
bash:$ git lfs track [data_path]
bash:$ git add .
bash:$ git commit -m [commit_message]
bash:$ git push
이때 자격증명을 요구하면 아이디와 비밀번호 모두 WHITH access token을 입력해 준다.
댓글