본문 바로가기

cpp2

llama.cpp GPU 가속 설치 error : which is required to install pyproject.toml-based projects llama.cpp를 이용하면서 GPU를 이용한 가속이 가능하다. 기존 모델보다 적은 메모리를 이용하면서 매우 빠른 속도로 모델을 이용할 수 있다. llama-cpp-python install 중에 제목과 같은 에러가 발생했다. cpu만 사용하는 llama-cpp-python은 설치가 가능했지만 GPU 가속을 사용하는 llama-cpp-python은 설치가 되지 않았다. 시도했던 방법과 해결된 방법은 다음과 같다. 설치 명령어 발생한 error 여러 시도 실패한 시도(이것도 해결하는데 도움이 되었을 수 있다.) 성공한 시도 - 정확한 원인 포함 1. 설치 명령어 CUBLAS = on이 GPU 가속을 사용하는 버전을 설치하겠다는 의미이다. (linux, nvidia gpu 사용 시) CMAKE_ARGS=-D.. 2024. 2. 22.
llama.cpp 설치 방법 및 사용방법 with LoRA llama.cpp는 LLM 모델을 quantization을 통하여 필요한 메모리의 양을 크게 감소시켜고성능 GPU가 없는 환경(m1 mac 등)에서도 동작하며 빠른 추론 결과를 얻을 수 있게 해주는 packege이다.cpp를 이용하면 cpu 만으로도 동작하지만 GPU를 함께 사용하면 더 빠른 결과를 얻을 수 있다.모델을 cpp로 이용하는 순서는 다음과 같다. llama.cpp 환경 구축llama.cpp code clonepackege install사용할 LLM 모델 다운로드LLM 모델 convert (ggml, gguf 파일로 만들기)python packege llama_cpp를 이용하여 모델 로드모델 추론각 단계별 자세한 내용은 다음과 같다.1. llama.cpp 환경 구축모델을 convert 하기 위.. 2024. 2. 22.