본문 바로가기

분류 전체보기53

FAISS vector db search (with custom filter) FAISS vector db의 자료의 최소단위인 chunk는 page_content(내용)과 metadata(chunk 정보)로 구성된다.기본적으로 vector db에서 search를 진행하면 입력된 문장과 page_content의 내용을 비교하여 유사한 chunk 순으로 반환을 해준다. 하지만 metadata에 필터링을 걸어 검색을 하고 싶을 때가 있다. 예를 들어 특정 출처의 자료에서만 내용을 검색한다던지 특정 시기의 자료에서 검색을 위해 요구될 수 있다. 기본적인 metadata 필터링과 맞춤형으로 custom 필터 함수를 만들어 사용하는 방법에 대해 알아보자0. vector db loadfrom langchain_community.vectorstores import FAISSfrom langcha.. 2024. 8. 16.
langchain에서 VLLM 사용하기 (with lora) langchain 라이브러리와 VLLM을 함께 이용하는 방법을 소개한다.현재 langchain_community 0.2.6 버전 기준으로 lora adapter 적용 및 stop token이 작용하지 않는 것으로 확인된다.이를 위한 class 처리 방법도 함께 소개한다. langchain VLLM class 사용법1. 모델 선언langchain_community 에서 VLLM class 를 불러와 사용할 수 있다.일반 적인 파라미터들을 바로 설정 할 수도 있고 vllm_kwargs 에 dict 형태로 vllm에서 사용하던 파라미터들을 모두 사용할 수 있다.import torchfrom langchain_community.llms import VLLMmodel_path = "model_path"vllm_k.. 2024. 8. 12.
vLLM 사용방법 with LoRA vLLM은 LLM 모델의 간단한 GPU 병렬처리등을 제공하며 허깅페이스 대비 최대 24배 빠른 추론 속도를 높일 수 있는 라이브러리다.1. 설치방법pip install vllm2. 모델 로드로컬 모델 및 허깅페이스 모델 모두 사용가능사용할 GPU의 개수를 입력하여 병렬처리 가능from vllm import LLMimport torchmodel_path = 'mymodel/mymodel'llm = LLM( model=model_path, # 로드할 모델 path dtype=torch.float16, # dtype tensor_parallel_size=2, # 병렬처리 GPU 개수 enforce_engaer=True # CUDA 그래프 사용여부 )3. quantizationvllm에서 .. 2024. 6. 18.
llama.cpp GPU 가속 설치 error : which is required to install pyproject.toml-based projects llama.cpp를 이용하면서 GPU를 이용한 가속이 가능하다. 기존 모델보다 적은 메모리를 이용하면서 매우 빠른 속도로 모델을 이용할 수 있다. llama-cpp-python install 중에 제목과 같은 에러가 발생했다. cpu만 사용하는 llama-cpp-python은 설치가 가능했지만 GPU 가속을 사용하는 llama-cpp-python은 설치가 되지 않았다. 시도했던 방법과 해결된 방법은 다음과 같다. 설치 명령어 발생한 error 여러 시도 실패한 시도(이것도 해결하는데 도움이 되었을 수 있다.) 성공한 시도 - 정확한 원인 포함 1. 설치 명령어 CUBLAS = on이 GPU 가속을 사용하는 버전을 설치하겠다는 의미이다. (linux, nvidia gpu 사용 시) CMAKE_ARGS=-D.. 2024. 2. 22.
llama.cpp 설치 방법 및 사용방법 with LoRA llama.cpp는 LLM 모델을 quantization을 통하여 필요한 메모리의 양을 크게 감소시켜고성능 GPU가 없는 환경(m1 mac 등)에서도 동작하며 빠른 추론 결과를 얻을 수 있게 해주는 packege이다.cpp를 이용하면 cpu 만으로도 동작하지만 GPU를 함께 사용하면 더 빠른 결과를 얻을 수 있다.모델을 cpp로 이용하는 순서는 다음과 같다. llama.cpp 환경 구축llama.cpp code clonepackege install사용할 LLM 모델 다운로드LLM 모델 convert (ggml, gguf 파일로 만들기)python packege llama_cpp를 이용하여 모델 로드모델 추론각 단계별 자세한 내용은 다음과 같다.1. llama.cpp 환경 구축모델을 convert 하기 위.. 2024. 2. 22.
huggingface dataset upload 하기 with cmd git-lfs LLM 학습데이터를 사용하면서 huggingface에 데이터를 upload 할 필요가 있었다. 웹 사이트에서도 가능하지만 작업 중인 서버에서 데이터를 올리기 위해서는 번거로운 과정이 필요했으며 서버에서 바로 huggingface dataset에 올리는 방법이 필요했다. git-lfs 설치 lfs는 Large File Storage 의 약자이다. 100M 이상의 파일을 git으로 push 할 때 필요한 프로그램이다. 사용법은 일반적인 git과 비슷하기 때문에 쉽게 사용할 수 있다. 설치명령어는 아래와 같다. bash:$ apt-get install git-lfs huggingface cli 로그인 huggingface repository에 접근하기 위해서는 cli를 통한 로그인이 필요하며 로그인 시에는 a.. 2024. 1. 23.
Artillery : 서버 성능 테스트(부하 테스트) API의 성능을 테스트하기 위해 스트레스 테스트가 필요하다. 쉽게 테스트 상황을 만들어 시간을 확인 하고 싶다면 Artillery를 사용할 수 있다. 설치와 사용법이 간단하고 결과도 깔끔하게 확인할 수 있는 좋은 방법이다. 호출 횟수, 시간, 간격, 시나리오 등을 파일로 설정하여 테스트를 해볼 수 있다. 설치 npm install artillery 전역 설치를 원한다면 -g 옵션을 사용할 수 있다. 사용법 명령어로 바로 사용할 수 있지만 여러가지 설정을 편하게 관리할 수 있도록 파일(json, yml)을 만들어 사용하자. 예시는 yml 파일이다. config에서는 기본 설정을 할 수 있다. target : 테스트할 도메인 timeout : timeout 기준 - timeout은 테스트 환경 -> 서버 -.. 2023. 7. 10.
line_profiler : 어디에서 많은 시간이 걸리는지 알아보기 with flask flask로 챗봇 엔진 서버를 만들면서 속도를 개선해야 하는 상황이었다. AI를 사용하는 엔진에서 다양한 방식의 속도 개선 방법이 있었지만 가장 먼저 어떤 코드에서 시간이 많이 걸리는 지 알아내는 것이 중요하였다. 그래서 선택한 방법이 line_profiler 를 사용하여 각 코드 라인별 소요시간(비율)을 확인하였다. line_profiler는 동작한 코드 각 라인별 hits 수(몇번이나 실행 되었는지), total 걸린 시간 및 hit 당 소요시간, 그리고 전체에서 해당 라인이 차지하는 시간 비율을 알 수 있다. 설치방법 pip install line_profiler 또는 conda install -c conda-forge line_profiler 사용법 line_profiler의 사용법은 간단하다. .. 2023. 7. 3.
Pylint : 규칙적인 코드 작성하기 pylint는 코드의 에러를 찾거나, 정해진 규칙에 맞지 않는 부분을 확인하고 더 나은 코드를 작성할 수 있도록 도와주는 도구입니다. PEP8 스타일을 기본으로 하며 config 파일로 프로젝트 별 규칙을 정의하고 확인할 수 있습니다. 설치 conda install -c conda-forge pylint or pip install pylint 사용법 cmd에서 특정 스크립트를 체크하는 코드입니다. pylint [scirpt_path] # py 파일 또는 directory 위와 같이 실행을 하면 cmd 화면에서 다음과 같은 결과를 얻을 수 있습니다. 결과는 수정이 필요한 부분과 그 원인을 알려주고 마지막 줄에는 코드의 점수를 알려줍니다. 수정 부분을 자세하게 확인해 보면 아래와 같은 규칙으로 작성됩니다. .. 2023. 6. 28.