python24 FAISS vector db search (with custom filter) FAISS vector db의 자료의 최소단위인 chunk는 page_content(내용)과 metadata(chunk 정보)로 구성된다.기본적으로 vector db에서 search를 진행하면 입력된 문장과 page_content의 내용을 비교하여 유사한 chunk 순으로 반환을 해준다. 하지만 metadata에 필터링을 걸어 검색을 하고 싶을 때가 있다. 예를 들어 특정 출처의 자료에서만 내용을 검색한다던지 특정 시기의 자료에서 검색을 위해 요구될 수 있다. 기본적인 metadata 필터링과 맞춤형으로 custom 필터 함수를 만들어 사용하는 방법에 대해 알아보자0. vector db loadfrom langchain_community.vectorstores import FAISSfrom langcha.. 2024. 8. 16. langchain에서 VLLM 사용하기 (with lora) langchain 라이브러리와 VLLM을 함께 이용하는 방법을 소개한다.현재 langchain_community 0.2.6 버전 기준으로 lora adapter 적용 및 stop token이 작용하지 않는 것으로 확인된다.이를 위한 class 처리 방법도 함께 소개한다. langchain VLLM class 사용법1. 모델 선언langchain_community 에서 VLLM class 를 불러와 사용할 수 있다.일반 적인 파라미터들을 바로 설정 할 수도 있고 vllm_kwargs 에 dict 형태로 vllm에서 사용하던 파라미터들을 모두 사용할 수 있다.import torchfrom langchain_community.llms import VLLMmodel_path = "model_path"vllm_k.. 2024. 8. 12. vLLM 사용방법 with LoRA vLLM은 LLM 모델의 간단한 GPU 병렬처리등을 제공하며 허깅페이스 대비 최대 24배 빠른 추론 속도를 높일 수 있는 라이브러리다.1. 설치방법pip install vllm2. 모델 로드로컬 모델 및 허깅페이스 모델 모두 사용가능사용할 GPU의 개수를 입력하여 병렬처리 가능from vllm import LLMimport torchmodel_path = 'mymodel/mymodel'llm = LLM( model=model_path, # 로드할 모델 path dtype=torch.float16, # dtype tensor_parallel_size=2, # 병렬처리 GPU 개수 enforce_engaer=True # CUDA 그래프 사용여부 )3. quantizationvllm에서 .. 2024. 6. 18. llama.cpp GPU 가속 설치 error : which is required to install pyproject.toml-based projects llama.cpp를 이용하면서 GPU를 이용한 가속이 가능하다. 기존 모델보다 적은 메모리를 이용하면서 매우 빠른 속도로 모델을 이용할 수 있다. llama-cpp-python install 중에 제목과 같은 에러가 발생했다. cpu만 사용하는 llama-cpp-python은 설치가 가능했지만 GPU 가속을 사용하는 llama-cpp-python은 설치가 되지 않았다. 시도했던 방법과 해결된 방법은 다음과 같다. 설치 명령어 발생한 error 여러 시도 실패한 시도(이것도 해결하는데 도움이 되었을 수 있다.) 성공한 시도 - 정확한 원인 포함 1. 설치 명령어 CUBLAS = on이 GPU 가속을 사용하는 버전을 설치하겠다는 의미이다. (linux, nvidia gpu 사용 시) CMAKE_ARGS=-D.. 2024. 2. 22. llama.cpp 설치 방법 및 사용방법 with LoRA llama.cpp는 LLM 모델을 quantization을 통하여 필요한 메모리의 양을 크게 감소시켜고성능 GPU가 없는 환경(m1 mac 등)에서도 동작하며 빠른 추론 결과를 얻을 수 있게 해주는 packege이다.cpp를 이용하면 cpu 만으로도 동작하지만 GPU를 함께 사용하면 더 빠른 결과를 얻을 수 있다.모델을 cpp로 이용하는 순서는 다음과 같다. llama.cpp 환경 구축llama.cpp code clonepackege install사용할 LLM 모델 다운로드LLM 모델 convert (ggml, gguf 파일로 만들기)python packege llama_cpp를 이용하여 모델 로드모델 추론각 단계별 자세한 내용은 다음과 같다.1. llama.cpp 환경 구축모델을 convert 하기 위.. 2024. 2. 22. Artillery : 서버 성능 테스트(부하 테스트) API의 성능을 테스트하기 위해 스트레스 테스트가 필요하다. 쉽게 테스트 상황을 만들어 시간을 확인 하고 싶다면 Artillery를 사용할 수 있다. 설치와 사용법이 간단하고 결과도 깔끔하게 확인할 수 있는 좋은 방법이다. 호출 횟수, 시간, 간격, 시나리오 등을 파일로 설정하여 테스트를 해볼 수 있다. 설치 npm install artillery 전역 설치를 원한다면 -g 옵션을 사용할 수 있다. 사용법 명령어로 바로 사용할 수 있지만 여러가지 설정을 편하게 관리할 수 있도록 파일(json, yml)을 만들어 사용하자. 예시는 yml 파일이다. config에서는 기본 설정을 할 수 있다. target : 테스트할 도메인 timeout : timeout 기준 - timeout은 테스트 환경 -> 서버 -.. 2023. 7. 10. line_profiler : 어디에서 많은 시간이 걸리는지 알아보기 with flask flask로 챗봇 엔진 서버를 만들면서 속도를 개선해야 하는 상황이었다. AI를 사용하는 엔진에서 다양한 방식의 속도 개선 방법이 있었지만 가장 먼저 어떤 코드에서 시간이 많이 걸리는 지 알아내는 것이 중요하였다. 그래서 선택한 방법이 line_profiler 를 사용하여 각 코드 라인별 소요시간(비율)을 확인하였다. line_profiler는 동작한 코드 각 라인별 hits 수(몇번이나 실행 되었는지), total 걸린 시간 및 hit 당 소요시간, 그리고 전체에서 해당 라인이 차지하는 시간 비율을 알 수 있다. 설치방법 pip install line_profiler 또는 conda install -c conda-forge line_profiler 사용법 line_profiler의 사용법은 간단하다. .. 2023. 7. 3. Pylint : 규칙적인 코드 작성하기 pylint는 코드의 에러를 찾거나, 정해진 규칙에 맞지 않는 부분을 확인하고 더 나은 코드를 작성할 수 있도록 도와주는 도구입니다. PEP8 스타일을 기본으로 하며 config 파일로 프로젝트 별 규칙을 정의하고 확인할 수 있습니다. 설치 conda install -c conda-forge pylint or pip install pylint 사용법 cmd에서 특정 스크립트를 체크하는 코드입니다. pylint [scirpt_path] # py 파일 또는 directory 위와 같이 실행을 하면 cmd 화면에서 다음과 같은 결과를 얻을 수 있습니다. 결과는 수정이 필요한 부분과 그 원인을 알려주고 마지막 줄에는 코드의 점수를 알려줍니다. 수정 부분을 자세하게 확인해 보면 아래와 같은 규칙으로 작성됩니다. .. 2023. 6. 28. [컴퓨터 비전] SSD 개요 인프런 - 권철민 님의 '딥러닝 컴퓨터 비전 완벽 가이드'를 정리한 내용입니다. SSD 원리 SSD는 singe shot detecter의 줄임말로 RCNN 계열에서 Object 위치를 찾는 과정과 Object를 분류하는 과정을 하나로 합친 모델이다. YOLO v1 다음에 나온 모델이지만 최초로 정확성과 속도를 모두 잡은 모델로 평가 받는다.(YOLO v2, v3도 정확성과 속도 모두 좋다.) 한번에 Detection하기 위해 이미지 피라미드기법과 Default Box(Anchor Box와 비슷)을 사용한다. 이미지 피라미드 & Default Box Default Box는 Faster RCNN의 Anchor Box와 비슷한 개념이다.(논문에서 다른 단어를 사용했을 뿐) 이미지에서 찾기위한 Object의 .. 2021. 5. 6. 이전 1 2 3 다음