vLLM2 langchain에서 VLLM 사용하기 (with lora) langchain 라이브러리와 VLLM을 함께 이용하는 방법을 소개한다.현재 langchain_community 0.2.6 버전 기준으로 lora adapter 적용 및 stop token이 작용하지 않는 것으로 확인된다.이를 위한 class 처리 방법도 함께 소개한다. langchain VLLM class 사용법1. 모델 선언langchain_community 에서 VLLM class 를 불러와 사용할 수 있다.일반 적인 파라미터들을 바로 설정 할 수도 있고 vllm_kwargs 에 dict 형태로 vllm에서 사용하던 파라미터들을 모두 사용할 수 있다.import torchfrom langchain_community.llms import VLLMmodel_path = "model_path"vllm_k.. 2024. 8. 12. vLLM 사용방법 with LoRA vLLM은 LLM 모델의 간단한 GPU 병렬처리등을 제공하며 허깅페이스 대비 최대 24배 빠른 추론 속도를 높일 수 있는 라이브러리다.1. 설치방법pip install vllm2. 모델 로드로컬 모델 및 허깅페이스 모델 모두 사용가능사용할 GPU의 개수를 입력하여 병렬처리 가능from vllm import LLMimport torchmodel_path = 'mymodel/mymodel'llm = LLM( model=model_path, # 로드할 모델 path dtype=torch.float16, # dtype tensor_parallel_size=2, # 병렬처리 GPU 개수 enforce_engaer=True # CUDA 그래프 사용여부 )3. quantizationvllm에서 .. 2024. 6. 18. 이전 1 다음