Dogeun Kim 은 NeurIPS 논문 "HiFC, High-Efficiency Flash-Based KV Cache Swapping for Scaling LLM Inference"를 소개하며, 긴 컨텍스트 추론 시 KV 캐시가 GPU 메모리 제한에 도달하는 문제를 해결하기 위해 SSD 를 활용하는 방법을 제시한다. HiFC 는 pseudoSLC 를 사용하여 SSD 의 읽기/쓰기 속도를 개선하고, GPU Direct Storage 를 통해 GPU 와 SSD 간 직접적인 데이터 이동을 가능하게 하여 DRAM 과 유사한 성능을 유지하면서 SSD 의 비용 효율성을 얻을 수 있게 한다. 다양한 실험을 통해 HiFC 가 DRAM 기반 스와핑과 유사한 처리량을 제공하며, GPU 및 SSD 리소스가 추가될수록 처리량이 선형적으로 증가함을 입증한다。
Sign in to continue reading, translating and more.
Continue