HiFC: high-efficient Flash-based KV Cache Swapping for Scaling LLM Inference

Dogeun Kim 은 NeurIPS 논문 "HiFC, High-Efficiency Flash-Based KV Cache Swapping for Scaling LLM Inference"를 소개하며， 긴 컨텍스트 추론 시 KV 캐시가 GPU 메모리 제한에 도달하는 문제를 해결하기 위해 SSD 를 활용하는 방법을 제시한다. HiFC 는 pseudoSLC 를 사용하여 SSD 의 읽기/쓰기 속도를 개선하고， GPU Direct Storage 를 통해 GPU 와 SSD 간 직접적인 데이터 이동을 가능하게 하여 DRAM 과 유사한 성능을 유지하면서 SSD 의 비용 효율성을 얻을 수 있게 한다. 다양한 실험을 통해 HiFC 가 DRAM 기반 스와핑과 유사한 처리량을 제공하며， GPU 및 SSD 리소스가 추가될수록 처리량이 선형적으로 증가함을 입증한다。

Outlines

Sign in to continue reading, translating and more.

Continue

AIDAS Lab

KV 캐시 스와핑을 위한 HiFC 소개 및 배경

HiFC 방법론: PSLC 활용 및 플래시 인식 스케줄러

HiFC 의 KV 페이지 작동 방식 및 DRAM 스와핑과의 성능 비교

HiFC 의 경쟁 시퀀스 처리량 및 GPU/SSD 스케일링 테스트 결과

결론 및 추가 정보

HiFC: high-efficient Flash-based KV Cache Swapping for Scaling LLM Inference

AIDAS Lab

00:02KV 캐시 스와핑을 위한 HiFC 소개 및 배경

KV 캐시 스와핑을 위한 HiFC 소개 및 배경

05:01HiFC 방법론: PSLC 활용 및 플래시 인식 스케줄러

HiFC 방법론: PSLC 활용 및 플래시 인식 스케줄러

09:49HiFC 의 KV 페이지 작동 방식 및 DRAM 스와핑과의 성능 비교

HiFC 의 KV 페이지 작동 방식 및 DRAM 스와핑과의 성능 비교

11:31HiFC 의 경쟁 시퀀스 처리량 및 GPU/SSD 스케일링 테스트 결과

HiFC 의 경쟁 시퀀스 처리량 및 GPU/SSD 스케일링 테스트 결과

15:01결론 및 추가 정보

결론 및 추가 정보