Pytorch

·Pytorch
Python, 거대한 데이터셋 앞에서 막막할 때 — IterableDataset학습용 데이터셋이 너무 커서 OOM(Out Of Memory) 오류로 밤새 돌린 코드가 멈춰버린 경험, 한 번쯤 있을 거다. 특히 오디오나 이미지처럼 개별 파일 용량이 큰 데이터를 다루다 보면 이런 일이 자주 생긴다.이번에는 그 메모리 문제를 꽤 깔끔하게 해결해주는 Hugging Face datasets 라이브러리의 streaming=True 옵션, 즉 IterableDataset 사용법을 오디오 처리 예제를 통해 정리해봤다.기존 방식의 문제보통 데이터를 불러올 때는 이런 식으로 한다.# dataset = load_dataset("csv", data_files="my_large_data.csv")# --> 이 순간, CSV 전..
Joy Shin
'Pytorch' 카테고리의 글 목록