(오*성) (강의노트 7장) IncrementalPCA에서 memmap 사용 목적에 대해

점진적 PCA(IncrementalPCA)가 훈련 세트를 미니배치로 나눈 뒤 하나씩 주입하여 학습하는 PCA 기법, 전체 훈련 세트를 한 번에 메모리에 올리기 어려운 경우나 온라인 학습 상황에서 활용할 수 있으며, partial_fit() 메서드를 사용해 배치 단위로 학습한다고 이해했습니다.

또한 연습문제에서는 넘파이의 memmap 클래스를 함께 사용하는 예시가 나옵니다. memmap은 바이너리 파일로 저장된 매우 큰 데이터셋을 메모리에 모두 올리지 않고도 일반 배열과 비슷한 방식으로 다룰 수 있게 해주는 방법이라고 설명되어 있습니다. 
이후 IncrementalPCA에 batch_size를 지정하면, fit() 내부에서 데이터를 미니배치로 나누어 여러 번 partial_fit()을 호출한다고 되어 있습니다.

이 부분을 읽고 궁금한 점이 생겼습니다. memmap을 사용하면 전체 데이터를 RAM에 한 번에 올리지 않아도 되므로 메모리 사용량을 줄이는 데는 효과적일 것 같습니다. 하지만 실제 데이터는 디스크에 저장되어 있고, 필요할 때 디스크에서 읽어오는 방식이므로 계산 속도까지 항상 빨라지는 것은 아닐 것 같다고 생각했습니다.

그래서 AI에게 다음과 같이 질문해 보았습니다.
 
>IncrementalPCA에서 memmap을 사용하는 주된 목적이 뭐지? memmap은 계산 속도를 높이기 위한 방법이야 아니면 큰 데이터셋을 메모리에 모두 올리지 않고 처리하기 위한 방법이야?

AI의 답변은 다음과 같았습니다.

> memmap의 주된 목적은 계산 속도 향상이라기보다 메모리 사용량을 줄이고, RAM에 한 번에 올리기 어려운 큰 데이터셋을 처리할 수 있게 하는 것.
일반적인 넘파이 배열은 데이터를 RAM에 모두 올린 뒤 연산하지만, memmap은 디스크에 저장된 배열을 필요한 부분만 메모리에 매핑해서 사용할 수 있습니다. 그래서 데이터셋이 매우 클 때도 일반 배열처럼 인덱싱하거나 배치 단위로 접근할 수 있습니다.

다만 memmap을 사용한다고 해서 항상 속도가 빨라지는 것은 아니라고 했습니다. 데이터가 RAM에 충분히 올라가는 크기라면 일반 넘파이 배열을 사용하는 것이 더 빠를 가능성이 큽니다. 
왜냐하면 memmap은 실제 데이터가 디스크에 있기 때문에, 접근 패턴에 따라 디스크 입출력 비용이 발생할 수 있기 때문입니다. 
특히 데이터를 반복적으로 여러 번 읽거나 무작위 순서로 자주 접근하는 경우에는 일반 배열보다 느려질 수도 있다고 설명했습니다.

반면 데이터가 RAM보다 훨씬 커서 일반 배열로는 처리 자체가 어렵거나 불가능한 경우에는 memmap이 유용하다고 했습니다. 
이때 IncrementalPCA처럼 데이터를 미니배치 단위로 처리하는 알고리즘과 함께 사용하면, 전체 데이터를 메모리에 올리지 않고도 큰 데이터셋에 PCA를 적용할 수 있습니다. 
따라서 memmap은 **“빠르게 계산하기 위한 도구**”라기보다는 “**메모리 한계를 피하기 위한 도구**”에 가깝다고 답했습니다.


이 답변을 보고 저는 memmap의 역할을 조금 더 명확하게 이해할 수 있었습니다. 
처음에는 memmap을 사용하면 큰 데이터셋을 효율적으로 다룰 수 있으므로 속도 측면에서도 유리할 것이라고 생각했습니다. 
하지만 실제로는 데이터를 RAM이 아니라 디스크에 두고 필요한 부분만 읽어오는 방식이므로, 속도 향상보다는 메모리 절약이 핵심이라는 점이 더 중요해 보였습니다.

특히 IncrementalPCA는 데이터를 미니배치 단위로 학습할 수 있는 알고리즘이고, memmap은 그 미니배치를 RAM에 한 번에 올리지 않고 디스크에서 필요한 만큼 접근할 수 있게 해주는 도구라고 이해했습니다.
즉, 두 방법은 모두 큰 데이터셋을 처리하기 위한 방법이지만 역할이 조금 다르다고 생각했습니다. IncrementalPCA는 알고리즘 차원에서 전체 데이터를 한 번에 사용하지 않도록 해주고, memmap은 데이터 저장 및 접근 방식 차원에서 전체 데이터를 메모리에 올리지 않도록 해주는 역할을 하는 것 같습니다.

제가 이해한 바로는, 데이터가 RAM에 충분히 들어가는 크기라면 굳이 memmap을 사용하지 않고 일반 넘파이 배열을 사용하는 것이 더 단순하고 빠를 것 같습니다. 
반대로 데이터가 너무 커서 RAM에 올리기 어렵거나, 여러 배치로 나누어 처리해야 하는 상황에서는 memmap과 IncrementalPCA를 함께 사용하는 것이 적절하다고 생각했습니다.

제가 이해한 것이 맞다면, memmap은 계산 속도를 높이기 위한 기법이라기보다 메모리 제한을 피하기 위한 기법으로 보는 것이 더 정확한지 궁금합니다. 
또한 데이터가 RAM에 충분히 들어가는 경우에는 memmap보다 일반 넘파이 배열을 사용하는 것이 보통 더 효율적이라고 이해해도 되는지 궁금합니다.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

(오*성) (강의노트 7장) IncrementalPCA에서 memmap 사용 목적에 대해 #172

Metadata

Assignees

Labels

Type

Fields

Projects

Milestone

Relationships

Development

(오*성) (강의노트 7장) IncrementalPCA에서 memmap 사용 목적에 대해 #172

Description

Metadata

Metadata

Assignees

Labels

Type

Fields

Projects

Milestone

Relationships

Development

Issue actions