Persist: 1개의 글
[Spark] Caching and Serialization
Caching and Serialization 아래 내용을 기준으로 학습을 진행했습니다. 어떻게 언제 RDD를 cache를 해야 하는지? Storage level과 사용은 어떻게 하는지? memory 사용을 최적화 하기 위해서 어떻게 하는지? RDDs를 공유하려면 어떻게 해야 하는지? Persistence 스파크는 MapReduce와 가장 다른점이 disk I/O가 최소화 되기 때문에 interative한 연산에 적합하다고 말을 합니다. 그러나 추가적으로 성능향상을 얻기 위해서는 RDD를 다루는 방법에 대해서 정확하게 이해를 해야합니다. Spark에서는 memory chaching을 사용하는 것으 알고 있습니다. 예를 들어서 RDD데이터를 생성하고 계속 반복적으로 사용을 한다면, 사용한다는 말은 acti..
Big Data/Apache Spark
2021. 5. 6. 01:43