스파크: 11개의 글
[Spark] 스파크 이해하기
2013년에 생산된 데이터는 약 4.4ZB로 추정됩니다. 이는 44억 테라바이트입니다. 2020년에는 그 10배에 달하는 데이터가 생산될 것으로 예측됩니다. 데이터는 매초마다 증가하고 있으며, 이런 상황에 비춰 2004년 구글의 제프리 딘과 산자 제마왓은 'MapReduce: Simplified Data Processing on Large Clusters'라는 세미 논문을 발표했습니다. 그때부터 아파치 하둡과 같이 맵리듀스를 사용하는 개념이 매우 유명해지기 시작했습니다. 피그 하이브 머하웃과 같은 추상 층을 포함하는 하둡 에코시스템도 개발되었습니다. 이 모든 것이 간단한 맵리듀스 개념을 사용합니다. 매일 수 페타바이트를 다룰수 있으에도 불구하고, 맵리듀스는 상당히 제한적인 프레임워크입니다. 또한 대부분의..
Big Data/빅데이터
2020. 8. 3. 15:02