Lifelong Study
close
프로필 배경
프로필 로고

Lifelong Study

  • 분류 전체보기 (526)
    • Database (227)
      • Oracle SQL (43)
      • Oracle SQL2 (16)
      • Oracle PLSQL (26)
      • Oracle Admin(9i) (13)
      • Oracle tuning (12)
      • Oracle 백업 복구 (0)
      • Oracle Tip (14)
      • mysql (50)
      • mysql tip (21)
      • mysql procedure, function (7)
      • MS Sql (4)
      • DB2 (0)
      • HANA (0)
      • Tibero (0)
      • Altibase (0)
      • Cubrid (0)
      • Informix (0)
      • PostgreSQL (0)
      • MariaDB (2)
      • sqlite (0)
      • HSQL(HyperSQL) (0)
      • ANSI SQL (9)
      • Sybase (0)
      • 대용량DB (8)
      • Apache Derby (0)
      • Vertica (1)
      • 기타 (1)
    • DB GUI Tool (12)
      • DataGrip (1)
      • Plsql developer (1)
      • Sql developer (0)
      • SQLYog (0)
      • Toad For Oracle (0)
      • Toad For Mysql (2)
      • Toad For Sql Sever (0)
      • Orange (1)
      • Erwin (0)
      • SQLGate (0)
      • Mysql Workbench (6)
      • Mysql-front (0)
      • phpMyadmin (0)
      • heidisql (0)
      • navicat (0)
      • SmartSQL (0)
      • DBA Master (0)
      • Golden (0)
      • OraSqler (0)
      • dbeaver (1)
    • DB Migration Tool (1)
      • Flyway (1)
    • NoSQL (33)
      • 개요 (4)
      • redis (14)
      • MongoDB (14)
      • Cassandra (1)
      • Couchbase (0)
    • NoSQL GUI Tool (2)
      • P3X for redis (0)
      • Redis Desktop Manager (0)
      • Medis for redis (1)
      • Studio 3T for MongoDB (1)
    • CDC (1)
      • Debezium (1)
    • AWS (20)
      • AWS - 일반 (0)
      • AWS - IAM (4)
      • AWS - EC2(Elastic Compute C.. (3)
      • AWS - RDS (1)
      • AWS - S3 (1)
      • AWS - CloudWatch (1)
      • AWS - Lambda (0)
      • AWS - CloudFront (1)
      • AWS - DynamoDB (0)
      • AWS - API Gateway (0)
      • AWS - CodeBase, CodeCommit,.. (1)
      • AWS - CLI (7)
      • AWS - Route 53 (0)
      • AWS - X-Ray (0)
      • AWS - KMS (0)
      • AWS - Elastic Beanstalk (0)
      • AWS - SQS & SNS & SES (1)
      • AWS - ECS & ECR (0)
      • AWS - CloudFormation (0)
      • AWS - ElastiCache (0)
      • AWS - EMR (0)
      • AWS - RedShift (0)
      • AWS - EKS(Elastic Kubernete.. (0)
      • AWS - EventBridge (0)
    • Elastic Stack (29)
      • ElasticSearch (27)
      • kibana (0)
      • logstash (2)
      • 로그수집 (0)
    • Big Data (78)
      • 빅데이터 (36)
      • 데이터 분석 (6)
      • Lucene (4)
      • Hadoop (7)
      • Apache Spark (17)
      • Apache Hive (5)
      • Greenplum (0)
      • Cloudera (3)
      • Trino (0)
      • Presto (0)
      • Apache Drill (0)
      • Apache Impala (0)
      • Apache Zeppelin (0)
    • BI 툴 (0)
      • superset (0)
      • Metabase (0)
      • Redash (0)
      • etc BI (0)
    • Infra (2)
      • domain, hosting (2)
    • 협업툴 (21)
      • jira (17)
      • confluence (3)
      • slack (0)
      • teams (1)
      • webex (0)
    • 엑셀 (91)
      • 엑셀 일반 (22)
      • 엑셀 함수 (36)
      • 엑셀 날짜,시간 (0)
      • 엑셀 필터,정렬 (0)
      • 엑셀 집계,피벗 (0)
      • 엑셀 차트 (5)
      • 엑셀 서식 (10)
      • 엑셀 VBA (5)
      • 엑셀 TIP (13)
    • Office Tool (4)
      • MS Word (0)
      • PowerPoint (0)
      • Outlook (4)
      • MS Access (0)
      • MS OneNote (0)
      • 아래아 한글 (0)
      • ohter (0)
    • Design (1)
      • Photoshop (1)
      • Flash (0)
      • Illustrator (0)
    • Media (1)
      • Vegas Pro (0)
      • Adobe premiere (0)
      • 3D MAX (1)
    • 유용한 프로그램 (2)
    • 기타 (1)
  • 홈
  • 태그
  • 방명록
  • 글쓰기
  • 관리자
[Spark] 파티셔닝 예제 - 페이지랭크(PageRank) 알고리즘

[Spark] 파티셔닝 예제 - 페이지랭크(PageRank) 알고리즘

파티셔닝 예제 - 페이지랭크(PageRank) 알고리즘 RDD 파티셔닝에 의한 효과를 볼 수 있는 좀 더 복잡한 알고리즘 예제로 페이지 랭크를 생각 할 수 있다. 페이지 랭크 알고리즘은 구글의 공동 창업자 Larry Page의 이름을 인용한 것으로 얼마나 많은 문서들이 해당 문서를 링크하고 있는지 기초하여 각 문서에 대해서 중요도를 매기는 알고리즘을 말한다. 페이지 랭크 알고리즘은 웹페이지의 중요도를 측정하는 척도로도 사용이 되지만, 과학 논문에서 어떤 논문이 중요한지 평가하거나, SNS의 영향력에 있는 허브유저를 찾아내는 데에도 사용이 되고 있다. 페이지 랭크의 단점은 많은 조인을 수행하는 반복알고리즘이다. 그렇기 때문에 많은 조인을 반복적을 효율적으로 처리가 가능한 RDD 파티셔닝을 이용하면 좋은 결..

  • format_list_bulleted Big Data/Apache Spark
  • · 2021. 5. 6.
  • textsms
[Spark] RDD데이터 파티셔닝 - 이론 및 예제

[Spark] RDD데이터 파티셔닝 - 이론 및 예제

RDD데이터 파티셔닝 - 이론 및 예제 이번에 설명한 내용은 스파크에서 노드 간 데이터세트의 파티셔닝을 어떻게 제어할 것인가 하는 것이다. 분산 프로그램에서 통신은 비용이 매우 크므로 네트워크 부하를 최소화할 수 있는 데이터 배치는 프로그램 성능을 비약적으로 향상시킬 수 있습니다. 비분산프로그램이 수많은 데이터 레코드 처리를 위해 올바른 자료 구조를 선택할 피ㄹ요가 있는 것처럼, 스파크의 애플리케이션도 네트워크 비용을 줄이기 위해서는 RDD의 파티셔닝을 제어해야 합니다. 파티셔닝은 조인 같이 키 중심의 연산에서 데이터세트가 여러번 재활용 될 때만 의미가 있습니다. val sc = new SparkContext(...) val userData = sc.sequenceFile[UserId, UserInfo]..

  • format_list_bulleted Big Data/Apache Spark
  • · 2021. 5. 6.
  • textsms
  • navigate_before
  • 1
  • navigate_next
글쓰기 관리자
전체 카테고리
  • 분류 전체보기 (526)
    • Database (227)
      • Oracle SQL (43)
      • Oracle SQL2 (16)
      • Oracle PLSQL (26)
      • Oracle Admin(9i) (13)
      • Oracle tuning (12)
      • Oracle 백업 복구 (0)
      • Oracle Tip (14)
      • mysql (50)
      • mysql tip (21)
      • mysql procedure, function (7)
      • MS Sql (4)
      • DB2 (0)
      • HANA (0)
      • Tibero (0)
      • Altibase (0)
      • Cubrid (0)
      • Informix (0)
      • PostgreSQL (0)
      • MariaDB (2)
      • sqlite (0)
      • HSQL(HyperSQL) (0)
      • ANSI SQL (9)
      • Sybase (0)
      • 대용량DB (8)
      • Apache Derby (0)
      • Vertica (1)
      • 기타 (1)
    • DB GUI Tool (12)
      • DataGrip (1)
      • Plsql developer (1)
      • Sql developer (0)
      • SQLYog (0)
      • Toad For Oracle (0)
      • Toad For Mysql (2)
      • Toad For Sql Sever (0)
      • Orange (1)
      • Erwin (0)
      • SQLGate (0)
      • Mysql Workbench (6)
      • Mysql-front (0)
      • phpMyadmin (0)
      • heidisql (0)
      • navicat (0)
      • SmartSQL (0)
      • DBA Master (0)
      • Golden (0)
      • OraSqler (0)
      • dbeaver (1)
    • DB Migration Tool (1)
      • Flyway (1)
    • NoSQL (33)
      • 개요 (4)
      • redis (14)
      • MongoDB (14)
      • Cassandra (1)
      • Couchbase (0)
    • NoSQL GUI Tool (2)
      • P3X for redis (0)
      • Redis Desktop Manager (0)
      • Medis for redis (1)
      • Studio 3T for MongoDB (1)
    • CDC (1)
      • Debezium (1)
    • AWS (20)
      • AWS - 일반 (0)
      • AWS - IAM (4)
      • AWS - EC2(Elastic Compute C.. (3)
      • AWS - RDS (1)
      • AWS - S3 (1)
      • AWS - CloudWatch (1)
      • AWS - Lambda (0)
      • AWS - CloudFront (1)
      • AWS - DynamoDB (0)
      • AWS - API Gateway (0)
      • AWS - CodeBase, CodeCommit,.. (1)
      • AWS - CLI (7)
      • AWS - Route 53 (0)
      • AWS - X-Ray (0)
      • AWS - KMS (0)
      • AWS - Elastic Beanstalk (0)
      • AWS - SQS & SNS & SES (1)
      • AWS - ECS & ECR (0)
      • AWS - CloudFormation (0)
      • AWS - ElastiCache (0)
      • AWS - EMR (0)
      • AWS - RedShift (0)
      • AWS - EKS(Elastic Kubernete.. (0)
      • AWS - EventBridge (0)
    • Elastic Stack (29)
      • ElasticSearch (27)
      • kibana (0)
      • logstash (2)
      • 로그수집 (0)
    • Big Data (78)
      • 빅데이터 (36)
      • 데이터 분석 (6)
      • Lucene (4)
      • Hadoop (7)
      • Apache Spark (17)
      • Apache Hive (5)
      • Greenplum (0)
      • Cloudera (3)
      • Trino (0)
      • Presto (0)
      • Apache Drill (0)
      • Apache Impala (0)
      • Apache Zeppelin (0)
    • BI 툴 (0)
      • superset (0)
      • Metabase (0)
      • Redash (0)
      • etc BI (0)
    • Infra (2)
      • domain, hosting (2)
    • 협업툴 (21)
      • jira (17)
      • confluence (3)
      • slack (0)
      • teams (1)
      • webex (0)
    • 엑셀 (91)
      • 엑셀 일반 (22)
      • 엑셀 함수 (36)
      • 엑셀 날짜,시간 (0)
      • 엑셀 필터,정렬 (0)
      • 엑셀 집계,피벗 (0)
      • 엑셀 차트 (5)
      • 엑셀 서식 (10)
      • 엑셀 VBA (5)
      • 엑셀 TIP (13)
    • Office Tool (4)
      • MS Word (0)
      • PowerPoint (0)
      • Outlook (4)
      • MS Access (0)
      • MS OneNote (0)
      • 아래아 한글 (0)
      • ohter (0)
    • Design (1)
      • Photoshop (1)
      • Flash (0)
      • Illustrator (0)
    • Media (1)
      • Vegas Pro (0)
      • Adobe premiere (0)
      • 3D MAX (1)
    • 유용한 프로그램 (2)
    • 기타 (1)
최근 글
인기 글
최근 댓글
전체 방문자
오늘
어제
전체
Copyright © 쭈미로운 생활 All rights reserved.
Designed by JJuum

티스토리툴바