Home
Sungsu's Tech Blog
Cancel

[스파크 완벽 가이드] 19. 성능 튜닝

[스파크 완벽 가이드] 19. 성능 튜닝 스파크 잡의 최적화 주요 영역 코드 수준의 설계(RRR, DataFrame 중 선택) 보관용 데이터 조인 집계 데이터 전송 애플리케이션별 속성 익스큐터 프로세스의 JVM 워커 노드 클러스터와 배포 환경 속성 19.1 간접적인 성능 향상 기법 하드웨어 개선 같은 방법도 있지만 이부분은 제외합니다. ...

[스파크 완벽 가이드] 18. 모니터링과 디버깅

[스파크 완벽 가이드] 18. 모니터링과 디버깅 18.1 모니터링 범위 스파크 잡의 어느 지점에서 오류가 발생했는지 파악하려면 스파크 잡을 모니터링해야 한다. 실제 모니터링 대상과 모니터링에 필요한 옵션을 알아야 한다. 스파크 애플리케이션과 잡 클러스터에서 사용자 애플리케이션이 실행되는 상황을 파악하거나 디버깅하려면 먼저 스파크 UI...

[스파크 완벽 가이드] 17. 스파크 배포 환경

[스파크 완벽 가이드] 17. 스파크 배포 환경 클러스터 배포 시 선택 사항 스파크가 지원하는 클러스터 매니저 배포시 고려사항과 배포 환경 설정 17.1 스파크 앱 실행을 위한 클러스터 환경 클러스터를 구성할 수 있는 환경은 크게 2가지로 나눌수 있다. 17.1.1 설치형 클러스터 배포 환경 자체 데이터 센터를 운영하는 조직에 ...

[스파크 완벽 가이드] 16. 스파크 애플리케이션 개발하기

[스파크 완벽 가이드] 16. 스파크 애플리케이션 개발하기 16.1 스파크 애플리케이션 작성하기 스파크 애플리케이션은 스파크 클러스터와 사용자 코드 2가지 조합으로 구성된다. 16.1.1 간단한 스칼라 기반 앱 스칼라는 스파크의 기본 언어이기 때문에 이를 개발하는 가장 적합한 방법이라 볼 수 있다. 다만 실무에서 a...

[스파크 완벽 가이드] 15. 클러스터에서 스파크 실행하기

[스파크 완벽 가이드] 15. 클러스터에서 스파크 실행하기 스파크 애플리케이션의 아키텍처와 컴포넌트 스파크 내/외부에서 실행되는 스파크 애플리케이션 생애주기 파이프라이닝과 같은 중요한 저수준 실행 속성 스파크 애플리케이션을 실행하는 데 필요한 사항 15.1 스파크 애플리케이션의 아키텍쳐 스파크 드라이버 스파크 애플리케이션의 운전자 역할 ...

[스파크 완벽 가이드] 14. 분산형 공유 변수

[스파크 완벽 가이드] 14. 분산형 공유 변수 브로드캐스트 변수 어큐뮬레이터 14.1 브로드캐스트 변수 브로드캐스트 변수는 변하지 않는 값(불변성 값)을 클로저 함수의 변수로 캡슐화하지 않고, 클러스터에서 효율적으로 공유하는 방법을 제공한다. 모든 태스크마다 직렬화하지 않고 클러스터의 모든 머신에 캐시하는 불변성 공유 변수 익스...

[스파크 완벽 가이드] 13. RDD 고급 개념

[스파크 완벽 가이드] 13. RDD 고급 개념 핵심 주제 집계와 키-값 형태의 RDD 사용자 정의 파티셔닝 RDD조인 13.1 키-값 형태의 기초(키-값 형태의 RDD) 데이터를 키-값 형태로 다룰수 있는 메소드 ~byKey 류는 PairRDD 만 사용 가능 (ex. Pair(“s”, “Scala”)) words.map(wor...

[스파크 완벽 가이드] 12. RDD

[스파크 완벽 가이드] 12. RDD 대부분의 상황에서는 구조적 API를 사용하는것이 좋음. 하지만 모든 비즈니스나 기술적 문제를 고수준 API(구조적 API)를 사용해 해결할수 있지는 않기 때문에는 저수준 API인 RDD를 제공한다. 12.1 저수준 API란? 분산 데이터 처리를 위한 RDD, 브로드캐스트 변수와 어큐뮬레이터처럼 분...

[스파크 완벽 가이드] 11. Dataset

[스파크 완벽 가이드] 11. Dataset Dataset은 구조적 API의 기본 데이터 타입이다. DataFrame은 Row 타입의 Dataset ( DataFrame == Dataset[Row] ) Dataset을 사용하면 Row 타입 대신 사용자가 정의한 데이터 타입을 분산 방식으로 다룰 수 있다. 11.1 Dataset을 사용할...

[스파크 완벽 가이드] 10. 스파크 SQL

[스파크 완벽 가이드] 10. 스파크 SQL 10.1 SQL이란 SQL 또는 구조적 질의 언어(Structured Query Langauge)는 데이터에 대한 관계형 연산을 표현하기 위한 도메인 특화언어 스파크에서는 NoSQL DB에서도 쉽게 사용할 수 있는 변형된 자체 SQL을 제공합니다. 스파크에서는 ANSI SQL 2003의 일부도 ...