Home [스파크 완벽 가이드] 0. 스파크 시작하기
Post
Cancel

[스파크 완벽 가이드] 0. 스파크 시작하기

스파크 시작하기

  • 곧 업무에서 스파크를 사용해야 해서 스파크를 재대로 공부해봐야겠다고 생각했다.
  • 그래서 일단 local 환경에서 spark를 설치하고, 간단한 작업들을 해보려고 한다.

1. 스파크 설치

2020 m1 osx 를 기준으로 작성되었음을 알려드립니다.

1
2
3
4
5
6
7
8
# java  설치
arch -arm64 brew install openjdk@11

# scala 설치
arch -arm64 brew install scala

# Apache spark
arch -arm64 brew install apache-spark
  • 이렇게만 설치하면 spark-shell을 사용할 준비가 모두 끝났습니다.

2. 트러블 슈팅

  • 위처럼 설칠하고 spark-shell을 실행시켜보니 정상적으로 구동되지 않았다.

스크린샷 2022-10-22 오후 3 37 51

  • 원인은 hostname 설정 관련 문제가 있는듯 했다.
1
sudo hostname -s 127.0.0.1

3. spark-shell 실행

1
2
3
4
import spark.implicits._
val data = Seq(("Java", "20000"), ("Python", "100000"), ("Scala", "3000"))
val df = data.toDF()
df.show()

스크린샷 2022-10-22 오후 3 42 32

  • 이제 책 예제를 실행시켜볼 준비 완료!

4. Spark UI

  • 로컬로 구동시킨 Spark Job의 상태를 확인할수 있는 방법을 제공
  • spark 3.3.0 기준으로 http://localhost:4040/ 에서 확인하실 수 있습니다.

스크린샷 2022-10-22 오후 4 19 04

  • 스피크 UI에서 스피크 Job 상태, 환경 설정, 클러스터 상태 등의 정보를 확인할 수 있습니다.
  • 스파크 UI는 스피크 집을 튜닝하고 디버깅할 때 매우 유용하다고 합니다.

Reference

This post is licensed under CC BY 4.0 by the author.

[Hands-On Reactive Programming in Spring 5] 9. 리액티브 애플리케이션 테스트하기

[스파크 완벽 가이드] 2. 스파크 간단히 살펴보기

Comments powered by Disqus.