스파크 시작하기
- 곧 업무에서 스파크를 사용해야 해서 스파크를 재대로 공부해봐야겠다고 생각했다.
- 그래서 일단 local 환경에서 spark를 설치하고, 간단한 작업들을 해보려고 한다.
1. 스파크 설치
2020 m1 osx 를 기준으로 작성되었음을 알려드립니다.
1
2
3
4
5
6
7
8
# java 설치
arch -arm64 brew install openjdk@11
# scala 설치
arch -arm64 brew install scala
# Apache spark
arch -arm64 brew install apache-spark
- 이렇게만 설치하면
spark-shell
을 사용할 준비가 모두 끝났습니다.
2. 트러블 슈팅
- 위처럼 설칠하고 spark-shell을 실행시켜보니 정상적으로 구동되지 않았다.
- 원인은 hostname 설정 관련 문제가 있는듯 했다.
1
sudo hostname -s 127.0.0.1
3. spark-shell
실행
1
2
3
4
import spark.implicits._
val data = Seq(("Java", "20000"), ("Python", "100000"), ("Scala", "3000"))
val df = data.toDF()
df.show()
- 이제 책 예제를 실행시켜볼 준비 완료!
4. Spark UI
- 로컬로 구동시킨 Spark Job의 상태를 확인할수 있는 방법을 제공
- spark 3.3.0 기준으로
http://localhost:4040/
에서 확인하실 수 있습니다.
- 스피크 UI에서 스피크 Job 상태, 환경 설정, 클러스터 상태 등의 정보를 확인할 수 있습니다.
- 스파크 UI는 스피크 집을 튜닝하고 디버깅할 때 매우 유용하다고 합니다.
Comments powered by Disqus.