개발블로그

pyspark 와 jupyter 연동하기(Mac) 본문

Data Science & Bigdata

pyspark 와 jupyter 연동하기(Mac)

개발자수니 2020. 1. 6. 13:44

1. jupyter notebook 설치 

brew install python3
python3 -m pip install --upgrade setuptools
pip3 install jupyter

 

실행을 위해서 다음 명령을 입력한다.

jupyter notebook


2. spark 설치

spark가 실행되기 위해서는 java가 설치되어 있어야 한다. 

oracle download에 접속해 jdk1.8을 다운로드 받는다. 

spark download에 접속해 spark tgz파일을 다운로드 후, 다음 명령들을 실행한다. 

tar -xzf spark-2.4.4-bin-hadoop2.7.tgz
mv spark-2.4.4-bin-hadoop2.7 /opt/spark-2.4.4
ln -s /opt/spark-2.4.4 /opt/spark

처음에 2.4.4 버전 대신 3.0.0을 다운받았었는데, zeppelin에서 코드가 정상적으로 실행되지 않았다. 

zeppelin을 설치할 예정이라면, 2.4.4를 다운받기를 권한다. 

 

Spark 환경 변수 편집을 위해 ~/.bash_profile 파일에 다음을 추가해준다. 

export SPARK_HOME=/opt/spark
export PATH=$SPARK_HOME/bin:$PATH
export PYSPARK_PYTHON=python3


3. jupyter에 pyspark 드라이버 추가
환경 변수 편집을 위해 ~/.bash_profile 파일에 다음을 추가해준다. 

export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS='notebook'




'Data Science & Bigdata' 카테고리의 다른 글

zeppelin install (mac)  (0) 2020.01.06
Comments