2017-09-01から1ヶ月間の記事一覧

Hiveの環境構築

Hive環境構築 インストール 1.javaのインストール 2.Hadoopのインストール 3.Hiveのインストール hiveのメタ情報保存先の設定 動作確認 Hiveserver2を起動してbeelineで接続してみる hiveqlを実行してみる Apache SparkからHiveを利用する spark-shellでイン…

Apache Sparkのアプリをデバッグする

sparkアプリケーションのデバッグ 1.sbt assemblyでjarファイルを生成しspark-submitコマンド実行サーバにアップロードする 2.spark-submitコマンド実行サーバにポートフォワードの設定付きでssh接続する とりあえず5039ポートを使ってみる ssh -L 5039:remo…

pycharmを使ってpysparkの開発を行った際に"from pyspark.sql.functions import lit"でエラーがでたのを調べて見た

pysparkの開発を行った際に"from pyspark.sql.functions import lit"でimportできないとエラーが出たのを確認した時のメモ 実際は以下のようにpyspark.sql.functions.py内で以下のようにして動的にメソッドを追加している。 def _create_function(name, doc=…