Sparkで状態を持つobjectを使い回す方法について調べてみた

Apache Spark

Sparkでの開発時に既存のjava資源を使用するのはよくあると思うけど、objectが状態を持っていて使い回す必要がある場合も考えられるのでその場合どうすれば良いのか調べてみました。まず以下のように引数で与えた値だけ内部のカウンターを増やすクラスがあ…

2017-10-07

ApacheSparkで扱うobjectのSerializableの必要性について

Apache Spark

ApacheSparkで扱うobjectのSerializableの必要性について hiveやファイルからデータを読み込んだ直後値はRDD, Dataset, DataFrameになっていて、少ないデータに対して何回もfilter処理を行う必要がある場合に一旦collectして配列に変換しdriver内で処理した…

2017-10-01

sparkからhiveを利用してみる

Apache Spark

spark-shellにてクラスパスを指定する hive SQLを実行してみる summarizationsパターンを試してみる Datasetのapiを実行してみる spark-shellにてクラスパスを指定する spark-shell --driver-class-path 対象クラスパス開発時にちょっと修正後にいちいちビ…

2017-09-24

Hiveの環境構築

Apache Spark

Hive環境構築インストール 1.javaのインストール 2.Hadoopのインストール 3.Hiveのインストール hiveのメタ情報保存先の設定動作確認 Hiveserver2を起動してbeelineで接続してみる hiveqlを実行してみる Apache SparkからHiveを利用する spark-shellでイン…

2017-09-24

Apache Sparkのアプリをデバッグする

Apache Spark

sparkアプリケーションのデバッグ 1.sbt assemblyでjarファイルを生成しspark-submitコマンド実行サーバにアップロードする 2.spark-submitコマンド実行サーバにポートフォワードの設定付きでssh接続するとりあえず5039ポートを使ってみる ssh -L 5039:remo…

2017-08-31

Sparkで単体テストをしてみる

Spark Apache Spark

Apache Sparkで単体テストをしてみる Intelij IDEAでsparkの単体テストを書いてみたのでメモ build.sbtの設定を変更まず、build.sbtに以下の設定を追加する。 parallelExecution in Test := false “build sbt"で複数のテストが同時に動いた場合に発生するSp…