Apache Spark

Sparkで状態を持つobjectを使い回す方法について調べてみた

Sparkでの開発時に既存のjava資源を使用するのはよくあると思うけど、objectが状態を持っていて使い回す必要がある場合も考えられるのでその場合どうすれば良いのか調べてみました。 まず以下のように引数で与えた値だけ内部のカウンターを増やすクラスがあ…

ApacheSparkで扱うobjectのSerializableの必要性について

ApacheSparkで扱うobjectのSerializableの必要性について hiveやファイルからデータを読み込んだ直後値はRDD, Dataset, DataFrameになっていて、少ないデータに対して何回もfilter処理を行う必要がある場合に一旦collectして配列に変換しdriver内で処理した…

sparkからhiveを利用してみる

spark-shellにてクラスパスを指定する hive SQLを実行してみる summarizationsパターンを試してみる Datasetのapiを実行してみる spark-shellにてクラスパスを指定する spark-shell --driver-class-path 対象クラスパス 開発時にちょっと修正後にいちいちビ…

Hiveの環境構築

Hive環境構築 インストール 1.javaのインストール 2.Hadoopのインストール 3.Hiveのインストール hiveのメタ情報保存先の設定 動作確認 Hiveserver2を起動してbeelineで接続してみる hiveqlを実行してみる Apache SparkからHiveを利用する spark-shellでイン…

Apache Sparkのアプリをデバッグする

sparkアプリケーションのデバッグ 1.sbt assemblyでjarファイルを生成しspark-submitコマンド実行サーバにアップロードする 2.spark-submitコマンド実行サーバにポートフォワードの設定付きでssh接続する とりあえず5039ポートを使ってみる ssh -L 5039:remo…

Sparkで単体テストをしてみる

Apache Sparkで単体テストをしてみる Intelij IDEAでsparkの単体テストを書いてみたのでメモ build.sbtの設定を変更 まず、build.sbtに以下の設定を追加する。 parallelExecution in Test := false “build sbt"で複数のテストが同時に動いた場合に発生するSp…