開発基盤部会 Blog

開発基盤部会 Blog >> 記事詳細

2021/09/06

.NET for Apache Sparkで見えた、配管工おじさん入門への道(3)

Tweet ThisSend to Facebook | by nishino
 前回の続きになりますが、今回は、一応、Apache Spark や Databricks、漸くスタートラインに立てた感が出てきたので、その"ご報告"になります。

 ...で、前回の軌道修正から、どうやって立て直してスタートラインに立ったのか?と言うと、先ず、サンプルプログラム量が多いPython(PySpark)に白羽の矢を立てました。

 ...で、色々と調べていると、Jupyter Notebookと言うものがあるのが解りました。同時にココで、「本来、Apache SparkのファーストステップではSparkシェルが既定と言うか、適合していて、"インタラクティブ"な環境で習得スべきなんだな。」と言う事も解りました(コレは、SQLの習得の際は、アドホック・クエリを大量に書く必要がある。...ってのに近いですかね)。

 ...で、このJupyter NotebookでPythonや、PySparkの簡単なチュートリアルを動かしました。次いで、Databricks NotebookのサンプルをJupyter Notebookで動かしてみて(実際はAzureストレージへの接続部分のライブラリが足りなくて動かなかったが)、最後に、Databricks Notebookでコレを動かしました(Jupyter Notebookへ、ライブラリを追加する手順が解ればソレでも出来る気がする)。


 ...と、PySpark → Jupyter Notebook → Databricks Notebookと進んだら上手く遂行できたので、この順序で進むのが良さそうです。

 特に、ビルドしてSpark Submitする系のSparkアプリから始めるのではなく、Notebook系を使用してアドホックに Spark SQL や DataFrame APIを実行し、これらの動作についての理解を深めた後、定型的な処理をSparkアプリに移植すると言う流れで良いんじゃないか?と。

 その頃には、Apache Sparkから入出力先への接続サンプル・プログラム量も増え、.NET for Apache Sparkも使いモノになっていると良いかな?と思ったりしています。
09:00 | 投票する | 投票数(0) | コメント(0) | ご報告