.NET for Apache Sparkで見えた、配管工おじさん入門への道（３）

2021/09/06	.NET for Apache Sparkで見えた、配管工おじさん入門への道（３）	\| by nishino

　前回の続きになりますが、今回は、一応、Apache Spark や Databricks、漸くスタートラインに立てた感が出てきたので、その"ご報告"になります。

　...で、前回の軌道修正から、どうやって立て直してスタートラインに立ったのか？と言うと、先ず、サンプルプログラム量が多いPython（PySpark）に白羽の矢を立てました。

　...で、色々と調べていると、Jupyter Notebookと言うものがあるのが解りました。同時にココで、「本来、Apache SparkのファーストステップではSparkシェルが既定と言うか、適合していて、"インタラクティブ"な環境で習得スべきなんだな。」と言う事も解りました（コレは、SQLの習得の際は、アドホック・クエリを大量に書く必要がある。...ってのに近いですかね）。

　...で、このJupyter NotebookでPythonや、PySparkの簡単なチュートリアルを動かしました。次いで、Databricks NotebookのサンプルをJupyter Notebookで動かしてみて（実際はAzureストレージへの接続部分のライブラリが足りなくて動かなかったが）、最後に、Databricks Notebookでコレを動かしました（Jupyter Notebookへ、ライブラリを追加する手順が解ればソレでも出来る気がする）。

　...と、PySpark → Jupyter Notebook → Databricks Notebookと進んだら上手く遂行できたので、この順序で進むのが良さそうです。

　特に、ビルドしてSpark Submitする系のSparkアプリから始めるのではなく、Notebook系を使用してアドホックに Spark SQL や DataFrame APIを実行し、これらの動作についての理解を深めた後、定型的な処理をSparkアプリに移植すると言う流れで良いんじゃないか？と。

　その頃には、Apache Sparkから入出力先への接続サンプル・プログラム量も増え、.NET for Apache Sparkも使いモノになっていると良いかな？と思ったりしています。

09:00 | 投票する | 投票数(0) | コメント(0) | ご報告

< 前の記事へ次の記事へ >一覧へ戻る

メニュー

開発基盤部会 Blog

.NET for Apache Sparkで見えた、配管工おじさん入門への道（３）