開発基盤部会 Blog

開発基盤部会 Blog >> 記事詳細

2019/03/29

ビッグデータ関連の技術リサーチをして思ったこと。

Tweet ThisSend to Facebook | by nishino
 今更ですが、某弊部会でもビッグデータについてチョロっと調べてみました。


 ビッグデータ系のデータストアって、其々、かなり特徴ありますね。コレって、この辺でも言及しましたが、

 「OSSを開発する主体は、そのプロダクトを自社の事業・サービスに使用できる企業である気がします。コレをOSSにする理由は、自社の事業・サービスのQCDの向上なんじゃないか?

 という話と「≒」なんじゃないかと思います。要するに、

 「各社自社サービスに合わせた機能を開発したり、OSSのプロダクトを組み合わせたりしている。

 ...と思います。なので、RDBのように一般性は高くないかな?と言う印象があります(何かに特化した事業やサービスで利用されている)。

 しかし、観測した限りでは、特に大手ベンダの R&D では、ビッグデータ系のインフラストラクチャの研究が盛んのように思います。このようにビッグデータ の インフラストラクチャが、サプライサイド(ベンダ)向きなのって、

 「データ利用がまだ明確じゃないケド、取り敢えず貯めておかないといけない。

 ってトコロに起因するのかもなぁ。なんて思ったりしました。もうチョット言うと、デマンドサイドが明確でなくても、今のトコロはプロダクトやソリューションが売れるということです。

 ただ、もうチョットすると、下位スタックは激しくコモディティ化され、戦いのレイヤは「それをどう活用するか?」という上位スタックに移っていく可能性が高いと思います。

 そんな事を考えていたら、

 SQL Server 2019 の新機能である Big Data Cluster は Kubernetes 上に展開された SQL Server on Linux をインタフェースとして、Hadoop のエコシステムを活用することができるデータ分析基盤になります。

 こんなのを発見して、詳しくは解らないですが、もともと「PolyBase」という名称で「構造化データ(RDB)と非構造化データ(CSV等)を関連付けるための一連の技術」があり、今回はこれが、HiveのT-SQL版としてSQL Server 2019 on Linuxに実装されてきているようです。以下を参照すると、

 「PolyBase を使用すると、T-SQL で簡単にデータにアクセスできます。」、「クエリ オプティマイザーはコスト ベースの決定を行い、クエリのパフォーマンスが向上する場合は Hadoop に計算をプッシュ...、MapReduce ジョブが作成され、Hadoop の分散コンピューティング リソースが活用されます。」

 ...などとあり、ビッグデータのインフラストラクチャがもうチョット一般化して、アプリなどのウワモノ屋さんがカジュアルに叩けるようになってきたら、取り敢えず、クエリを投げたら裏でどういう風に動くのか?ぐらい知らないといけないなぁ。なんて思い始めてきました。そのためには、個々の開発者が開発環境構築できるようにするか、個々の開発者に検証環境を提供できるぐらいは必要になってくる気がしたので、取り敢えず以下をポチりました。


 と言う事で、やはり、某弊部会はインテグレーションのレイヤが得意なので、ビッグデータに関する取り組みとして、過去にApache NiFiなんかを調査したりしましたが、IoT系、ストリーム系(データ収集、エンリッチメント)、分散系(クエリ発行)までに絞って、インフラストラクチャ系(データストア)に対しては、主に利用・活用に留めた方向で施策を検討しようと思います。
09:00 | 投票する | 投票数(0) | コメント(0) | ご報告