基幹バッチをHadoop上で実行することで高速処理をしたいという要望が多くなっている.基幹バッチに関しては,既存のCOBOLアプリケーションとデータ資産が大量にあるため,これらを修正・変換することなく利用できることが重要である.しかし,複数入力ファイルを用いる突合せを伴うアプリケーションはHadoopでの実行が困難なため,新規開発が必要になる事が多い.これを解決するためHadoopマルチプレクサ技術を開発した.また,HadoopからCOBOL特有のデータフォーマットを扱うためのCOBOLデータ対応技術も開発した.この技術を業務へ実適用して,アプリケーションの修正なく,並列実行することによる高速化の効果があることを示した.

1.はじめに

 昨今,お客様ビジネスにおける競合他社との差異化や,企業や業種を超えた新たなサービスのために,いかにビッグデータを活用していくかが,大きな課題となっている.

 ビッグデータ活用の本質は,ビジネス活動で発生する様々なログや情報から新たな価値を発見し,また様々なデータの相関関係から新たなトレンドや予兆を発見し,ビジネスの変革,創出につなげていくことだと弊社は考えている.

 一方,弊社のお客様におけるビッグデータ利活用の目的(図1)を見てみると,新たなビジネス領域や埋もれているデータの利活用のビジネスだけでなく,既存のビジネスの範囲を含めた様々なシーンで,ビッグデータ活用をしたい,というニーズが見えてきている.

図1●ビッグデータ利活用の目的
図1●ビッグデータ利活用の目的
[画像のクリックで拡大表示]

 特に多いのが,47%を占める「既存領域のデータ処理改革」のニーズである.具体的には,既存のバッチ処理を高速化するために,ビッグデータ技術を活用したいというニーズである.

 次に多いのは39%を占める「埋もれているデータの利活用」である.企業の内外に実は存在する,使っていなかった様々なデータを組み合わせて分析をすることで,従来気づかなかった事象や法則を抽出し,サービスの付加価値や業務の精度向上を狙うものである.

 「新たな領域でのデータ利活用」は,ビッグデータを活用した新たなビジネスの創出を指すが,これは,未だ14%にとどまっている.

 本稿では,既存のバッチ処理の高速化のニーズに答え,メインフレーム時代からそのまま多く利用され続けているCOBOLのバッチ処理アプリケーションを,OSS(Open Source Software)のApache Hadoop[1]で並列分散処理しバッチ処理時間を短縮する,弊社のCOBOL開発・運用ソフトウェア「FUJITSU Software NetCOBOL」(以降,NetCOBOL)[2]のHadoop連携機能の開発と実践事例について述べる.