業務系バッチ処理へのHadoop導入についての課題と解決

―Asakusa Frameworkの導入によるバッチの高速化―

ノーチラス・テクノロジーズ

2015.10.16

　ビッグデータの担い手として広く認識されつつあるHadoopは業務系バッチ処理に並列実行基盤として適用することが可能である．その実際のケースから，課題と解決案を提示する．Hadoopの業務系システム適用における課題は，現在のHadoopエコシステムが提供する開発環境と業務系バッチ処理の開発実態のミスマッチと，Hadoopが提供する可用性・信頼性が業務系システムの要求水準に満たないことに存する．前者はHadoopでの業務系システムのために開発フレームワークAsakusa Frameworkを利用することで，後者はRDBMSとHadoopクラスタを密結合させてシステムアーキテクチャを構築することで解決できる．

1．はじめに

　本稿で論考対象とするシステム（以降，当該システムと表記）は，九州の大手小売流通会社の店舗・本部における会計データを作成・確定する処理全般を司るシステムである．既存システムの老朽化への対策と機能の向上を目指して，既存システムから新システムへ全面的にリプレースされた．リプレースの検討は2010年から開始され，2011年から開発が開始され，2013年に正式に全モジュールがリリースされ，本番で運用されている．新システムではIFRS（国際財務報告基準）の要請も考慮し，従来の原価計算の仕組みを売価還元法から個別原価法に変更している．この結果，計算量が従来の1000倍程度にふくれあがることが想定され，バッチ処理の時間を短縮することが要請されていた．

　当該システムの特徴は，バックエンドのバッチ処理の高速化・大容量化に対応するためにHadoop[1]を全面的に採用したこと，Hadoop上の開発フレームワークとしてオープンソースソフトウェアであるAsakusa Framework[2]（以降，Asakusa と表記）を利用したこと，ならびに実行基盤としてクラウド環境（Amazon Web Services，以降AWSと表記）を全面的に採用したことにある．

　本稿の目的は，当該システムの概況を機能面から明確にした上で，Hadoopを採用するに至った経緯とその課題，またその課題解決の方策としてAsakusaを利用した詳細や実際のアーキテクチャを詳らかにし，業務系システムへのHadoopの適用に対する示唆を示すことである．