インメモリーデータベースを開発・販売するターボデータラボラトリーが、最大2000億行1024項目のデータを高速に検索・ブラウズするための仕組みを開発した。2010年10月22日から、開発/販売パートナー企業に向けて評価・検証版の提供を始めた。11月にはカスタマイズのためのAPIを公開する。製品版の出荷は2011年1月を予定している。

 ターボデータが開発したのは、「1/3 C(ワンサード シー)」と呼ぶソフト。「同Publisher」と「同Reader」の二つのソフトからなる。CSV形式などの大量データをPublisherが暗号化された独自のファイル形式「D5A」に変換し、D5A形式のファイルをReaderで検索・ブラウズする。

 Reader上では、最大2000億行1024項目のデータを検索したり、近傍値やヒット件数、ヒットしたレコードなどを表示したりできる。検索したデータを加工する場合は、CSV形式やExcel形式のほか、同社のインメモリーデータベースのファイル形式である「D5T」形式で保存すればよい。

 1/3 Cが高速なのは、同社の古庄晋二社長が開発する「LFM(Linear Filtering Method:成分分解法)」を元に、インデックスなどを使わずにデータを検索しているため。インデックスがないため、D5Aファイルの大きさは、6項目・20億件が410GB、6項目・40億件は822GBと、ほぼリニアに増えていく。

 D5Aファイルは、PDFファイルのように、複製・転送が可能だ。Readerがあれば、複数人がD5Aファイルを検索/ブラウズできることになる。またD5Aファイルには、差分データだけを結合していくことができる。

 今回、ターボデータが1/3 Cの開発に着手したのは、ある企業が350億行の大量データを保有しているものの、その取り扱いに課題を抱えていたため。その企業では、350億行のデータをRDBに移行しようとしているが、データの入力だけで2年半はかかるとみられているという。

 古庄社長は、「ログデータや配送記録など、億単位のデータを保有していながら、システム展開できず情報として活用できていないケースは少なくない。1/3 Cを使えば、これまで放置されてきたデータの活用が可能になる」と話す。

 製品化に向けては今後、全文検索機能の追加や、PublisherによるD5Aファイルの作成時間の短縮などを図る計画だ。現在、D5Aファイルの作成には、40億行のデータだと2日半かかる。これをアルゴリズムの改良やブレードサーバーに対応するなどで、「一晩以内に作成できるようにする」(古庄社長)という。

 1/3 Cの価格は、Publisherのみが有料で、Readerはオープンソースとして無償提供する。Publisherには、回数券型の前払い方式を採用し、月単位で利用したサーバー台数を数えていく。最低価格の2000万円の場合、エンドユーザー企業は22台・月まで、Publisherを使ってデータ変換サービスなどを提供する事業者の場合は24台・月まで利用できる。