uspBOAの導入による高速処理の例
ユニバーサル・シェル・プログラミング研究所(2005年2月8日設立、http://www.usp-lab.com)は、「ユニケージ開発手法」をベースにして、「uspBOA」(usp BigData Oriented Architecture)を製品化した(図4)。
図4 uspBOAのアーキテクチャ
これは、ビッグデータ処理専用のソフトウェアアプライアンスで、InfiniBand注4 10Gbpsネットワークなどの高速インターフェースで結合された複数台のサーバに導入され、無駄なソフトウェアレイヤを除いた、OSに限りなく近い実装により、その性能と安定性を提供する。
uspBOAの特徴を表1に示す。
表1 uspBOAの特徴
また表2と表3に、同製品を使ったデモ結果(処理速度)を示す。
表2 uspBOAによるデモ①:トランザクション処理(10億件)
表3 uspBOAによるデモ②:ビックデータ処理(100億件)
さらに、ユニケージ開発手法による大量データの高速処理の例を以下に挙げるが、どのケースも桁違いのオーダーでスピードが向上しているという結果になっており、ユニケージが特殊な場合にのみ威力を発揮するものではないことがわかる。
大手証券会社の取引ログの日次処理
大手証券会社では、日次で約3000万件のキーのない約100種類の取引ログレコードの親子関係(取引の履歴がログデータとして蓄積されているため、取引の関連や組み合わせを整理する必要がある)を解決し、データベースで検索できるレコードにフォーマット変換を行う処理を行っている。現行ではこれらの処理はJava+PostgresSQLによって90分かかっていたが、ユニケージを搭載したPC1台で処理時間が91.6秒となり、約1/60に短縮した。
海外大手検索サイトの大量データ高速検索
海外大手検索サイトで扱われている19.2Tバイト、500億件の大量なログを、40台のクラスタ注5に分散し、ユニケージによる高速検索を実施した(図5)。この結果、指定アクセス件数を超えるユーザー情報の出力を、0.139秒に短縮した。
図5 海外大手検索サイトの大量データ高速検索
大手レストラン検索サイトのWebログ集計
大手レストラン検索サイトでは、月間4700万件のWebログを、検索エンジンやキーワードごとに集計する処理を実施している。現行の高価な大型アプライアンスでSQLを使って約3時間の処理時間が、6台のユニケージクラスタにより処理時間を90秒で実現した。
秒間50万アクセス超えるGPSデータのリアルタイム振り分け処理
Webサーバに集まる50万台を超える移動体からの毎秒の位置情報を、6台のユニケージクラスタで移動体ごとのデータにリアルタイムで振り分けを実施した。
ヒトゲノムの塩基配列クォリティチェック処理
ゲノムの研究機関では、34GバイトにおよぶヒトのDNA塩基配列情報の各要素に対し、クォリティスコアの「最大値」「最小値」「平均値」「中間値」を必要に応じて計算している。これには標準的な解析ソフトで40分かかる処理が、6台のユニケージクラスタで17秒に短縮した。
クラスタというと難しい設定やプログラムを想像するかと思うが、ユニケージによるクラスタ開発の設定はほとんど不要で、ただクラスタのスレーブサーバ(分散処理用サーバ)にOSとコマンドを通常通りインストールするだけである。プログラムは、マスターサーバにシェルスクリプトを記述するだけで済む。
また、クラスタ用のコマンドには「どのスレーブサーバに何並列で処理を実行させるか」のテキストファイルの簡単なパラメータファイルを渡すだけで使用できる(図6)。
図6 クラスタ処理の記述例
このように、Hadoop注6のように高度な知識(分散処理を行うための設定やプログラム)を必要とせず、かつHadoopの数十倍のパフォーマンスが実現できるようになっている。
* * *
ここまで見てきたように、ユニケージ開発手法は、UNIXのベース技術を追求して、大量データの処理をより「高速に」「手軽に」行えるようになっている。
現在、このユニケージは、国内外のさまざまな企業に導入されている。今後、ユニケージが日本発の情報システムのベース技術として、世界展開されていくことに注目したい。
ユニケージに関する情報は、USP研究所のホームページ(http://www.usp-lab.com)のほか、同社が運営する技術サイト(http://uec.usp-lab.com)やセミナー、講習会で取得することができる。またアマゾンクラウドサービス(AWS)注7において、あらかじめユニケージコマンドがインストールされたインスタンスが用意されており、Webで申し込むだけで、即座に試すこともできる。
Profile
當仲 寛哲(とうなか のぶあき)
有限会社 ユニバーサル・シェル・プログラミング研究所
1966年 兵庫県生まれ。
1992年 東京大学大学院修士課程(情報工学専攻)中退。1992年 株式会社ダイエーに入社、システム改善により社長賞受賞(1996年)。2000年より流通科学大学非常勤講師(〜2002年まで)、IPA助成事業実施主幹。2005年にUSP研究所を設立し、所長に就任。コーネル大学RMPジャパン講師(2009〜2011年)。
▼ 注4
InfiniBand:インフィニバンド。次世代インタフェース技術。インテルを中心とした業界団体で推進されている。主に外付けインタフェース用技術として開発されており、サーバのクラスタリングや外部ストレージとの接続など、超高速での通信が必要とされる分野での活用が期待されている。
▼ 注5
クラスタ:企業の情報システムなどにおいて、複数のコンピュータを連結し、ユーザー(または他のコンピュータ)に対してあたかも1台のコンピュータであるかのように振舞うシステムのこと。
▼ 注6
Hadoop:ハドゥープ。大規模データを効率的に分散処理・管理するためのソフトウェア基盤(ミドルウェア)。Apache Software Foundationが開発し、オープンソースソフトウェアとして公開されている。
▼ 注7
アマゾンクラウドサービス(AWS):クラウドプラットフォーム環境を提供するアマゾンのWebサービス(クラウドサービス)で、用途にあわせて自由に選択できる。