
バイオインフォマティクス(生命情報科学)は、並列計算技術との相性が特に良い分野である1)。近年では米国セレラ社が数百億円相当の計算機を投じ、迅速なヒトゲノム解析を行った事が記憶に新しい。強力な計算パワーを有するか否かは、単なる時間節約の問題ではなく、いまや研究の生命線である。なぜなら単純な相同性解析で機能推定を行う牧歌的時代が去り、遺伝子発現制御ネットや代謝経路のシステム的な理解、異種ゲノム間比較、タンパク質の立体構造予測など膨大な計算量を伴う方法論に足を踏み入れない限り、未知遺伝子の機能理解が困難になってきたためである。これら複雑な手法を、試行錯誤しながら開発するには、従来より数桁高速な計算環境が必要である。
我々は世界に先駆けて約4年前から種々のパソコン(PC)クラスタを構築し、並列バイオインフォマティクス研究を進めてきた。2001年2月には、933MHzのPentium IIIプロセッサを合計1040台用いた大規模PCクラスタ(写真)を構築した。往復4Gbpsの速度をもつMyrinet2000による相互接続網、SCore並列OSの搭載などPC間の通信能力を高め、通信重視の分子シミュレーション等も可能とした。現在、当研究センターの基幹マシンとして、タンパク質立体構造予測、ゲノムからの遺伝子発見、電顕画像からの単粒子解析など様々な研究に駆使している。
本年9月、我々はスパコンの性能比較に用いられるLinpackベンチマーク2)を実行し、同クラスタの実効演算能力を調べた。Linpackはガウス消去法による大規模密行列解法を行い速度を測定するものだが、並列計算機向けカテゴリでは、行列サイズや分割法など様々なパラメータをマシンの特性に合わせて調整して良いルールになっており、良くも悪くも生のハードウェア性能だけでなく、システムソフトウェアの整備や測定者の技量が関与する。我々は産総研先端情報計算センター(TACC)と新情報処理開発機構(RWCP)の協力を得て、最終的に654GFlops(1GFlopsは1秒間に10億回の実数値演算)の性能を記録した。世界のスパコンをLinpack性能順に並べたTop500統計3),4)の最新版(表)によれば同性能は世界第39位。Pentium系PCクラスタでは従来最高だったIBM製クラスタ(第41位)を抜き世界一である。ただしPCの範疇かは別として、新型のItaniumプロセッサ(64bit)のクラスタ(第34位)も登場している。
生命情報科学研究において、大規模PCクラスタは先端的な実験装置のような役割を担っている。使いこなす利用技術の地道な蓄積と、それを活かす素晴らしい研究アイデア5)の両輪が常に重要である。
順位 |
名称(クロック周波数) |
実測性能 (GFlops) |
理論最大 (GFlops) |
プロセッサ数 |
設置機関 |
1 2 3 … 34 … 39 40 41 |
ASCI White(375MHz) Compaq ES45(1GHz) IBM SP3(375MHz)
Titan Cluster(800MHz)
Magi Cluster(933MHz) SCoreIIIe Cluster(933MHz) IBM PIII Cluster(1GHz) |
7226 4059 3052
678
654 618 594 |
12288 6048 4992
1024
970 955 1024 |
8192 3024 3328
320
1040 1024 1024
|
米国立ローレンスリバモア研 米ピッツバーグスパコンセンター 米エネルギー研究科学計算センター
米国立スパコン応用センター(NCSA)
産業技術総合研究所 新情報処理開発機構 米国立スパコン応用センター(NCSA) |
|
表 Top500リスト(2001年11月版)から抜粋 |
関連情報
1) 秋山 泰: 大規模並列計算機によるタンパク質情報解析, 人工知能学会誌, Vol.15, No.1, 27-34 (2000).
2) 建部修見: LINPACKベンチマーク, bit, Vol.33, No.2, 11-13 (2001).
3) Top500 2001年11月版 ( http://www.top500.org/lists/2001/11/ )
4) 朴 泰祐: TOP500, bit, Vol.33, No.2, 14-16 (2001).
5) 諏訪牧子: GPCRの網羅的発見と解析, AIST Today p.8 (2001.10).

M. Suwa, T. Sato, I. Okouchi, M. Arita, S. Matsumoto, S. Tsutsumi, H. Aburatani, K. Asai, Y. Akiyama., SEVENS: The Comprehensive Collection of Seven Transmembrane Helix Receptors, hunted from Human genome. Nucreic Acid Research Vol 31, 1 (2003) Online summary paper
( http://www3.oup.co.uk/nar/database/summary/373?action=search;sect=all;term=Akiya )
Akiyama,Y. :"Gene Finding and Approaches to Protein Structure Prediction", Symposium on Protein Structure for Drug Target (Seoul, Korea) (Sep. 2002) (招待講演).
Akiyama,Y. : "Large-scale Parallel Computing for Bioinformatics in Post-Genome era", Science Forum, SGI Solution Forum (Ebisu) (Sep. 2002).
Akiyama,Y. :"Bioinformatics research project using a 1040-cpu PC cluster and expectation for GRID technology", Grid Form GFK2 (Seoul, Korea) (Jul. 2002) (基調講演).
Akiyama,Y. :"Bioinformatics approaches to Human Genome analysis", VECPAR2002 conference (Port, Portugal) (Jun. 2002) (基調講演).
秋山 泰 :"生命情報科学研究センターとバイオインフォマティクス研究", ゲノム医学, 2, 1, pp.67-72 (2002).
秋山 泰 :"ポストゲノム−ライフサイエンス最前線", 丸善 (2002).
|