
タンパク質立体構造データベース(PDB)は、近年のX線結晶回折やNMRによる構造解析技術の進歩と電子顕微鏡による構造解析の増加によって急増し、2002年3月の時点で17,600エントリーを超えた。各種生物種のゲノムプロジェクトの後を受けて始まった「構造ゲノミックスプロジェクト(ゲノムの中に含まれるタンパク質立体構造をすべて決める)」によって、今後さらにその増加は加速すると予想されている。しかしながら、冗長さやデータの不完全性さのために、PDB の全てのエントリーがタンパク質の立体構造解析に適しているとは言えず、何らかの基準で分類して、代表タンパク質を決定する必要がある。
タンパク質は、一つにつながったチェイン*が折り畳まり、それが単独もしくは複数結合することによって特有の構造を作り、機能を発揮する。我々はこのチェイン同士を比較・分類し、その中から任意の優先度で選ばれた代表チェインを決定するシステム(PDB代表タンパク質チェイン決定システム:PDB-REPRDB(http://www.cbrc.jp/pdbreprdb/)を構築した。従来はチェイン同士の比較・分類は近似的に配列の類似性(I D%)を指標にして行われてきたが、本システムでは、I D% による分類に、チェインを重ね合わせた時の原子間距離の最大値(Dmax)と平均原子間距離(rmsd)を分類の指標に加え、より正確な分類を自動的に行っている。また、本システムは、WWW によるインタフェイス(図1)を用いることで、それぞれの研究に合った代表セットを即時に提供できるようにしている。
本システムで作成した代表タンパク質チェインは、タンパク質二次構造予測の基礎データとなる構造ライブラリのセットや、並列タンパク質情報解析(PAPIA)システム(http://www.cbrc.jp/papia/)の検索対象となるデータベースの作成に用いられている。さらに、I D% が高いタンパク質同士の比較から、部分的に構造変化を起こしている部位(図2)の検出にも利用可能である。
本システムは、PAPIA システムのWWWサーバーにて公開している。
*チェイン 20 種類の基本アミノ酸がペプチド結合を繰り返してできるポリペプチド鎖。タンパク質によって、含まれるアミノ酸の量・結合順序が異なる。
 |
 |

Noguchi,T., Akiyama,Y. : "PDB-REPRDB: a database of representative protein chains from the Protein Data Bank (PDB) in 2003", Nucleic Acids Research , Vol.31, No.1, 492-493 (2003).
Noguchi,T. and Akiyama,Y.: "PDB-REPRDB", Nucreic Acid Research Vol.31, No. 1 Online summary paper, http://www3.oup.co.uk/nar/database/summary/277 (2003).
Onizuka, K., Noguchi, T., Akiyama, Y., and Matsuda, H. : "Using Data Compression for Multidimensional Distribution Analysis", IEEE Intelligent Systems, 17, 3, pp.48-54 (2002).
Noguchi, T., Matsuda, H., Akiyama, Y. :"PDB-REPRDB: a database of representative protein chains from the Protein Data Bank (PDB)", Nucleic Acids Research, 29, 1, pp.219-220 (2001).
Noguchi, T., Ito, M., Matsuda, H., Akiyama, Y., Nishikawa, K. :"Prediction of Protein Secondary Structure Using the Threading Algorithm and Local Sequence Similarity", Research Communications in Biochemistry, Cell & Molecular Biology, 5, 1&2, pp.115-131 (2001).
|