CBRC
遺伝子情報系 数理モデルチーム 浅井潔
WEB-site
English
Top
Back

遺伝子予測システム GeneDecoder/既知遺伝子との類似性、cDNA配列情報の統合

研究内容

 ヒトゲノムの塩基配列もほぼ明らかになり、塩基配列そのものの情報解析よりも、生物種間の比較ゲノムや医学応用を目指すSNP解析など、配列の多様性と生命現象の関係を解明するための研究が注目されるようになってきた。しかし、様々な生物種で決定されるゲノム塩基配列は増え続けており、自動的な遺伝子発見の重要性はむしろ増大している。
 通常のゲノムプロジェクトでは、既知遺伝子との類似性の検索、cDNA のゲノムへの貼り付け、統計情報に基づく予測(ab initio法)は自動的に行われるものの、それらを統合した遺伝子領域の決定は手作業で行われている。我々はその自動化を目指し、開発中の多重出力HMM(隠れマルコフモデル)によるabinitio 遺伝子領域予測システムGeneDecoderに改良を加え、類似性検索の結果・EST の情報を統計情報と自動的に統合して遺伝子発見を行うシステムを開発した。
 類似性検索結果の統合では、BLAST による類似性検索の結果のスコアと、コード領域の統計的スコアから、新たなスコアを算出している。cDNA は、エキソン・イントロンの境界(スプライス位置)で分断されて張り付く場合が多い。遺伝子のおおよその位置は判明するが、コード領域の正確な位置、タンパク質に翻訳される3文字単位の位置(読み枠)などは曖昧なままである。GeneDecoder では、cDNA 貼り付け結果を矛盾するスプライス位置の統計的スコアを低くし、cDNA 情報と整合性のあるエキソン・イントロン構造の予測を自動的に行うことに成功した。
 GeneDecoderは、ヒトGPCR遺伝子の網羅的発見と解析1)で用いられた他、遺伝子情報表示システムGuppy2)、後藤修氏による遺伝子構造予測システム3)とともに麹菌ゲノムプロジェクトの遺伝子発見とアノテーションに用いられている。また、ウェブサービス4)も行っている。

 本プロジェクトは産業科学技術研究開発制度「ゲノムインフォマティクス」の支援を受けている。

図1 真核生物遺伝子領域予測システム GeneDecoder
図2 多重出力HMM によるcDNA情報の遺伝子領域予測への統合

関連情報
1) 諏訪牧子: AIST Today Vol.1, No.9, p.8 (2001).
2) 上野豊: AIST Today Vol.2, No.5, p.14 (2002).
3) 後藤修: AIST Today Vol.2, No.3, p.10 (2002).
4) http://www.genedecoder.org

著書・論文
M. Suwa, T. Sato, I. Okouchi, M. Arita, S. Matsumoto, S. Tsutsumi, H. Aburatani, K. Asai, Y. Akiyama., SEVENS: The Comprehensive Collection of Seven Transmembrane Helix Receptors, hunted from Human genome. Nucreic Acid Research Vol 31, 1 (2003) Online summary paper
( http://www3.oup.co.uk/nar/database/summary/373?action=search;sect=all;term=Asai )

Saeki,S.,Asai,K.,Takahashi,K.,Ueno,Y.,Isono,K. and Iba,H.,"Inference of Euler Angles for Single Particle Analysis by Using Genetic Algorithms",to appear in Genome Informatics 2002.

Tsuda, K., T. Kin and K. Asai: "Marginalized Kernels for Biological Sequences", Bioinformatics, Vol. 18,Suppl. 1, S268--S275(ISMB2002), 2002.

Kin, T., K. Tsuda and K. Asai,"Marginalized Kernels for RNA Sequence Data Analysis", to appear in Genome Informatics 2002.

M. Arita, K. Tsuda, and K. Asai, "Modeling Splicing Sites with Pairwise Correlations", Bioinformatics 2002,18,pp.27S-34S (ECCB2002).

浅井 潔,確率モデルと遺伝子発見,研究集会『統計数理とデータマイニング、発見科学』, 2002.3.

Back

© Computational Biology Research Center, AIST, 2001-2006 All Rights Reserved.
Sitepolicy |
RESEARCH INTERESTS