CBRC
遺伝子情報系 数理モデルチーム 金 大真
WEB-site
English
Top
Back

Marginalized Kernelsを用いたsnoRNA配列情報からの特徴抽出

研究内容
 核小体(nucleo)内に局在し、リボソーマルRNA前駆体のスプライシングに関与する比較的低分子のRNAをsmall nucleolar RNA (snoRNA)とよぶ。現在snoRNAにはボックスC/D型、ボックスH/ACA型の存在が知られているが、どのような2次構造を持ち、どのようなモチーフを保存しているのかについて、限られた情報しか得られていない。従って、ゲノム配列情報から、計算機によって自動的にsnoRNA配列領域を発見することは、比較的困難である。ボックスC/D型に関しては、Eddyらのグループが先駆的に機械学習手法によって、ゲノム配列情報からsnoRNAを自動的に発見する手法を開発したものの、ボックスH/ACA型に関しては、いまだそのような手法は提案されていない。

 本研究の目的は、snoRNA配列情報にMarginalized Kernel手法を適用することで、従来法では困難だったsnoRNA配列からの特徴抽出を行い、ゲノム配列から自動的にsnoRNA配列を発見する手法を開発せんとするものである。RNAでは、配列上の互いに相補的な領域どうしが対合し、ステムとよばれる熱力学的に安定した構造を形成しており、このステム構造が各種RNAの二次構造形成を担っている。このような構造をRNA配列から予測するには、確率文脈自由文法(SCFG)が適している。図1はRNA配列の構造情報がSCFG内部でどのように扱われるかを模式的に示している。我々の提案したMarginalized Kernelという手法を用いると、SCFG内部のパラメーターを活用することによって、任意長の配列を、構造情報を含む一定長のベクトルに落とし込むことができる。このベクトル化によって、主成分分析やサポートベクターマシン等の多変量解析手法を導入することが可能となる。図2では、酵母snoRNA配列のMarginalize Kernelを適用して得られたカーネル行列を示した。2つのsnoRNA型がほぼ完全に分離されている点に注目されたい。

図1 RNA配列への構造情報ラベルを対応させる、図2 酵母snoRNA 2種のカーネル行列
参考文献
T. Kin, K. Tsuda and K. Asai: "Marginalized Kernels for RNA Sequence Data Analysis", Genome Informatics 13: 112-122 (2002).

著書・論文
Tsuda, K., T. Kin and K. Asai: "Marginalized Kernels for Biological Sequences", Bioinformatics, Vol. 18,Suppl. 1, S268--S275(ISMB2002), 2002.

Kin, T., K. Tsuda and K. Asai,"Marginalized Kernels for RNA Sequence Data Analysis", to appear in Genome Informatics 2002.

Back

© Computational Biology Research Center, AIST, 2001-2006 All Rights Reserved.
Sitepolicy |
RESEARCH INTERESTS