○Daisuke Tominaga, Paul Horton, Katsuhisa Horimoto
Computational Biology Research Center, AIST
To judge a time-series of data is periodic or not, model fitting methods are often used. Generally such methods need a judgement criterion. We develop a novel judgment algorithm for periodicity which introduces an Information Criterion (here we use BIC) into model optimization using discrete Fourier transform (DFT). The algorithm is an exhaustive search for an optimal model which minimizes BIC. A model is a set of Fourier coefficients. A Initial model is obtained by DFT of given data. Models are made by choosing one or several coefficients from the initial model. Model's BIC is calculated from a number of coefficients in the model and difference between the given data and time-series obtained by inverse DFT from the model. We applied the algorithm to randomly generated time-series and gene expressions of mice. The algorithm has advantages for finding multiple periodicity and computational time.
○森岡 涼子1、齊藤 秀1,2、堀本 勝久1
1産総研 生命情報工学研究センター
2インフォコム(株)
ネットワークスクリーニング法を用いて、tumor necrosis factor related apoptosis inducing ligand (TRAIL)刺激の下で活性化するMitogen-activated protein kinase (MAPK) パスウェイの探索を行った。TRAIL刺激の有無を実験条件とする、乳腺上皮細胞癌株での遺伝子発現プロファイルと、MAPK kinase、MAPK、転写因子とその制御下の遺伝子からなるネットワークとの間での整合性を評価し、活性化ネットワークの推定を行った。その結果、恒常的に活性化するERK1、ERK2を含むパスウェイと、TRAIL刺激に特化して活性化するJNK1, JNK2, JNK3を含むパスウェイを抽出した。本手法は、ストレス応答における、シグナル伝達パスウェイの機能多様性の解析において、有用であると考える。
○中津井 雅彦、堀本 勝久
産総研 生命情報工学研究センター
実験計測技術の限界や倫理的問題など様々な理由から、少数の実験計測データしか得られない場合がある。このような場合、ネットワーク全体の反応パラメータを推定する問題は一般に困難である。我々は、この問題を克服するために、代数的アプローチの一つであるDifferential Elimination (DE)を導入した。微分方程式モデルから、DEによって反応パラメータ間の束縛条件を導出し、反応パラメータの数値最適化における評価関数に導入した。4分子の内1分子のみが測定可能なネットワークを想定し、そのシミュレーションデータを用いて、束縛条件を導入する場合としない場合とで反応パラメータの最適化を行った。その結果、束縛条件を導入した場合において、より正確に反応パラメータを推定できた。初歩的な解析ではあるが、DEによる束縛条件を数値最適化における評価関数に導入することは、少数の実験計測データのみからネットワーク動態解析を行うための有用な手法の一つと考えられる。
○藤渕 航
産総研 生命情報工学研究センター
iPS細胞など様々な新型幹細胞を再生医療で実用化する上で細胞の能力や安全性(増殖能、がん化の危険度など)の検査ができるシステムの開発が必要です。産総研では細胞に関する異なる情報を網羅的に収集したヒト細胞データベースCELLPEDIA (http://riodb.ibase.aist.go.jp/CELLPEDIA/)と遺伝子発現データマイニングシステムCellMontage (http://cellmontage.cbrc.jp/)を開発しました。CellMontageを用いると、新型幹細胞の遺伝子発現データをデータベース中の細胞データと1秒間に数千件ものスピードで照合し類似細胞を見つけることができます。また、重要な遺伝子に重みをつけて機械学習する方法も開発し検索の高度化/高性能化を行っています。さらに、遺伝子群の機能の最小単位である遺伝子モジュールを高速に探索するSAMURAI2 (http://samurai.cbrc.jp/)も開発し、大量発現データ時代に対応できるソフトウェアを準備しています。
○長野 希美1、酒谷 尚史1,2
1産総研 生命情報工学研究センター
2(株)情報数理研究所
酵素触媒機構を決定する要因を考慮し、酵素とリガンドの反応部位に特に注目し、PDB中に登録されている酵素立体構造データのリガンドのアノテーションから酵素触媒機構の系統的な分類まで行う酵素反応分類データベース、EzCatDB (URL:http://mbs.cbrc.jp/EzCatDB/) を開発している。また、このEzCatDBデータベースでは、酵素蛋白質の触媒ドメインや触媒部位などをアノテーションしている。
本研究では、この酵素反応分類データベース・EzCatDBに登録されている酵素蛋白質の配列をシードにして、蛋白質の配列データベース(UniProt)を触媒部位情報を加味して解析した。その結果、生物種を超えて普遍的に存在する酵素(ユビキタス酵素)もあれば、生物種に特異的な酵素(生物特異的酵素)も観られることが判明した。本ポスターでは、こうした酵素蛋白質の解析結果や具体例について紹介する。
○Jean-Francois Pessiot1, Hiroto Hyakkoku1,2, Hirokazu Chiba1
Takeaki Taniguchi3, Wataru Fujibuchi1,2
1Computational Biology Research Center, AIST
2Waseda University
3Mitsubishi Research Institute
How to identify true transcription factor binding sites on the basis of sequence motif information (e.g., motif pattern, location, combination, etc.) is an important question in bioinformatics. We present PeakRegressor, a system that identifies binding motifs by combining DNA-sequence data and ChIP-Seq data. PeakRegressor uses L1-norm log linear regression in order to predict peak scores from binding motif candidates. Our approach successfully predicts the peak scores of STAT1 and RNA Polymerase II with correlation coefficients as high as 0.65 and 0.66, respectively. Using PeakRegressor, we are able to identify composite motifs for STAT1, as well as motifs which strengthen or weaken the binding.
○千葉 啓和1、珠玖 仁2、秋山 英雄3、中川 草4、谷口 丈晃5、 藤渕 航1
1産総研 生命情報工学研究センター
2東北大学
3東レ(株)
4国立遺伝学研究所
5三菱総合研究所
次世代シークエンサーを用いた大規模な配列決定は、今後の生物学の鍵を握る技術である。我々は、大規模配列決定に基づいた遺伝子発現量の網羅的絶対定量に向けて、多数の目的遺伝子を一度に検出することのできるプライマーセットを設計する方法を開発した。実験に用いるプライマーセットには以下の条件が必要である。(1)限られた数のプライマーで、Tm値がそろっており、かつプライマーダイマーを形成しないこと、(2)目的遺伝子をなるべくカバーすること、(3)目的としない遺伝子へのクロスハイブリダイゼーションをなるべく少なくすること。我々の方法では、シミュレーテッドアニーリング法に基づいて、これらの条件を満たすプライマーの組み合わせ探索を行う。例えば目的遺伝子1,000、目的としない遺伝子1,000とすると、わずか150プライマーでその85%を検出し、クロスハイブリダイゼーションは10%に抑えることができる。
○杉原 稔、藤渕 航、諏訪 牧子
産総研 生命情報工学研究センター
Gタンパク質共役型受容体 (GPCR) の構造と、Gタンパク質との結合選択性などの機能がどのように関係しているかは、興味深い問題である。3次元構造の判明しているGPCR中には、ウシロドプシンとイカロドプシンのように、細胞質側の構造が著しく異なり、異なるGタンパク質と結合するものがあり、この問題を議論する一例になると考えられる。本研究では、分子動力学法によりウシロドプシンとイカロドプシンの構造安定性を調べ、938本のGPCR の配列解析の結果と合わせて考察した。結果は、GPCR中で一般的に保存されている残基(DRY配列、NPxxY配列など)が、両タンパク中でほぼ同一の水素結合ネットワークを作り、安定化に寄与していることを示している。また、イカロドプシンにのみ見いだされた9番目のループは、イカロドプシンの細胞質側に長く伸びた特異なヘリックス構造を安定化させていることが示された。
○幡野 晶子1、Harry Amri Moesa1、谷口 丈晃2、永家 聖1, 藤渕 航1
1産総研 生命情報工学研究センター
2三菱総合研究所
ヒトには200種類以上、約60兆個の細胞が存在していると考えられ、その構造と機能を理解することは重要である。さらに細胞は同種の細胞であっても、その存在位置によって、遺伝子発現レベルで異なっている可能性がある。
そのため本研究では、細胞を人体の物理的な位置に基づいて2000種類以上に細分化し、細胞画像、形態値、文献、遺伝子発現データを収集し統合した、細胞の網羅的データベースを作成した。
さらに近年iPS細胞の樹立等、再生医療の分野が目覚ましい発展を遂げており、発生、分化に関連する情報を含めた、より広範な細胞のデータベースが必要とされている。本研究では成体の組織幹細胞、前駆細胞を約60種類に分類し、遺伝子発現データ等の情報を収集している。今後はさらに登録する細胞を増やすとともに、研究者が独自にデータを登録できるようなシステムの整備等を含め、より利用しやすいデータベースの構築を目指している。
○金 尢1、藤渕 航2、茂櫛 薫1、田中 博1
1東京医科歯科大学 大学院生命情報科学教育部
2産総研 生命情報工学研究センター
薬物や環境汚染物質等の化合物の致命的な暴露によっては、遺伝子に直接ダメージを与える遺伝毒性反応と、そうでない経路で細胞を傷つける非遺伝毒性反応等による細胞のがん化が起きる。毒性反応の種類によって化合物の安全性の確かめるための毒性テストの種類、期間、費用などの違いが生ずるため、そのメカニズムを理解することが不可欠である。しかし、既知の毒性テストだけでは遺伝子の発現、代謝に関る酵素群の相互作用といった分子レベルでの理解が不十分であった。
本研究では、毒性反応の種類における活性化作用メカニズムの違いを明らかにすることを目的に、化合物の代謝パスウェイと遺伝子発現プロファイルの両者の相関関係を分析した。異質データセット間の相関関係を見出す手法として正準相関解析法が知られている。しかし、この方法を生物のデータへ適応するためには、生体システムによってよく用いられている代謝パターンの考慮やパスウェイといったグラフデータを行列への変換が必要である。詳細については当日報告を行う。
○百石 弘澄1、杉原 稔2、諏訪 牧子2,1、加藤 毅3,2、山名 早人1、藤渕 航2,1
1早稲田大学
2産総研 生命情報工学研究センター
3お茶の水女子大学
Gタンパク質共役型受容体(GPCR)は創薬研究の中心となっており、GPCRと相互作用する未知のリガンドを予測することは重要な課題である。しかしながら、相互作用するリガンドが全く知られていないGPCRも多く存在し、これらのGPCRと相互作用するリガンドを予測することは学習用サンプルの不足から困難となる。そこで、我々はサポートベクターマシンを利用した2-way prediction法を提案する。この方法では、リガンド、GPCR、双方から予測を行い、相互作用するリガンドの情報とGPCRの情報が全くない場合の予測に対応した。実験により提案手法の有効性を示す。
○諏訪 牧子1、杉原 稔1、小野 幸輝1,2、藤渕 航1
1産総研 生命情報工学研究センター
2(株)情報数理研究所
近年得られた複数のGPCRの立体構造を比較すると、主鎖の基本骨格は概ね保存されるが、へリックスの傾きやリガンド・Gタンパク質結合に関わる領域などにはファミリー毎に異なる特徴が見られる。そのため、特定のGPCR に関する比較モデリングを行う際に、もしそのファミリーで立体構造が解かれていれば、それは良い鋳型となるが、別のファミリーや未知GPCRにも妥当か否かは不明である。ファミリー毎に鋳型となる構造を決めるのが理想だが、これは極めて困難である。
私たちは、別の切り口として配列情報のみから構造に直結する情報を抽出して構造型の広がりを予見する事を試みた。数十の真核生物のGPCR配列を立体構造にアラインして膜貫通領域を切り出し、タンパク質の内部環境を反映する物理量で記述した。これを用い基本構造型やリガンド・Gタンパク質結合部位を類似性で分類した。ここで得られた結果は、相応しい鋳型選択や結合リガンド、Gタンパク質予測の指標となる可能性がある。
○M. Michael Gromiha, Kiyonobu Yokota, Kazuhiko Fukui
Computational Biology Research Center, AIST
Protein interactions are important for several cellular processes in life. Understanding the recognition mechanism of proteins with other molecules is a challenging task in molecular and computational biology. In this work, we have developed an energy based approach for identifying the binding sites and important residues for binding in protein-RNA complexes. We found that the positively charged, polar and aromatic residues are important for binding. These residues influence to form electrostatic, hydrogen bonding and stacking interactions. Our observation has been verified with the experimental binding specificity of protein-RNA complexes and found good agreement with experiments. Further, we have analyzed the binding segments and found that most of them contain one or two residues. The similarities and differences of the results obtained between protein-RNA and protein-protein complexes will be discussed.
○根本 航1、福井 一彦1、藤 博幸1,2
1産総研 生命情報工学研究センター
2九州大学 生体防御医学研究所
Gタンパク質共役型受容体(GPCRs)は、市販薬物の3割以上が標的とする創薬における重要なタンパク質の一つである。ホモ/ヘテロのオリゴマーとしても機能し、その機能がモノマーの場合とは異なるとの報告例が蓄積してきている。また、疾患との関連性が指摘されている報告例もあり、オリゴマー化メカニズムの解明が重要となってきている。
これまでにも幾つかのグループがGPCRsのインターフェイス予測を試みているが、それらの予測精度は高くない。そこで、我々は保存残基の分布を利用して、分子表面のどこにインターフェイスが位置するかを予測する手法を開発し、最近、このプログラムをウェブ上で利用できるサーバを構築した(http://grip.cbrc.jp/)。また、オリゴマー化情報を提供するデータベースの開発を行っている。手法の詳細とあわせて紹介する予定である。
○横田 恭宣、福井 一彦
産総研 生命情報工学研究センター
タンパク質の立体構造に基づいた複合体・リガンドの結合部位の解析や予測プログラムの開発には、冗長性がなくかつ精密なタンパク質立体構造データセットが必要不可欠である。現在、世界で広く利用されている生体分子の立体構造データベースであるProtein Data Bank(PDB)は様々な生体分子が一括に登録されているものの、冗長性があり構造解析された構造の品質もまちまちである。このようなことから本研究では特にタンパク質の多量体の状態(Protein-Protein、Protein-DNA、Protein-RNA)の違いによって、一定の条件で冗長性のない精密なタンパク質立体構造データセットを抽出するシステムを開発した。本ポスター発表では本システムの概要と応用可能性について報告する。
○廣瀬 修一1、横田 恭宣1、五島 直樹2、河村 義史2、野口 保1
1産総研 生命情報工学研究センター
2産総研 バイオメディシナル情報研究センター
タンパク質の機能解析を行ったり、有用なタンパク質を工業的に利用したりするには、タンパク質を人工的に発現させ、分離・生成することが前提となる。近年、大腸菌や酵母等の生細胞を用いた系や、大腸菌やコムギ胚芽の抽出液を用いた無細胞系など、タンパク質を大量に調整する技術は大きく発展している。しかし、目的タンパク質の発現や可溶化が困難な例が、特に生細胞を用いた系に多くみられ、タンパク質研究の障害となっている。
本研究は、タンパク質発現系において、大量の可溶性タンパク質を得るための知識を獲得すること、タンパク質の可溶性を向上させることを最終的な目的としている。本発表では、大腸菌発現系、およびコムギ胚芽無細胞発現系を解析対象とし、タンパク質の大量発現および可溶性に関連している要因、目的タンパク質の発現及び可溶性予測の可能性について議論する。また、可溶性を向上させるタグの設計について紹介する。
○野口 保、廣瀬 修一
産総研 生命情報工学研究センター
タンパク質は固有の立体構造を形成するが、その構造は静止している訳ではなく柔軟で、その性質によりリガンドや他のタンパク質と相互作用ができ、種々の機能を発揮する。また、近年、intrinsic disordered regionと呼ばれる一定の構造をとらない領域の存在に注目が集まっており、この領域も生物学的な機能を果たしていることが明らかになってきている。
本研究では、アミノ酸配列から、一定の構造を形成し活発に動いているflexibility領域と、一定の構造を形成しないdisorder領域、および構造形成の単位であるドメインを予測する手法の研究を行い、Flex Retriever (flexibility領域予測)とPOODLE-I (disorder領域予測)およびドメインリンカー予測法を開発した。Flex Retrieverは、基準振動データを機械学習することによってflexibility領域を予測し、POODLE-Iは、タンパク質全体を対象にしたdisorder予測と、長・短それぞれのdisorder領域予測に適した3種類の予測法(POODLE-W, L, S)を統合した予測システムである。
本発表では、昨年参戦したCASP8におけるdisorder領域予測とドメイン予測の結果についても報告する。
○山崎 智、福井 一彦
産総研 生命情報工学研究センター
様々な機能性RNA分子が作用する系が数々の生物種・遺伝子で見つかっているものの、それらの作用機構を詳細に知るために必要な、3次元構造までが得られている例は未だ少ない。そのため、近年コンピュータによるRNA3次元構造予測手法がいくつか提案されている。その中でもBakerらのfragment assemblyによる手法は画期的かつ高精度な予測結果を与えるものとして高く評価されている。更なる予測精度向上の手段の一つとして、BakerらはRNAの2次構造予測情報を利用することを示唆している。RNAの2次構造予測手法はCentroidfoldをはじめとして高精度なものが既に存在するため、その予測結果を利用した、より高精度な3次元構造予測手法の開発への期待は大きい。本研究では、分子動力学法、また既知構造データからの統計的手法らを用いて、その可能性について議論する。
○牛山 祥吾、福井 一彦
産総研 生命情報工学研究センター
近年の実験機器の進歩に伴い、生命情報工学分野においてデータ処理容量の増加はムーアの法則を上回っている。生命情報処理は並列処理が極めて有効な分野であるが、計算速度とデータの保存・転送の両面からハードウェアの進歩が追いつけなくなっている。我々はライフサイエンス分野における膨大な情報の効率的処理を目指しグリッド技術を用いている。グリッド技術は、高速ネットワークを介し地理的に分散したコンピュータ資源も接続でき、様々なストレージシステムやデータ資源を共有、統合し、一つのコンピューティング資源とみなし活用できる技術である。本発表ではクラウドコンピューティングに向けグリッド技術を用いコンピューティング資源をより有効的に利用するためのジョブの分散やファイルシステムについて紹介する。
○木村 将之1,2、池北 雅彦1、福井 一彦2
1東京理科大学大学院 理工学研究科 応用生物科学専攻
2産総研 生命情報工学研究センター
生体内には様々な糖鎖が存在し、多くの生理作用を担っている。特にシアル酸(Sia)を含む糖鎖は、ウィルスの感染や抗原抗体反応など重要な生体反応に関与している。そこで、本研究ではレクチンの一種であるインフルエンザウィルス由来のヘマグルチニンを解析対象とし、分子シミュレーションを用いてレクチンのシアル酸認識機構の解明を行うことを目的としている。ヘマグルチニンはサブタイプによってSia2-3Gal、Sia2-6Galを区別して認識する。我々は複数のサブタイプに対してSia(Neu5Ac、Neu5Gc、KDN、Neu)それぞれの単糖およびGalとの二糖を用いてドッキング計算による解析を行った。本発表では算出した結合ポーズをスコアリングし、糖鎖構造やサブタイプの違いによるスコア変化について報告する。
○Chie Motono, Takatsugu Hirokawa
Computational Biology Research Center, AIST
Molecular docking screens of chemical databases are widely used for ligand discovery. We tested a screen method which uses MD simulations and the concavity shapes fingerprints. MD simulations were used to explore the structural change of a target protein, especially of its active site. Screens were performed by comparing the concavity shapes and a query ligand shape. We evaluated our screening calculations for several target proteins, like nuclear hormone receptors and serine proteases. These proteins, their active ligands, and the decoy molecules were chosen from a database DUD (directory of useful decoys). Condition for the screening, the advantages and the drawbacks of the methods will be reported.
○亀田倫史
産総研 生命情報工学研究センター
6量体リング状AAA+分子モーターは、凝集した蛋白質を解きほぐし、そのリングの中心からプロテアーゼに送り出す、という重要な機能を果たしている。今回、我々は全原子モデルを用いた詳細な分子動力学計算と、アミノ酸1残基を数個の球で表現する簡素化モデルによる計算とを組み合わせて、AAA+の一種であるHslUの作用機序を研究した。AAA+はATP、ADPの結合状態によってopen構造、close構造を行き来することがわかっているが、その構造変化の際に、リング構造の内側に位置するTyr91とVal92残基の側鎖が、あたかもボートを漕ぐオールのような動き(paddling)をすることによって、ポリペプチドを送り出すことを我々の計算は示した。さらに、この動きはリング半径の変化と、TYR側鎖の動きの時間スケールが異なることが原因であることがわかった。
○Paul Horton1, Syzmon M. Kielbasa2, Martin C. Frith1
1Computational Biology Research Center, AIST
2Max Planck Institute for Molecular Genetics
We present DisLex, a practical linear time algorithm to allow "discontiguous" suffixes to be sorted with standard suffix sorting programs. DisLex is useful to construct data structures for genome alignment. Discontiguous suffixes are the product of combining the discontiguous seeds popularized by PatternHunter with suffix arrays (LAST, Frith et al. last.cbrc.jp). Suffix array construction requires sorting string suffixes, which is computationally challenging when the strings are large and highly repetitive -- exactly what mammalian genomes are. Luckily the problem of ordinary suffix sorting has been intensely studied and many programs are available to do this.Fortunately, DisLex allows discontiguous suffix sorting with standard suffix sorting algorithms. It does this by (1) transforming the text in a particular way, (2) sorting the suffixes in the standard way, and (3) decoding the suffix coordinates generated in step 2. DisLex requires less than 30 seconds for the largest human chromosome.
○Martin C. Frith1, Michiaki Hamada2, Paul Horton1
1Computational Biology Research Center, AIST
2Mizuho Information & Research Institute
Much research is based on alignments of genome sequences. Genome alignment depends on various mundane but vital choices, such as how to mask repeats and which score parameters to use. Amazingly, there has been no rigorous assessment of which choices are best. Here, we show that standard repeat-masking methods do not work (i.e. they fail to eliminate spurious alignments), and describe a non-standard method that does work. We also show that the score parameters used for many genome alignments in the UCSC database are about the worst possible, and we suggest better score parameters. These results enable more accurate and rational genome alignment.
○油谷 幸代
産総研 生命情報工学研究センター
本研究では、出芽酵母の発現データに対し構造方程式モデリングを適用し、ガラクトース代謝関連転写因子による発現制御モデル構築を行った。
転写因子による遺伝子発現制御は、タンパク質である転写因子がプロモーター領域に物理的に結合することによって行われることから、タンパク質と遺伝子の双方を配置したネットワークモデルが有用であると考えられる。構造方程式モデリングでは、観測されていない因子を潜在変数としてネットワークモデルに組み込むことが可能であることから、転写因子群を潜在変数、遺伝子群を観測変数としたモデリングを行った。その結果、GAL遺伝子群は各転写因子が単独で制御する場合と、他の転写因子との複合体によって制御を受ける場合があることが示唆された。
本研究で構築したモデルによって、実験的に示唆されてきた転写因子複合体による遺伝子発現制御の可能性を検証することができたと考える。
○今井 賢一郎1、藤田 直也1,2、マイケル グロミハ1、ポール ホートン1
1産総研 生命情報工学研究センター
2東京大学 医科学研究所
ミトコンドリアには、100種類以上のβ型外膜タンパク質(BOMP)があると見積もられているが、これまでに同定されているミトコンドリアのBOMP(MBOMP)は、5種類である。昨年、初めてMBOMPの外膜挿入シグナル(βシグナル)が実験的に同定され、βシグナルを用いた配列解析により、新規のMBOMPの探索だけでなく、MBOMPの種類についても見直せる機会を得た。そこで、真核生物のプロテオームに対し、βシグナルの進化的保存性、二次構造予測などを組み合わせた手法とBOMPのアミノ酸組成、膜貫通βストランド領域の位置特異的スコア行列や両親媒性の性質をもとにBOMPを予測する手法を開発し、新規MBOMPの網羅的探索を行った。その結果、信頼度の高い新規MBOMPの候補は見つからず、これより、MBOMPは、これまでの予想と大きく異なり、非常に限られた種類のグループである可能性が高いと考えられる。
○Edward Wijaya1, Martin C. Frith1, Yutaka Suzuki2, Paul Horton1
1Computational Biology Research Center, AIST
2Dept. of Medical Genome Sciences Graduate School of Frontier Sciences, The University of Tokyo
Next generation sequencing technologies enable rapid, large-scale production of sequence data sets. Unfortunately these technologies also have a non-negligible sequencing error rate, which introduces bias in their outputs by introducing false reads and reducing the quantity of the real reads.
We will describe our software RECOUNT designed especially to correct biases resulting from sequencing error in Solexa reads using EM based approach. We will also report the first analysis of tag count correction with real data in the context of gene expression analysis. Our results show that our method not only increases the number of mappable tags, but can make real difference in the biological interpretation of next generation sequencing data.
○Raymond Wan1, Szymon M. Kielbasa2, Paul Horton1, Martin C. Frith1
1Computational Biology Research Center, AIST
2Max Planck Institute for Molecular Genetics
Efficient alignment algorithms are needed to keep up with the continued growth in sequencing technologies. While slower yet more optimal techniques based on Smith-Waterman remain in use, many practitioners still prefer more efficient seed-and-extend heuristics. The most well-known of these employ fixed-size seeds, which use exact matches as starting positions for local alignment. We have developed a system called LAST(http://last.cbrc.jp/) which uses adaptive seeds that vary in length based on the seed's frequency in the target sequence.
We investigated the performance of adaptive seeds as a function of the length of the sequence reads that are being aligned. Using both real and synthetic data, we consider read lengths associated with both present-day and future next-generation sequencers.
○Naoya Fujita1,2, Kenichiro Imai1, M. Michael Gromiha1, Paul Horton1
1Computational Biology Research Center, AIST
2Institute of Medical Science, University of Tokyo
Gram-negative bacteria are distinguished by their outer membranes which contain β-barrel outer membrane proteins (BOMPs). Some Gram-negative bacteria are pathogenic and BOMPs are often involved in their acquisition of drug resistance -- an important and persistent problem for the health of mankind. BOMBaRDS predicts BOMPs from amino acid sequence alone. We designed features for discrimination to reflect: membrane integration signals, signal peptide, and the local physico-chemical environment of the β-strands in a membrane. For feature representation, we choose HMMs, PWMs, and an ad hoc period-2 amphiphilicity computation. We also defined simpler features such as amino acid composition, and applied feature selection to simplify the feature set. Classification was done by SVM. Measuring performance with cross-validation on a dataset of 1469 proteins (93 BOMP/ 1376 non-BOMP) with no more than 25% shared identity, we obtained a Mathew's correlation coefficient of 0.85. This compared favorably with existing prediction servers.
○Fu Szu-Chin1,2, Paul Horton1,2
1Department of Computational Biology, Graduate School of Frontier Science, University of Tokyo
2Computational Biology Research Center, AIST
Protein sub-cellular localization is an important feature and has been used to support many functional hypotheses. Localization signals like the Nuclear Localization Signal (NLSs) and the Nuclear Export Signal (NESs) are both extremely important for the regulation of sub-cellular localization. Leucine rich NESs are characterized by a consensus sequence, however, compared with classical NLSs, NESs are more difficult to identify correctly because the NES consensus sequence often spuriously matches regions forming the hydrophobic core of proteins. Limited structural information on NES-containing proteins has also hampered the understanding of NESs. To find new insights on this signal, we are now analyzing differences between the NES regions and the hydrophobic core regions. Several features potentially related to this issue were found and then used to make a classifier to discriminate between these two regions sharing similarity sequence characteristics but different functions.
○辻 淳子1、ポール ホートン1,2
1東京大学大学院 新領域創成科学研究科 情報生命科学専攻
2産総研 生命情報工学研究センター
ミトコンドリアDNAは核へ移動・挿入され、核内ミトコンドリア様配列(NUMT; nuclear mitochondrial DNA)を形成している。しかしNUMTの存在は確認されてはいるものの、その形成に関する明確な特徴や核ゲノム内での役割は知られていない。そこで本研究ではヒトゲノムにおける、NUMTの基となるミトコンドリア配列の移動頻度やゲノム中でのNUMTの振る舞いを調査した。その結果、配列解析からミトコンドリアの制御配列領域(特にプロモーター領域)は核へ殆ど移動しないことがわかった。またRefSeq、Genbank、Uniplot、Ensemblのデータを使ってNUMTを調べたところ、僅かな数ではあるが機能を有するものが存在した。NUMTの系統樹解析からその機能を有する NUMTはヒト特異的であり、胎児の脳の発育時に発現するncRNAであることがわかった。
○Toutai Mituyama
Computational Biology Research Center, AIST
Transposons, which occupy more than 40% of total bases of the human genome, appear approximately every 1Kbp in a chromosome. Transposon-free regions (TFRs) are genomic regions that do not allow transposons to invade more than 10K bp in length. The previous study reported ~1000 TFRs and their possible associations to development-related genes. We used more sensitive method to detect TFRs than the previously used one. Our genome-wide investigation incorporating recent epigenomic resources such as histone methylation enrichment (HME) revealed that nearly a half of the detected TFRs coincide with HME sites. This surprising result provides another example of an epigenomic feature bound to a genomic one.
○清水 佳奈1、 藤 博幸1,2
1産総研 生命情報工学研究センター
2九州大学 生体防御医学研究所
本研究では、ヒトゲノムにおいて、特定の立体構造を持たないと予測されたタンパク質間の相互作用が期待されるよりも有意に多いことを明らかにし、双方のタンパク質に存在するディスオーダー領域がタンパク質間相互作用において重要な役割を果たしている可能性を示唆した。本研究は口頭でも発表する(口頭発表6) 。口頭発表では時間の制約上、概要を述べるにとどまるが、ポスターではより詳細な結果を示しながら、多くの方と議論したい。
○木立 尚孝1,2、寺井 悟朗3,2、光山 統泰2、浅井 潔1,2
1東京大学大学院 新領域創成科学研究科 情報生命科学専攻
2産総研 生命情報工学研究センター
3(株)インテックシステム研究所
複数生物種のゲノムアライメントから、ゲノムの各位置の保存度を計算することは、機能領域発見のための基本的なステップである。このときに、木構造的な生物進化を考慮にいれて、保存度を計算することが、各塩基位置での進化速度の精密な見積もりをするのに重要である。従来までの方法は、各位置が保存しているか、していないかの二値問題に情報を落として計算していたため、その後の解析が難しかった。我々は、ゲノムの各位置の、系統樹の各枝で、塩基置換が何回起こったかを推定するアルゴリズムを開発・実装した。
○寺井 悟朗1,2、沖田 弘明1、吉澤 亜耶1,2、浅井 潔3,4、光山 統泰3
1(株)インテックシステム研究所
2社団法人 バイオ産業情報化コンソーシアム
3産総研 生命情報工学研究センター
4東京大学大学院 新領域創成科学研究科
見つけたい遺伝子の偽遺伝子を発見すれば、その相同配列をゲノムから抽出することで目的の遺伝子を発見することができる。問題は目的の遺伝子の配列を知ることなしに、どうやって偽遺伝子を見つけるかである。偽遺伝子の周辺配列にはポリAトラクト、ターゲット部位重複などの配列特徴が存在する。我々はそれらの配列特徴の有無に基づき偽遺伝子を高精度に発見するプログラムTSDscanを開発した。TSDscanを使ってヒトゲノムから偽遺伝子候補を網羅的に抽出し、その相同配列を取得することで遺伝子を予測した。予測した遺伝子の2つに対して発現確認実験をしたところ、両者の発現を確認することができた。それらのうちの1つはイントロン領域にあり、その2次構造的特徴や配列モチーフから新規のH/ACA型snoRNAと考えられる。もう一つは既知のタンパクコード遺伝子と相同性があるため、新規のタンパクコード遺伝子と考えられる。
○有田 正規
東京大学大学院 新領域創成科学研究科 情報生命科学専攻
生物学の情報をWiki化する作業が盛んだが、通常のWikiシステムは情報を収集する手段を提供こそすれ、情報をまとめて知識にする手段を持たない。知識という概念を定義することは難しいが、端的には概要を一目で把握できる表やテーブルが含まれるだろう。これを個別の情報ページから自動作成するには、検索コマンドとそれを処理するプログラム部分を備えたWikiが必要である。我々はMediaWikiというシステムに自前のコマンドを追加することで、http://metabolomics.jp/上にそうしたWikiデータベースを構築している。対象は生薬、植物種、基礎代謝、フラボノイド(植物の二次代謝物)と多岐にわたり、互いのページへ密接にリンクしてある。通常のハイパーリンクによる連携と大きく異なる特徴は、データページ間でコンテンツを検索して自動リンクする点である。ページ内容が相互に自動更新され、必要最小限の手間とコストでメンテナンスを可能にする。
○田部井 靖生1、浅井 潔1,2
1産総研 生命情報工学研究センター
2東京大学大学院 新領域創成科学研究科 情報生命科学専攻
Non-coding RNA(ncRNA)は、その二次構造を保つように配列上離れた塩基対を保存しながら進化をする。それゆえに、ncRNAのマルチプルアライメントをとるためには、配列の相同性と二次構造を同時に考慮に入れる必要がある。近年、ncRNAの多くのマルチプルアライメント手法が提案されたが、それらは、ncRNAを大域的にアライメントする手法であり、ゲノム配列中に局所的に保存されたncRNAを発見するのは適してない。本発表では、 ncRNAを発見するための新しい手法を提案する。提案手法は、ProDAと呼ばれるたんぱく質用のローカルマルチプルアライメント手法の手続きに基づく。二次構造に基づいてncRNAをローカルアライメントするために、二次構造の特徴を取り入れた新しいローカルアライメントの確率モデルを提案する。このモデルは、近年提案された確率的アライメント手法や機械学習手法である条件付き確立場を用いる。局所的にアライメントされた部分配列集合は、配列中に局所的に保存されたncRNAの候補として、いくつかのグループにクラスタリングされる。後に、これらのグループの配列は、われわれが提案した高速かつ高精度なncRNAのグローバルマルチプルアライメント手法であるMXSCARNAにより大域的にアライメントされる。ベンチマークデータを用いた実験で、提案手法は、ncRNAを発見するための効率的な手法であることを示す。
○田代 俊行1、矢葺 幸光1,2、福井 一彦1、野口 保1、浅井 潔1
1産総研 生命情報工学研究センター
2(株)情報数理研究所
本ポスターでは、文部科学省が推進するライフサイエンス統合データベースプロジェクトにて開発したまたは開発中のワークフロー(1)タンパク質アノテーションワークフロー(2)タンパク質比較情報ワークフロー(3)タンパク質モデリングワークフロー(4)ASIANアクティブワークフローの紹介を致します。これらワークフローは、各々をそれぞれ独立に実行すると手間と時間が懸かるソフトウエアを多数組み合わせて構成されており、ユーザの利便性を向上させることを主目的として開発されています。上記(1)、(2)、(3)はタンパク質の構造と機能解析に関してユーザをアシストし、(4)は遺伝子ネットワーク等のオブジェクト間の関係を推定解析するツールです。 ユーザはWEBまたはKNIMEと呼ばれるワークフロープラットフォームで対話的に使用し、submitされたジョブは多数のマシンで効率的に並列・分散処理され、より短時間でユーザが解析し易い結果を出力します。(http://togo.cbrc.jp)
○坂井 寛子1、浅井 潔1,2、野口 保1、諏訪 牧子1、広川 貴次1、ポール ホートン1
堀本 勝久1、藤渕 航1、福井 一彦1、光山 統泰1、藤 博幸1,3、長野 希美1
富永 大介1、油谷 幸代1、根本 航1、今井 賢一郎1、廣瀬 修一1、寺田 朋子1、水谷 健太郎1
1産総研 生命情報工学研究センター
2東京大学大学院 新領域創成科学研究科
3九州大学 生体防御医学研究所
CBRCでは、文部科学省 科学技術振興調整費 新興分野人材養成(企業等の研究者、技術者の再教育)プログラムの補助を受け、平成17年度より5ヵ年計画で、社会人を対象とした「生命情報科学技術者養成コース」を実施してきた。本コースでは、初学者向けの「バイオインフォマティクス速習コースI」、計算機実習つきの「同II」、e-ラーニングによる「同Ie」、実践的な「創薬インフォマティクス技術者養成コース」、OJTの「リーダー養成・再教育コース」を開講してきた。のべ350名以上の人材を輩出した本コースだが、補助金によるプログラムは本年度で終了する。そこで、この5年間で蓄積したノウハウを活かした人材養成を継続するため、「生命情報科学人材養成コンソーシアム(仮)」の設立を計画している。来年度以降は会員を対象とした有償の人材養成コースを提供する予定であり、現在会員を募集している。これまでの実績ならびに今後の計画を発表する。
比較ゲノムによって、数多くの進化的保存領域が明らかになった。それらの多くはタンパク質情報を担うエキソン領域であるが、タンパク質の情報とは無関係な領域も数多く保存されていることがわかった。一方、完全長cDNAプロジェクトをはじめとするトランスクリプトーム解析によって、細胞内には非コードのRNA転写産物が大量に存在することが明らかになった。マイクロRNAの例で見るように、タンパク遺伝子の発現調節にRNAが関与することがわかっている。同じように重要な役割を担う新しいRNA遺伝子が多数存在するのではないかと、多くの研究者は考えており、ゲノムワイドな探索によって、RNA遺伝子がゲノム内にどれだけ存在するか明らかにすることが重要である。我々は、新規のRNA遺伝子を発見して、RNA遺伝子が生体内でどのような役割を担っているのかを明らかにするため、RNA情報解析技術の開発、新規RNA遺伝子の発見と機能推定、機能性RNA情報基盤の構築といった研究テーマを掲げている。この研究を推進するために、新エネルギー産業技術総合開発機構(NEDO)の「機能性RNAプロジェクト」に参加し、多くの企業や大学公的研究機関との共同研究を通じて、様々な観点からのRNA研究を積極的に取り組んでいる。
The sequence analysis team develops algorithms and software for analyzing genomic and protein sequence data. We also apply both in house and external tools to perform our own analysis.
Genome sequence analysis, gene expression analysis:
* LAST last.cbrc.jp Genome alignment software
* RECOUNT seq.cbrc.jp/recount/ Read count corrector for Next-Gen sequencers
* Hamster hamster.cbrc.jp Visualization of expression data
Protein sequence analysis:
* Imai et al. Cell 2008. Mitochondria proteome analysis
* FORTE www.cbrc.jp/htbin/forte-cgi/forte_form.pl Protein structure prediction server
* WoLF PSORT wolfpsort.org Protein localization prediction server
REFERENCES and more information: http://seq.cbrc.jp
創薬分子設計チームでは、タンパク質立体構造・機能予測や分子シミュレーション技術などの基盤技術に分子設計技術を融合させ、創薬標的タンパク質・変性疾患関連ペプチドに特化した高精度な創薬支援技術の開発と実用化を目指しています。具体的には、創薬標的として重要なキナーゼやX線結晶解析が困難なGPCRファミリー、タンパク質−タンパク質複合体等を対象とした高精度立体構造予測技術の開発、分子動力学計算法によるフォールディングやアミロイド形成シミュレーションおよび制御化合物の探索、タンパク質立体構造に基づく高精度リガンド結合予測やケモインフォマティクス技術を融合したバーチャルスクリーニング法の開発を行っています。実用化においては、民間企業との様々な共同研究を通じて展開しています。また、生命情報科学技術者養成コースを通じて、創薬インフォマティクスの人材養成にも積極的に取り組んでいます。
大規模計算応用技術を核に、タンパク質同士やタンパク質と他生体分子の複合体計算及びタンパク質ディスオーダー領域の予測など生体高分子の機能予測技術を開発しています。 またPCクラスタで世界最高速性能を示したMagiクラスタ、AISTスーパークラスタ、BlueProteinシステムなど、これまで世界最高水準のコンピュータを用いてバイオインフォマティックス研究を推進してきた技術的蓄積を生かし、大規模並列計算機を有効活用し応用技術へと繋がる開発やGRID環境下GPUを利用したハイブリッド型高速計算機の開発を進めています。
細胞機能設計チームは、細胞のシステムをターゲットとしたバイオインフォマティクス技術開発を目的として研究を進めています。大規模マイクロアレイ検索システムCellMontage、遺伝子モジュール探索システムSAMURAI、網羅的酵素反応機構データベースEzCatDB、細胞情報統合知識ベースCELLPEDIAなどを開発しています。最近の研究では遺伝子モジュールから遺伝子ネットワークを構築し、細胞分化制御技術など細胞治療へ向けた技術開発を行っています。また、毎年開催される国際大量データ解析コンテストに参加し、好成績を修めています。
生体ネットワークチームの研究目的は、細胞内生体分子ネットワークの構造解析とネットワーク動態解析によって、細胞内分子ネットワークの構造変化探索のための解析技術を開発することである。さらに、これら解析技術に基づき、細胞内における分子レベルの関連性変化と表現型変化との因果関係を解析し、様々な産業分野において実応用に足る技術開発への貢献を目指す。現在取り組んでいる研究課題は、計測データに基づくネットワーク構造推定技術の開発、既知ネットワーク構造から特定環境で計測されたデータと整合性を示すサブネットワークを抽出するネットワーク・スクリーニング技術の開発、記号計算に基づく高精度ネットワーク動態解析技術の開発である。