○水谷 健太郎1、浅井 潔1,2、野口 保1、諏訪 牧子1、広川 貴次1、ポール ホートン1
堀本 勝久1、藤渕 航1、福井 一彦1、光山 統泰1、藤 博幸1,3、長野 希美1
富永 大介1、油谷 幸代1、根本 航1、今井 賢一郎1、廣瀬 修一1、寺田 朋子1、坂井 寛子1
1産総研 生命情報工学研究センター
2東京大学大学院 新領域創成科学研究科
3九州大学 生体防御医学研究所
生命情報科学技術者養成コースでは遠隔地居住者等の受講を想定し、講義ビデオと実力テストから構成されるe−ラーニングシステムを開発した。e−ラーニングのプラットフォームには、早稲田大学が中心となって開発したオープンソースのJapricoシステムを採用した。講義ビデオはバイオインフォマティクス速習コースI 20講義および創薬インフォマティクス技術者養成コースの概論10講義を収録した。受講者はインターネットを通じてストリーミング配信される講義ビデオを自分の好きな時間に視聴することができ、視聴の中断、再開もできる。コンテンツの形式はAdobe Flashを採用したため、多くのOS環境で視聴できる。実力テストの結果はカテゴリごとにレーダーチャートで表示されるので、受講者は自分の得意・不得意分野を直感的に把握できる。これらのコンテンツは来年度発足する生命情報科学人材養成コンソーシアムの教材として有償で公開される予定である。
○田代 俊行1、矢葺 幸光1,2、情報統合班1
1産総研 生命情報工学研究センター
2(株)情報数理研究所
本発表では、文科省が推進するライフサイエンス統合データベースプロジェクトにて開発したまたは開発中のワークフロー(1)タンパク質アノテーションワークフロー、(2)タンパク質比較情報ワークフロー、(3)タンパク質モデリングワークフロー、(4)ASIANアクティブワークフローの紹介を致します。これらワークフローは、各々をそれぞれ独立に実行すると手間と時間が懸かるソフトウエアを多数組み合わせて構成されており、ユーザの利便性を向上させることを主目的として開発されています。上記(1)、(2)、(3)はタンパク質の構造と機能解析に関してユーザをアシストし、(4)は遺伝子ネットワーク等のオブジェクト間の関係を推定解析するツールです。 ユーザはWEBまたはKNIMEと呼ばれるワークフロープラットフォームで対話的に使用し、submitされたジョブは多数のマシンで効率的に並列・分散処理され、より短時間でユーザが解析し易い結果を出力します。
○山口 敦子、中尾 光輝
大学共同利用機関法人 情報・システム研究機構
ライフサイエンス統合データベースセンター
ライフサイエンス統合データベースセンター( DBCLS )は、文部科学省委託研究開発事業「統合データベースプロジェクト」のポータルサイト「統合ホームページ(http://lifesciencedb.jp/)」にて、ライフサイエンスのデータベース統合に向けた様々なサービスを公開している。これらのサービスの目標の一つは、データベースを利用したライフサイエンス研究開発の生産性向上であり、分散した複数のデータベースをつなぎ、個々の研究者に必要な情報や知識を与えることにある。本デモでは、国内外の分子DBや文献情報を一気に検索する横断検索、国内外主要拠点のデータベースを仮想的につなぎ、統一的なインターフェイスを提供する TogoWS、マウス操作で対話的にツールを組み合わせて生物データ処理が可能なサービスDBCLS Galaxyなど、上記目標を達成するために DBCLS が開発してきたサービスについて紹介する。
○堀本 勝久
産総研 生命情報工学研究センター
ネットワーク推定サーバ(ASIAN)の利用をデモンストレーションする。ASIANは、グラフィカル・ガウシアン・モデル(GGM)を実装したもので、間接的な関連を原因とする偽相関を排除する偏相関係数に基づいて、変数間の直接的な関連性(ネットワーク)を推定する。ただし、GGMは、遺伝子発現情報など類似パターン示すサンプルを多数含むデータの解析では、計算不能に陥りやすい。そこで、前処理として、類似パターンを示すサンプルを'まとめる'ための階層型クラスタリング及びクラスター数推定法を実装し、多様なデータに対応する工夫を施している。同時に、様々なユーザの要求に応えるため、一連の計算をバッチ処理する機能と、それぞれの計算を独立に実行する機能とを併せ持っている。また、複数の処理を連結して実行する構造をもつため、統合データベースプロジェクトのおけるソフトウェア開発の一つとして、KNIMEによる実装が行われた。
○Fujibuchi W1, Okada, Y1,2, Horton P1
1Computational Biology Research Center, AIST
2Muroran Institute of Technology
Mining a large-scale of microarray data for useful information is one of the major issues in the field of gene expression analysis. We have developed gene expression data mining programs, CellMontage(1) and SAMURAI(2), which are analogous tools to global and local sequence alignments. Both programs search thousands of gene expression data for the similar expression patterns to user's query profiles within a few minutes. SAMURAI2 is a new version that has new options such as time-dependent module search and statistical evaluation of modules runs ~10-20 times faster than the original one. Applying to disease dataset, we can derive new hypotheses of disease mechanisms that have not previously been reported or well-understood.
References:
(1) W. Fujibuchi, L. Kiseleva, T. Taniguchi, H. Harada, and P. Horton, "CellMomtagee: Similar Expression Profile Search Server." Bioinformatics, 23(22);3103-4, 2007.
(2) W. Fujibuchi, H.Kim, Y. Okada,T. Taniguchi, and H. Sone, "Revers Chemical Genetics: High-performance gene Expression module analysis tool and its application to chemical toxicity data." Reverse Chemical Genetics: High-performance gene expression module analysis tool and its application to chemical toxicity data," Methods in Molecular Biology,577,55-65, Humana Press, New Jersey.
Yuko Chujo1, Song Yixuan1, Fumi Osawa1, Naofumi Sakaya2,1, ○Nozomi Nagano1
1産総研 生命情報工学研究センター
2(株)情報数理研究所
EzCatDB is a knowledge base that mainly includes enzyme reactions, in terms of sequences and tertiary structures of enzymes, and proposed catalytic mechanisms, as well as ligand structures. The EzCatDB provides a hierarchical classification of catalytic reactions, RLCP, which has considered catalytic mechanisms and active-site structures of enzymes as well as basic reactions and reactive parts of ligand molecules, along with literature information on structure and catalytic mechanisms. The EzCatDB clusters enzyme data in the Protein Data Bank and the Swiss-Prot database with the same domain compositions and the same E.C. numbers and identical catalytic mechanisms. The EzCatDB can be queried according to the type of catalytic residue, name or type of ligand molecule that interacts with the enzyme as a cofactor, substrate, or product, in addition to literature information and the Swiss-prot accession number, PDB code and E.C. number. The EzCatDB is available at http://mbs.cbrc.jp/EzCatDB/ .
○諏訪 牧子1、杉原 捻1、小野 幸輝1,2
1産総研 生命情報工学研究センター
2(株)情報数理研究所
SEVENS(
○野口 保、清水 佳奈、廣瀬 修一
産総研 生命情報工学研究センター
タンパク質は柔軟性を有した分子であり、運動性はタンパク質の機能と密接に関わっている。ディスオーダ領域は、生理条件下で特定の立体構造が欠如しており、非常に運動性が高い。また、立体構造中の局所的な領域に注目した場合にも、動きが存在している(ここでは、フレキシブル領域と呼ぶ)。この現象は、理論的に2種類に分類可能である。すなわち、その領域自体が変形をおこしている内部運動と、並進や回転のみを起こしている外部運動である。本ソフトウェアでは、アミノ酸配列情報のみから、上記の運動性を予測する。ディスオーダ領域予測には、ディスオーダ領域の長さに特化した3種類のプログラムと、それらを統合したプログラムを提供している。いずれのソフトウェアも、各アミノ酸がディスオーダ状態であるかどうかを予測する。フレキシブル領域予測では、各アミノ酸の内部/外部運動の大きさを予測する。
○廣瀬 修一、野口 保
産総研 生命情報工学研究センター
組換えタンパク質技術は、タンパク質の学術的研究や工業的/薬理学的利用において重要な技術であるが、その成功率は高いものではない。"標準的"な条件におけるタンパク質の発現/可溶化に関する知見は、実験費用の削減と実験の効率化に貢献することが期待される。本ソフトウェアは、2種類のタンパク質発現系(大腸菌発現系およびコムギ胚芽系無細胞タンパク質発現系)を対象とし、アミノ酸配列情報のみから、(1)タンパク質が大量発現するか、(2)タンパク質が可溶性画分として得られるかを予測する。予測は、網羅的な完全長ヒトcDNA発現データから抽出した特徴量を基に行われている。結果画面では、タンパク質発現および可溶化の確率とともに、配列中に見られるタンパク質発現および可溶化に強く関連した短い配列との関係が示される。この情報は、タンパク質改変のために有用であると考えられる。
○光山 統泰
産総研 生命情報工学研究センター
急速に普及する次世代シーケンサーによって、網羅的配列情報解析の必要性が高まっている。このような要求に応えるため、次世代シーケンサーからの転写産物配列情報を入力として受け取ると、個々の配列に自動的にアノテーション情報を付与するシステムを構築した。アノテーション情報は、入力配列がどの遺伝子由来のものかを同定するもので、次世代シーケンサーによる網羅的転写産物の解析には不可欠。本システムは百万本規模の入力配列に対応し、トランスポゾンや繰返し配列を取り除いて、残った配列を分散処理によりゲノム配列にマッピング、転写の由来となった遺伝子を推定する。対応済の次世代シーケンサーはイルミナ社のGAIIとRoche/454のFLX。自動アノテーションシステムにはウェブサイト(http://www.ncrna.org/)にて公開され、誰でも無償で利用することができる。