CBRC WorkShop Ⅲ Abstract

>Abstract / Demonstration（Software, Database, Lecture）

生命情報科学技術者養成コースe－ラーニングシステム

○水谷健太郎¹、浅井潔^1,2、野口保¹、諏訪牧子¹、広川貴次¹、ポールホートン¹
堀本勝久¹、藤渕航¹、福井一彦¹、光山統泰¹、藤博幸^1,3、長野希美¹
富永大介¹、油谷幸代¹、根本航¹、今井賢一郎¹、廣瀬修一¹、寺田朋子¹、坂井寛子¹
¹産総研生命情報工学研究センター
²東京大学大学院新領域創成科学研究科
³九州大学生体防御医学研究所

生命情報科学技術者養成コースでは遠隔地居住者等の受講を想定し、講義ビデオと実力テストから構成されるe－ラーニングシステムを開発した。e－ラーニングのプラットフォームには、早稲田大学が中心となって開発したオープンソースのJapricoシステムを採用した。講義ビデオはバイオインフォマティクス速習コースI 20講義および創薬インフォマティクス技術者養成コースの概論10講義を収録した。受講者はインターネットを通じてストリーミング配信される講義ビデオを自分の好きな時間に視聴することができ、視聴の中断、再開もできる。コンテンツの形式はAdobe Flashを採用したため、多くのOS環境で視聴できる。実力テストの結果はカテゴリごとにレーダーチャートで表示されるので、受講者は自分の得意・不得意分野を直感的に把握できる。これらのコンテンツは来年度発足する生命情報科学人材養成コンソーシアムの教材として有償で公開される予定である。

■Page Top

ライフサイエンス統合DBプロジェクトワークフロー

○田代俊行¹、矢葺幸光^1,2、情報統合班¹
¹産総研生命情報工学研究センター
²(株)情報数理研究所

本発表では、文科省が推進するライフサイエンス統合データベースプロジェクトにて開発したまたは開発中のワークフロー(1)タンパク質アノテーションワークフロー、(2)タンパク質比較情報ワークフロー、(3)タンパク質モデリングワークフロー、(4)ASIANアクティブワークフローの紹介を致します。これらワークフローは、各々をそれぞれ独立に実行すると手間と時間が懸かるソフトウエアを多数組み合わせて構成されており、ユーザの利便性を向上させることを主目的として開発されています。上記(1)、(2)、(3)はタンパク質の構造と機能解析に関してユーザをアシストし、(4)は遺伝子ネットワーク等のオブジェクト間の関係を推定解析するツールです。　ユーザはWEBまたはKNIMEと呼ばれるワークフロープラットフォームで対話的に使用し、submitされたジョブは多数のマシンで効率的に並列・分散処理され、より短時間でユーザが解析し易い結果を出力します。

■Page Top

統合データベースプロジェクトのサービス紹介
－複数のデータベースを繋ぐツールたち ‐

○山口敦子、中尾光輝
大学共同利用機関法人情報・システム研究機構
ライフサイエンス統合データベースセンター

ライフサイエンス統合データベースセンター( DBCLS )は、文部科学省委託研究開発事業「統合データベースプロジェクト」のポータルサイト「統合ホームページ(http://lifesciencedb.jp/)」にて、ライフサイエンスのデータベース統合に向けた様々なサービスを公開している。これらのサービスの目標の一つは、データベースを利用したライフサイエンス研究開発の生産性向上であり、分散した複数のデータベースをつなぎ、個々の研究者に必要な情報や知識を与えることにある。本デモでは、国内外の分子DBや文献情報を一気に検索する横断検索、国内外主要拠点のデータベースを仮想的につなぎ、統一的なインターフェイスを提供する TogoWS、マウス操作で対話的にツールを組み合わせて生物データ処理が可能なサービスDBCLS Galaxyなど、上記目標を達成するために DBCLS が開発してきたサービスについて紹介する。

■Page Top

ASIAN
（Automatic System for Inferring A Network）

○堀本勝久
産総研生命情報工学研究センター

ネットワーク推定サーバ（ASIAN）の利用をデモンストレーションする。ASIANは、グラフィカル・ガウシアン・モデル（GGM）を実装したもので、間接的な関連を原因とする偽相関を排除する偏相関係数に基づいて、変数間の直接的な関連性（ネットワーク）を推定する。ただし、GGMは、遺伝子発現情報など類似パターン示すサンプルを多数含むデータの解析では、計算不能に陥りやすい。そこで、前処理として、類似パターンを示すサンプルを'まとめる'ための階層型クラスタリング及びクラスター数推定法を実装し、多様なデータに対応する工夫を施している。同時に、様々なユーザの要求に応えるため、一連の計算をバッチ処理する機能と、それぞれの計算を独立に実行する機能とを併せ持っている。また、複数の処理を連結して実行する構造をもつため、統合データベースプロジェクトのおけるソフトウェア開発の一つとして、KNIMEによる実装が行われた。

■Page Top

CellMontage/SAMURAI2:
Enhanced Gene Expression Similarity Search Tools

○Fujibuchi W¹, Okada, Y^1,2, Horton P¹
¹Computational Biology Research Center, AIST
²Muroran Institute of Technology

Mining a large-scale of microarray data for useful information is one of the major issues in the field of gene expression analysis. We have developed gene expression data mining programs, CellMontage(1) and SAMURAI(2), which are analogous tools to global and local sequence alignments. Both programs search thousands of gene expression data for the similar expression patterns to user's query profiles within a few minutes. SAMURAI2 is a new version that has new options such as time-dependent module search and statistical evaluation of modules runs ~10-20 times faster than the original one. Applying to disease dataset, we can derive new hypotheses of disease mechanisms that have not previously been reported or well-understood.

References:
(1) W. Fujibuchi, L. Kiseleva, T. Taniguchi, H. Harada, and P. Horton, "CellMomtagee: Similar Expression Profile Search Server." Bioinformatics, 23(22);3103-4, 2007.
(2) W. Fujibuchi, H.Kim, Y. Okada,T. Taniguchi, and H. Sone, "Revers Chemical Genetics: High-performance gene Expression module analysis tool and its application to chemical toxicity data." Reverse Chemical Genetics: High-performance gene expression module analysis tool and its application to chemical toxicity data," Methods in Molecular Biology,577,55-65, Humana Press, New Jersey.

■Page Top

EzCatDB: Enzyme Catalytic Reaction Database

Yuko Chujo¹, Song Yixuan¹, Fumi Osawa¹, Naofumi Sakaya^2,1, ○Nozomi Nagano¹
¹産総研生命情報工学研究センター
²(株)情報数理研究所

EzCatDB is a knowledge base that mainly includes enzyme reactions, in terms of sequences and tertiary structures of enzymes, and proposed catalytic mechanisms, as well as ligand structures. The EzCatDB provides a hierarchical classification of catalytic reactions, RLCP, which has considered catalytic mechanisms and active-site structures of enzymes as well as basic reactions and reactive parts of ligand molecules, along with literature information on structure and catalytic mechanisms. The EzCatDB clusters enzyme data in the Protein Data Bank and the Swiss-Prot database with the same domain compositions and the same E.C. numbers and identical catalytic mechanisms. The EzCatDB can be queried according to the type of catalytic residue, name or type of ligand molecule that interacts with the enzyme as a cofactor, substrate, or product, in addition to literature information and the Swiss-prot accession number, PDB code and E.C. number. The EzCatDB is available at http://mbs.cbrc.jp/EzCatDB/ .

■Page Top

SEVENS:　7本膜貫通ヘリックス型受容体の網羅的データベース

○諏訪牧子¹、杉原捻¹、小野幸輝^1,2
¹産総研生命情報工学研究センター
²(株)情報数理研究所

　SEVENS（http://sevens.cbrc.jp）は、創薬の最重要な研究対象：Gタンパク質共役型受容体（GPCR）を全て保有し、それらの構造・機能情報を網羅的に収納することによってGPCR関連の実験を支援することを目的とした総合データベースである。高精度な遺伝子同定・解析パイプラインを用いて、現在、43種の真核生物のゲノム配列からGPCR遺伝子を網羅的に同定し、染色体上の座標、立体構造・機能情報などを視覚的に表現している。実験で発現が確認されなくても、ゲノム上に確かに存在し発現可能性のある遺伝子を全て含むのが大きな特徴である。創薬関連の代表的WEB DBの1つとして、国際書籍 (Applied Bioinformatics、2006)にもReviewされ、国内外の製薬企業等から現在月1000件以上の訪問件数がある。今後、機能解析・予測情報をより充実させ、この分野で標準的なDBとして定着させることを目指している。

■Page Top

タンパク質の運動性を予測するソフトウェア

○野口保、清水佳奈、廣瀬修一
産総研生命情報工学研究センター

タンパク質は柔軟性を有した分子であり、運動性はタンパク質の機能と密接に関わっている。ディスオーダ領域は、生理条件下で特定の立体構造が欠如しており、非常に運動性が高い。また、立体構造中の局所的な領域に注目した場合にも、動きが存在している（ここでは、フレキシブル領域と呼ぶ）。この現象は、理論的に2種類に分類可能である。すなわち、その領域自体が変形をおこしている内部運動と、並進や回転のみを起こしている外部運動である。本ソフトウェアでは、アミノ酸配列情報のみから、上記の運動性を予測する。ディスオーダ領域予測には、ディスオーダ領域の長さに特化した３種類のプログラムと、それらを統合したプログラムを提供している。いずれのソフトウェアも、各アミノ酸がディスオーダ状態であるかどうかを予測する。フレキシブル領域予測では、各アミノ酸の内部/外部運動の大きさを予測する。

■Page Top

タンパク質の発現・可溶化を予測するソフトウェア

○廣瀬修一、野口保
産総研生命情報工学研究センター

組換えタンパク質技術は、タンパク質の学術的研究や工業的/薬理学的利用において重要な技術であるが、その成功率は高いものではない。"標準的"な条件におけるタンパク質の発現/可溶化に関する知見は、実験費用の削減と実験の効率化に貢献することが期待される。本ソフトウェアは、２種類のタンパク質発現系（大腸菌発現系およびコムギ胚芽系無細胞タンパク質発現系）を対象とし、アミノ酸配列情報のみから、（１）タンパク質が大量発現するか、（２）タンパク質が可溶性画分として得られるかを予測する。予測は、網羅的な完全長ヒトcDNA発現データから抽出した特徴量を基に行われている。結果画面では、タンパク質発現および可溶化の確率とともに、配列中に見られるタンパク質発現および可溶化に強く関連した短い配列との関係が示される。この情報は、タンパク質改変のために有用であると考えられる。

■Page Top

大規模転写産物解析のためのギガシーケンサー対応自動アノテーションシステム

○光山統泰
産総研生命情報工学研究センター

急速に普及する次世代シーケンサーによって、網羅的配列情報解析の必要性が高まっている。このような要求に応えるため、次世代シーケンサーからの転写産物配列情報を入力として受け取ると、個々の配列に自動的にアノテーション情報を付与するシステムを構築した。アノテーション情報は、入力配列がどの遺伝子由来のものかを同定するもので、次世代シーケンサーによる網羅的転写産物の解析には不可欠。本システムは百万本規模の入力配列に対応し、トランスポゾンや繰返し配列を取り除いて、残った配列を分散処理によりゲノム配列にマッピング、転写の由来となった遺伝子を推定する。対応済の次世代シーケンサーはイルミナ社のGAIIとRoche/454のFLX。自動アノテーションシステムにはウェブサイト(http://www.ncrna.org/)にて公開され、誰でも無償で利用することができる。

■Page Top

menu

>Abstract / Demonstration（Software, Database, Lecture）

生命情報科学技術者養成コースe－ラーニングシステム

ライフサイエンス統合DBプロジェクトワークフロー

統合データベースプロジェクトのサービス紹介－ 複数のデータベースを繋ぐツールたち ‐

ASIAN（Automatic System for Inferring A Network）

CellMontage/SAMURAI2:Enhanced Gene Expression Similarity Search Tools

EzCatDB: Enzyme Catalytic Reaction Database

SEVENS: 7本膜貫通ヘリックス型受容体の網羅的データベース

タンパク質の運動性を予測するソフトウェア

タンパク質の発現・可溶化を予測するソフトウェア

大規模転写産物解析のためのギガシーケンサー対応自動アノテーションシステム

統合データベースプロジェクトのサービス紹介
－複数のデータベースを繋ぐツールたち ‐

ASIAN
（Automatic System for Inferring A Network）

CellMontage/SAMURAI2:
Enhanced Gene Expression Similarity Search Tools

SEVENS:　7本膜貫通ヘリックス型受容体の網羅的データベース