生物学は、知識に基づく学問の代表的な存在だ。実験を行いデータを収集・解析することで知識を得て、それを基に仮説を立て、さらに検証を通じて補強していく。こうして蓄積された知識の集大成が、生物学という学問になるわけだ。研究者が得た知識は、論文という形で公開されていく。個々の論文が扱うテーマの深さと、発表される論文数の多さは、そこに含まれる知識の検索や概観を困難にする場合もある。また、同じことを表現するのに論文執筆者によって異なる言い回しを使う場合もあり、研究者間で知識を共有するためにはじっくりと内容を読み取る必要もある。重要な知識が論文内に“埋もれる”可能性もあるのだ。
論文中に含まれる多くの知識を抽出して計算機で扱えるデータに変換。さらに計算機上に再構築して、研究者間で共有できるデータベースを構築する……福田が取り組んでいるINOH(Integrating Network Objects with Hierarchies)プロジェクトは、そんな「情報のデータベース化」を目指したものだ。修士時代に世界で初めて文献中のタンパク質名同定問題に取り組んで以降文献データからのデータベースの構築を研究テーマとしている福田は、2003年から一貫してこのプロジェクトに関わる。
INOHプロジェクトがデータベース化の対象としているのは、主に「シグナル伝達パスウェイ」に関する高次知識だ。生物内には、多種多様の物質が存在し、相互作用している。物質個々の機能ではなく、物質間・物質−細胞間・細胞間など相互作用によるシグナルが表出させる各種の細胞機能を扱うのが大きな特徴となっている。「広義には、機能のメカニズムに関する相互作用のネットワーク的な知識情報をパスウェイと呼びます。たとえば、遺伝子やタンパク質がどのような相互作用の組み合わせで細胞機能を制御しているか、といった知識ですね(福田)」。
シグナル伝達パスウェイに関する研究は1970年代にまで遡るが、データベース化の研究という観点で注目が集まったのは、1990年代後半のこと。それに先立ってはべーリンガーの代謝マップにみられるような代謝パスウェイ情報のデータベース化が進められてきた。細胞のシステムとしての機能・メカニズムに注目が集まる中、さらに高次の知識情報としてデータベース化が求められているのが、シグナル伝達パスウェイということになる。
INOHプロジェクトの前身がスタートしたのは2001年のことだ。その後、2003年からは東京大学高木利久教授との連携のもと、福田がプロジェクトのとりまとめ役に就任。現在、主に4人の研究者で構成されたチームで、プロジェクトを推進している。
福田は、INOHプロジェクトの持つ“使命”について、4つのものを挙げる。まず、生物学における高次知識処理技術の開発だ。前述の通り、生物学の分野では各種の高次知識が論文中に“埋もれて”いることがある。これらをどのように抽出し、計算機上で扱えるデータに変換するか。次は、生物学者によるデータのキュレーション。さらに文献に登場する知識を扱うために必要なオントロジー群の整備、そして高次知識データベースの開発。福田らのチームは、これら4つの使命達成に向けて総合的な研究を進めてきた。「技術開発はすべてインハウスで行っていますし、開発した技術については広く使えるものでなくてはならない。この点に難しさを感じることも多々あります」と、福田は言う。