INOHプロジェクトを進めて行くにあたって、大きな課題となったのは何か。福田は技術的な側面として、二つのものを挙げる。一つ目は、論文に記載された知識を計算機上で扱えるデータに変換することの難しさだ。「シグナル伝達に関する知識は、論文中に自然言語や図のような形で記述されることが多いのです。同じ知識を計算機上に表現するには、論文を読み込んで執筆者の意図を理解し、個々のプロセスを読み解いてデータ化する必要があります(福田)」。このことはまた、二つ目の課題を提示することにもなる。「論文中では、異質な概念が同列で論じられることも多くなっています。そのため、個々の概念についてのオントロジー群を整備すると同時に、階層的/再帰的な表現ができる記述様式を考える必要がありました」。
二つの課題は相互に連関しており、一方だけを解決すれば済むという問題ではない。また、INOHプロジェクトの使命達成を考えると、いずれの課題も避けては通れないものだ。福田は双方を統合的に扱いながら、課題の解決策を模索した。
福田たちは、プロジェクトの開始当初から、課題に対する技術的な解決策を持っていたという。課題に対応する形で二つの解決策を用意。それぞれを熟成させていくことによって、プロジェクト全体のブレイクスルーとすることを意図していた。
一つ目の解決策は、オントロジー群の整備だ。不均質な構成要素が入り乱れて登場し、抽象的な知識に言及しがちな論文中から、個別の構成要素を概念として抽出して大系化。再度論文に当てることで、抽出した各オブジェクトの意味づけを行う作業だ。
「INOHプロジェクトでは、データベース内に登場するすべての“役者”(概念)が、どんな意味を持つのか。個別のオントロジーを整理し、明確化しています。そして、シグナル伝達パスウェイの知識を蓄積しながらさらにオントロジーを見直し、修整や改訂を加える作業を続けました(福田)」。プロジェクトチームによる研究が進んだいまでは、オントロジー群の整備は、かなり進んだ状態だという。
同時に進められたのが、データベース自体の表現形式の開発だ。INOHプロジェクトが取り扱うシグナル情報パスウェイのデータは、個々の物質、細胞の構成要素、細胞全体など、さまざまな階層の情報が入り乱れた構造となっている。これら一つ一つの構成要素に注目し、すっきりした形で階層化した形で表現することが必要になる。そのために福田らが開発した表現形式が、グラフ構造を拡張したコンパウンドグラフ構造の適用だった。「パスウェイ上の各要素をグラフ上の節点と対応させること。そして、各要素の内部に下位構造を持たせること」により、シグナル情報パスウェイのデータを、さまざまな粒度(表現方法)で記述することが可能になる。研究者にとって知りたい要素のみを表示し、その下位構造については表現しないことも可能だし、すべての構造を表示することも可能だ。もちろん、各構成要素ごとにオントロジー情報を関連づけ、明確な定義を行っていることは言うまでもない。
福田によれば、こうした技術開発の方向性は2001年の時点である程度固まっていたという。その後、より詳細な研究・検討を経て、現在発表されている形になっていった。