CASPには、常連といえる研究者チームが多数存在する。 野口が参加したdisorder領域部門にも、そうしたチームがある。 「常連といえるのは、海外2チームですね。 すでに"二大勢力"と言えるような研究成果を挙げ続けています」。 日本からの参加チームも多数。 CASP7にはCBRC、東京大学などのチームが出場した。 「パイオニア的な存在の海外2チームに、日本勢がどれだけ近づけるか。 また、日本のチームの中で、どれだけ上位に入賞することができるか。 その二つが課題でした」と野口は言う。
野口の研究チームは「精鋭揃い」だった。 テクニカルスタッフとして参加した早大大学院生、共同研究者となった(株)ファルマデザインの研究者と作り上げたスタッフは非常に優秀。 しかしCASPに参加する強豪チームと渡り合い、一定の成果を収めるには、CASP6までのような取り組み方ではダメだ。 研究チーム内で、予測プログラムの構築に必要な"グラウンドデザイン(大戦略)"を検討する日々が続いた。
CASP6の翌年である2005年、予測精度向上の可能性が見え、disorder領域予測法の開発方針が決定した。
野口の考えた戦略はこうだ。 まず、disorderする領域を"長い"ものと"短い"ものに分けて考える。 その上で、それぞれの予測に適した学習型のプログラムを組み、実際の構造を推定する。 「一口にdisorder領域といっても、長短によって性質が違うはずだ、というのが戦略立案の糸口でした。 性質が異なるのであれば、それぞれに適した構造予測プログラムというものがあるはずです。 学習すべき部分を絞り込み、それぞれに適した学習方法を作り上げることで、精度の高い構造予測が行えるようになると考えました」。
野口の戦略が優れていたのは、まさにこの「学習方法を分ける」、つまり「一つ一つ、ターゲットを絞る」ところにあった。 既存のdisorder領域予測は、配列をWindowに区切り、Windowごとに中心残基を予測する、という手法が一般的。 これに対して野口は「例えば"長い"disorder予測ではまずWindow全体を予測し、必要に応じてWindowをずらしながら全体を予測します。 次に、Windowごとに予測した結果を基に各残基のdisorder予測を行う方法を採用しました」という工夫を盛り込んだ。
いったん全体の戦略が固まれば、あとは実作業だ。
「非常に優秀な方がチームにいて下さったおかげで、プログラム自体は短時間で組み上がった」と、野口は振り返る。
長いdisorder領域を予測する「Poodle-L」、短い領域を予測する「Poodle-S」、さらにタンパク質全体のdisorder領域を予測する「Poodle-W」の3バージョンができあがったのは、実作業開始から半年後だったという。
野口の研究チームは、さらに精度を高めるための調整などを行い、CASP7に向けた準備を整えた。