
ヒトゲノム配列の決定とそこに記された遺伝情報の解析は、他の生物種における研究と共に分子生物学における豊富な情報源となっている。様々な研究分野において、注目するタンパク質や生化学的な系に関連する基礎データがinternetから収集され、各々のテーマごとに集約される。その作業はファイルの書式変換とテキストデータ変換といった煩雑な処理に終始することもあり、それらの場面で利用されているスクリプト言語perlやGFFファイルフォーマットといった既存の方法論では機能的限界も見受けられる。我々は、現在行われているデータ解析がよりスムーズにかつ高度に発展できるような処理系の実現が研究開発に重要であるとの立場から、新しい方法論の開発を、記号処理言語の再検討から始めた。データ処理の一連の手続きは、データ構造の記述、変数を用いた数値演算、シンプルな文法でのプログラミング、を実現する記号処理言語によって表現される。遺伝子情報に最適な言語を探索し、近年諸分野で活用されているプログラム言語Luaを適用した。
プログラム言語Luaは、Pascal言語に近い文法を持ち、従来C言語で対処した様なデータの細部にわたる処理のプログラミングが可能なインタプリタ型の処理系を提供する。さらに、階層構造のデータ記述に便利な機能は、NCBIにおいて採用されたASN.1と同様なデータ管理を1つの言語内で可能にし、ガベージコレクションまで備える。我々が開発している遺伝子情報表示プログラムGUPPYは、Lua言語を組み込む事により、豊富なファイル変換処理やシークエンスマップのレイアウト機能を実現した、遺伝子注釈データ処理ツールとして実装した。これまでに、BlastやClustalWの解析結果表示の他、GenBank、GoldenPath、FlyBase、などのゲノムデータベースに対応を進めた。ファイル変換では、まずオリジナルデータの構造を保持したままLua言語によって記述した後、必要なデータを抽出する2部構成にし、データスキーマ変換の自由度を上げるようにした。この手法は Document Object Model に類似しており、高容量搭載が普及した計算機のメモリを有効活用する。急速に普及したマイクロアレイによる発現データの解析等、実用的な応用を進めている。
参考
Lua言語 http://www.lua.org/
GUPPY http://staff.aist.go.jp/yutaka.ueno/guppy/

Saeki,S.,Asai,K.,Takahashi,K.,Ueno,Y.,Isono,K. and Iba,H.,"Inference of Euler Angles for Single Particle Analysis by Using Genetic Algorithms",to appear in Genome Informatics 2002.
|