CBRC
遺伝子情報系 配列解析チーム 藤渕 航
WEB-site
English
Top
Back

マイクロアレイデータより遺伝子発現相関の統計的有意性の推定

研究内容
 典型的な遺伝子発現データは、最終的に縦軸に遺伝子名、横軸に実験を並べた行列の形で表現され、これを出発点としてクラスター解析や主成分分析などが行われる。ここから統計的に有意に発現パターンの相関がある遺伝子ペアを探すのに相関係数がよく用いられるが、その有意性は相関係数の理論分布からのずれを実験の数を自由度パラメータに取るT分布に当てはめる事で推定される。この時に問題になるのが、全ての実験は独立であると仮定していることであり、実際のマイクロアレイではむしろ酷似したまたは繰り返し実験が多く、これによって独立を仮定した平均が0の相関係数の二変量正規分布にはならない。実験そのものが類似している事によって、遺伝子の相関の高いものが誤って有意と判定されることは、クラスター解析などを行うとメンバーサイズが大きすぎるクラスターができることなどから実際に観測されている。

 同じ実験かどうかはデータについての記述を見れば、ある程度実験をグループにまとめることが可能で、平均などをとってから相関係数を取ればよいかも知れないが、分類される基準が多くて判断に困る場合もある。例えば、喫煙と肺ガンの関係を調べたデータでも、男女差や年齢差などがあり、どのようなグループを作るかの選択は主観にまかされている。我々は、この問題を取り上げ、データについての記述には頼らずに、実験データのみから類似性を考慮して相関係数の分布を推測し、この分布からのずれによって有意性を新たに見積もる方法を探っている。下図に示したように実験軸についてデータをシャッフルした場合ではほぼ平均が0の相関係数の二変量正規分布になるが、同じ実験内で遺伝子を入れ替えただけのデータを使用すると、このように分布が正の方のみにずれたものが得られてしまう。このようなもともとのデータ間の内在的な類似性を考慮しながら遺伝子の相関係数の有意性について検証するべきである。ここでは主成分分析法や線形混合モデルによる相関係数の分布の補正について検証した結果を紹介する。

Drosophila マイクロアレイの8実験データから得られた遺伝子間の相関係数の分布

Back

© Computational Biology Research Center, AIST, 2001-2006 All Rights Reserved.
Sitepolicy |
RESEARCH INTERESTS