IE9ピン留め
Microarray Quality Control by FDA
FDAが行っているMicroarray Quality Control Project (MAQC)の第一フェーズが終わったので、関連する文献が2006年9月号のNature Biotechnologyにまとまったpaperとして掲載されている。

Microarray Quality Control

その中の

The MicroArray Quality Control (MAQC) project shows inter- and intraplatform reproducibility of gene expression measurements

では同じデータセットを同じプラットフォーム、異なる地域で実施した場合の再現性、Taqmanのデータとの相関、また異なるプラットフォーム間での比較、、などデータの比較を行うための基礎的なデータがまとまって掲載されている。

異なるプラットフォーム間、1色vs2色の比較でも、比のデータとして比較し、Fold Changeである程度有意に発現に差が見られるものを比較することで、ある程度の比較が可能、というような結果が出ている。P-valueでのランクだと、プラットフォーム間のばらつきが同じではないから、ゆるいP-valueか、Fold Changeの方がいいようだ。

# by bioinfo_paper | 2006-10-10 00:16 | Array>DataProcess
Concordance among gene-expression-based predictors for breast cancer.
Concordance among gene-expression-based predictors for breast cancer.

同じ乳癌のデータセットを使って、Van de Vijver, Chang, Paik, Perou やMa XJらがそれぞれ別に解析し、異なる遺伝子セットで予後予測を行っているけれども、予後の予測は5つの方法で選ばれた遺伝子セットのうち、4つの遺伝子セットは予後の予測を有意に正確に行っているというということの検証。
同じデータセットであっても、文献ごとに選ばれる遺伝子が違う、という指摘はよく聞くが、同じ機序に載っている遺伝子ということなのかもしれない。興味深い結果だ。

最近NEJMではマイクロアレイを使った病型の予測が多い。今年に入ってから、3本以上でていると思う。この同じ月にも肺がんの予測がある。

それぞれの手法について、詳細を調べてまとめたいと思います。
# by bioinfo_paper | 2006-08-14 12:59 | Array>Classify
A multi-class predictor based on a probabilistic model~
A multi-class predictor based on a probabilistic model: application to gene
expression profiling-based diagnosis of thyroid tumors


マルチクラスの識別器を確率モデルをベースにしてつくった、という文献。
2群の分類を拡張させているマルチモデルで、分け方も1対1、1対残り全部、サブグループvsサブグループという組み合わせのものと、判別結果のSummationの組み合わせで調べているようです。判別関数はWeighted Votingで、判別関数が0より大きければ1、小さければ0という風に振り分けるのが普通ですが、これを確率的に考えて、判別関数に当てはめたものを0から1までの範囲の値になるようにロジスティック回帰で、Mappingしている。
データによって、1対1の組み合わせのものがよかったり、サブグループvsサブグループのものがよかったりするみたいです。
# by bioinfo_paper | 2006-08-02 15:17 | Array>Classify
Comparing gene expression networks in a multi-dimensional space to extract similarities~
Comparing gene expression networks in a multi-dimensional space to extract similarities and differences between organisms

種類の異なる分裂酵母を用いて、種間の遺伝子発現情報を多次元尺度構成法(Multi Dimensional Scaling ; MDS )を用いて表示させ、類似しているもの、していないものを見つける。S.cerevisiaeと S.pombeの胞子形成の過程にみられる遺伝子をMDSを用いて3次元空間へ表示させる。
オーソログの情報を使って、2つの種間でペアとなる遺伝子の‘セット’をつくる。このセットが、MDSの3次元空間上でもっとも近くなるように最適化させる。1つの遺伝子がもう一方のゲノム上で複数の遺伝子をオーソログとして示すことがあり、このアルゴリズムはそういった場合にも対応できるようになっている。

胞子形成のタイムコースデータをCase Studyとして使用。遺伝子のペアを見つけ、3次元表示をさせてみると、配列の類似性と発現には相関があることが分かった。また発現に差があったものも見られており、それがどういう機能のものだったか、ということを、胞子形成の過程を4つに分類した方法に基づき、調べている。

多次元尺度構成法って、こういう事にも活用できるのか、と思った文献でした。
# by bioinfo_paper | 2006-06-06 17:02 | Array>Cross Species
A comparative study of feature selection and multiclass classification
ご無沙汰しておりました。少しばたばたしておりましたが、またUpdateを開始したいと思います。今回は新しい文献ではありませんが、面白い文献だったので、詳細をUPします。

A comparative study of feature selection and multiclass classification methods for tissue classification based on gene expression

マイクロアレイを多値問題のモデル作成に使うにあたり、Feature Selectionと分類手法について検討した文献。

マイクロアレイを識別に使うにあたり、研究者は4つの技術的な問題に直面することになる。
4つの問題
一つめ:現在のひとつの細胞からのmRNAの複製の技術は非常に難しい仕事であるため、同じ状態、または機能をしていると思われる組織がプールされ、必要量のmRNAを入手するために使われている。つまり計算された発現レベルはプールされた細胞の平均であるということである。
二つめ:遺伝的な発現レベルの多様性が遺伝子発現に影響を与える。つまり個々個人の発現は異なりうる。
3つめ:結果に対してノイズが含まれる可能性が非常に多いこと。実験の中のさまざまなポイント、たとえば細胞の回収やRNAの複製、チップへハイブリダイズする際などである。
4つめ:回収されたサンプル数が少ないこと。100もサンプルがあることは非常にまれである。データの次元は非常に多く、1000から1万になることがあるにもかかわらず、サンプルサイズは非常に小さいのである。

多値クラス分類は大きく2つのタイプに分けることが出来る。ひとつは2値分類を拡張したもの。判別分析、回帰や決定木がこれにあたる。もうひとつのタイプは多値問題を分解(Decomposition)し、2値問題へしたもの。One-versus-the-restやペアワイズ比較、error-correcting output coding(ECOC) やmulticlass objective functions がこれに相当する。

Scholkopf と Smola(2002)によると、このうちのどれがほかよりも優れている、というものはおそらくなく、方法の選択は制約による、たとえば求められる精度のレベルや開発にかけられる時間、分類問題の性質などである。しかしながら、方法の選択は非常に難しい仕事であり、方法を決定したとしても、精密にチューニングが必要となる。Crammerと Singer (2000)の研究では、error-correcting output codingに対し、さまざまな方法でのアプローチを行ったが、結局はっきりとしたもっとも優れたものを見つけることが出来なかった。

この文献ではLiu et al. (2002)が行ったFeature Selectionの比較に関する文献と, Dudoit et al. (2002) らが行った判別方法の比較について行った研究をあわせ、さらに拡張してさまざまなFeature Selectionの方法の比較と多値分類の方法の比較をより多くのデータセットを使って検証する。

方法SVM:2値分類で非常に優れている方法であり、2群のデータ間のマージンを最大にするような超平面を見つけることで分類を行う。この文献では以下の4つの方法(Decomposition)を用いる。

One-versus-rest : あるひとつの群、対、残り全部。クラスがk群ある場合、k回のClassifierとなる。すべてのkが一貫した結果を示せばよいが、そうでない場合はランダムに選択することになり、これがこの方法で指摘される点である。

Pairwise:総当りで2値分類を行い、最も多く分類された群へ分類する。k組ある場合は、k(k-1)/2組のClassifierとなる。分類が同数になった場合はランダムに割り振られる。One-versus-the-restでも指摘されることだが、これは非対称な問題を対称な問題として解決することになる。この方法を使うメリットは2値問題に分解できるので、トレーニングがしやすい点である。しかしながらそれぞれのトレーニングに非常に時間がかかったり、クラスの数が多い場合、多くの時間を要するという問題もある。

ECOCはDietterich and Bakiri, (1995)によって考えられた方法で、多値問題を2値問題のセットとして解決しようとする方法である。どのように2群に分類するかについては、コーディングによっており、以下の2つについて検討。

ECOC (Random Coding)
Allweinet al., (2000).によるランダムCodeing。10 log2(k)個のClassifierが使われている。
ECOC (Exhausted Coding)
Dietterich and Bakiri, (1995)によるExhausted Coding。(2^(k−1))−1個のClassifierを使う。
このコーディングの欠点は、分類するクラスが増えるにつれ、Classifierが指数的に増える点にある。

このほか、Naïve Bayes、kNN、決定木も比較に加える。

Feature Selection
Rankgeneというプログラムに含まれる以下8つのFeature Selectionを使用。
information gain
towing rule
sum minority
max minority
Gini index
sum of variances
one-dimensional SVM
t -statistics.
最初の6つはMachine Learningだけでなく、Statistical Inferenceにおいても幅広く使われている。

いくつの遺伝子を使うか、については決定が難しいところであるが、それぞれの方法において150以上を採用すると、識別の精度に差がでなくなるため、それぞれの方法でランキングされた遺伝子のトップ150を採用。(Fig.1)

ALL/AMLのデータセットをはじめ9つのデータセットで試している。それぞれのデータセットにおいて、識別の精度をそれぞれのClassifierのパフォーマンスとして比較。(データセットはあらかじめTrainingとTestにわけている)

Feature Selectionの8つの方法を決定木、Naïve Bayes,kNN, SVM one-vs-the-rest, SVM Random, SVM Exhaustive, SVM pariwise にて比較。

結果
どのデータセットにおいてもSVMのパフォーマンスが良い結果を示しているが、どのDecomposition方法がよいかについては、識別するデータに依存しているようで、一貫した結果にはなっていない。
kNNはどのデータにおいてもSVMほどではないが、良い結果を示している。kNNとtwoing rule のFeature SelectionではALLのすべてのクラスを使ったデータでは完璧な識別率を示しており、Feature SelectionがkNNには重要であることが示唆される。
Naïve BayesはFeatureが独立であることを仮定しているが、遺伝子発現においてはこれを断定できないので、結果があまりよくないのはそのためと考えることができる。
Feature Selectionについては、どの方法がベストということは難しい。GCM以外のデータセットでは、sum of variances、one-dimensional SVM、t –statisticsはまったく同じTop150を示した。
識別の精度については、Feature Selectionよりも、識別の方法の選択の方が重要である。

Coclusion
遺伝子発現における多値問題の解決は2値問題の解決よりもさらに複雑でる。クラス数が少ない場合はまだ良い結果を得られるが、分類しようとするクラスの数が増えるにつれ、精度は激減する。

将来的な方向性として、よりよいFeature Selectionの探索が1つあげられる。ランクによるFeature ExtractionはFeature間の相関を無視している。Feature間の相関を考慮したFeature Extractionの方法が可能かどうかは将来の検討項目である。
最後にアンサンブル学習は遺伝子発現において、当てはめることが可能であるのか、ということも考えられる。

プリチャード:Featureの数をもっと減らすと、結果がかなり違うのでは・・と思いました。相関が高いFeatureについてのFeature Extractionの方法が現在どのように検討されているのか、良い文献をご存知の方がいらっしゃいましたら、ご連絡いただけると幸いです。
# by bioinfo_paper | 2006-05-29 17:51 | Array>Classify
The effect of oligonucleotide microarray data pre-processing on the analysis
The effect of oligonucleotide microarray data pre-processing on the analysis of patient-cohort studies

マイクロアレイのPre-Processingの処理の違いがその後の解析に与える影響について。MAS、dCHIP、RMA、GCRMA、の異なるPre-Processingを行うことで発現レベルやクラスタリング、Classifierの結果に違いがでるかどうかを見ている。それぞれのデータ処理の違いがおおまかにTable1 に出ているので、便利。GCRMAとRMAはほとんど処理内容が同じ(GCRMAはGC含有量に考慮している分若干違うが、基本のデータ処理は同じ)ため、データでは相関が高くでていることは、そういった背景によるので、注意。

発現レベルとRT-PCRの比較
遺伝子発現の結果とRT-PCRの結果の相関をまず見る。RMAとGCRMAは高い相関を示した。dCHIPが最も悪く、MASは中間。

Pre-Processing間の発現レベルの比較
それぞれのPre-Processingの方法で処理された遺伝子の相関を比較。概ね同じようであるが、発現が低いところのほうが、Pre-Processingによるバリエーションが出ているが、全体の一部のProbe Setについてのみであった。

Differential Expression
t-Test, Wilcoxon Rank sum test のp値をFWER (Family-Wise Error Rate)で調整したもの, SAM を FDRで調整したもの、, の3つの方法にて、Pre-Processingの違いによって有意差が出た遺伝子の共通なものにどの程度違いが出るかを比較。(FWERのp-value,FDRのq-value それぞれ5%以下のものを有意差ありとする) 結果は大きな違いはなく、特にAMLのデータセットを使ったものは、最も小さい相関係数で0.78とPre-Processingの違いが結果に大きな違いを与えていない、という結果になった。CNSはAMLよりも小さなデータセットであるため、ノイズなどの影響から、有意差がでた遺伝子数が少ない。Hoffmann らによって、ノーマライゼーションの違いが発現差があったという遺伝子の数に違いを与える、という報告を行なっている。彼らの結果と、本結果の違いを直接比較することは、多重比較を用いているために行なえないが、より大きなデータセットを使用した本結果からは、Pre-Processingの違いよりも、多重比較の手法の違いによる方が、より多い有意差がある遺伝子を返した。これらの結果から言えることは、生物学的でないばらつきを押さえた場合、Pre-Processingによる違いが、有意差をだす遺伝子数を増加させる、ということがいえるかもしれない。

クラスタリング
異なるPre-Processingを施したデータはK-Means、階層型クラスタリング(Single/Average/Complete Linkage)によって比較された。類似度は、Jaccard係数を用いて比較。結果はPre-Processingに大きく影響を受けえる結果となった。

Classifier
Nearest Centroid, kNN, Nearest Shrunken Centroid, LIKNON, SVM(多項式カーネル)、SVM(Radial Base Functionカーネル)を用いて、Pre-Processingの影響を比較。Pre-Processingによる大きな差は認められない。これはCNSについても同様であった。

結果
Pre-Processingの選択の違いが必ずしも、結果に影響しない。発現差や発現レベルを見る場合には、適度な影響はうけており、クラスタリングに置いてもそのように考えられるが、Classificationではほとんど影響を受けていないと考えられる。いくつかの文献においては、Pre-Processingの選択が非常に重要であることを述べているが、本結果では決定的に裏付けるような結果はでなかった。大きな違いのひとつは、サンプルサイズであろう。現在のアレイの技術革新を考えると、サンプルサイズが大きくなることは、これからの傾向として考えられるであろう。Pre-Processingの選択は、AMLのデータセットよりも、CNSのデータセットに於いて甚大であった。またAMLはHG-U133Aを使っており、CNSはHuGeneFLを使っている。AMLの方が、より安定なアレイであったと事も考慮に入れられる。
より多いアレイでより質のいいサンプルとRNAを使うことがPre-Processingの選択よりも重要であることを強調したい。しかしながら、反対の関係が存在していることも認識している。サンプル数が少ない場合には、Pre-Processingの選択はより重要になるであろう。我々は今回限られた数のPre-Processingの方法のみを比較しているが、他の方法を用いても本結果に影響はないと考える。

確かになるほど、そうだろうな、という結果ではあるが、こうやってちゃんとデータとしてあると便利。
# by bioinfo_paper | 2006-03-07 12:53 | Array>Normalization
A simple method for assessing sample sizes in microarray experiments
A simple method for assessing sample sizes in microarray experiments

サンプルサイズを検討する方法についての提案。
SAMに組み込まれており、Permutation Test がベースになり、比較したい2群の差から遺伝子数に応じて、FDR、FNRがどのように変化するかを見る。Rにもsamrのパッケージに組み込まれている。
# by bioinfo_paper | 2006-03-03 16:20
Improving missing value estimation in microarray data with gene ontology
Improving missing value estimation in microarray data with gene ontology

欠損値について、事前情報としてGOをkNNに使い、欠損値の推定を行なうことで推定値の精度を上げることができるかどうかの検証。

この中で引用されている以下の文献では、公開されている8つのデータセットを対象に調べたところ、使われている遺伝子の60%が欠損値をもっており、それを使ったクラスタリングや発現解析は、欠損値による影響を大きく受けているというもの。

Influence of microarrays experiments missing values on the stability of gene groups by hierarchical clustering


欠損値に関する研究は統計の分野でも非常に多く研究されており、マイクロアレイでもkNN、LLS(Local Least Square)やベイジアンを使った補填方法が提案されている。データに相関構造がないような場合は、単純にその遺伝子の平均値を補填するという方法で十分な推定とされていたが、相関があるような場合には、より洗練された方法として、kNNをベースとした補填方法を使うことで、よりロバストな推定ができるとされている。しかしながら、これらの方法は、いずれも発現量のみから欠損値を推定する方法であり、それ以外の情報を使っていない、という点に着目し、GOを事前情報として使うことで、精度を上げられるかということを行なっている。

kNNやLLSで、欠損値をもつ遺伝子と似た遺伝子を選択する際に、GOの類似性をP値を使ってしらべ、遺伝子がどのくらいにているか、という遺伝子選択のプロセスに重みを付け、機能が似ている遺伝子がより選択されやすいようになっている。

データセットは酵母のセットを使い、データを欠損させ、補填したものとの差を比較。欠損の比率を変えてみて、欠損の比率によって、効果に影響がでるかも見ている。

結果は、GOをkNN、LLSに組み込んだいずれの場合も、推定の精度が上がったことが確認できた。筆者らは特に、データが10以下の条件のような場合で、欠損値が10%以上のような場合、kNNやLLSとGOのアノテーションを組み合わせて使うことで、精度があがると述べている。GOの中でもBioprocess と Molecular Function の情報を使って補填をしているが、どちらを使うことで精度があがったというような違いはでなかった。

欠損値を補填するための遺伝子を選択する方法は、いくつも発表されており、GOを使うことは、他の方法においても可能であろうと示唆している。

それぞれの遺伝子が、同程度アノテーションされている、という前提なのだろうと思うのだが、ある遺伝子群がより多くのGOを持つ場合、そららにバイアスがかかったりしないのかな、とちょっと気になったりした。しかし、見ているデータにどの程度の欠損値があるかを把握しておくことは重要だろう。
# by bioinfo_paper | 2006-02-27 14:01
Gene selection and classification of microarray data using random forest.
Gene selection and classification of microarray data using random forest.

Random Forest法を用いたマイクロアレイにおける遺伝子選択とClassification

Random Forest法を使って、分類に最適で最小の遺伝子セットを見つける方法と分類について。
Random Forest 法はマイクロアレイでは、あまり用いられていない方法であるが、以下のようなメリットがある。
(文献より)

a) 観測されるデータ数よりも変数が多い場合
b) 2クラスの分類、それ以上の分類が可能
c) 予測のためのクラスにノイズが多いデータでも、分類性能が高い(Robustである)
d) オーバーフィッテイングが起こらない
e) 離散データも連続データも扱える
f) 予測に使う変数に交互作用があっても使える
g) 結果が変化しない
h) 精度がよくフリーで使用できる。(FortrunとR)
i) 分類に使われる遺伝子の重要度を結果に返す
j) 高いパフォーマンスのためのパラメータのチューニングがほとんどいらない。mtryというパラメータが最も重要なパラメータであるが、デフォルトの値でだいたい大丈夫という報告あり。

遺伝子選択を行なうにあたって、これまではランキングや変数選択による報告があるが、アルゴリズムの一部である、返される遺伝子の重要性の値については、そのメリットを活用で来ていない。
またこの文献では、選択された遺伝子が、同じデータセットを使っても、共通のものが非常に少ないという問題(multiplicity)についても記載している。

比較はシミュレーションのデータと実際のデータ、両方でテストしている。(実際のデータは、LeukemiaやBreastのデータセットなど、公開されているもの) 比較のためのグループは以下のとおり。
a. Random Forest、変数選択なし
b. 一般的に良いと言われているアルゴリズム3種(DLDA、kNN、SVM)、変数選択なし。SVMでは遺伝子選択はグループ間でF-ratioの差がもっとも大きかった200遺伝子。この200という数は、文献をベースに決めている。KNNにおいては、kの数はCross Validationによって決定。
c.アルゴリズム3種(SC(SCはSC.l と SC.s という2つのバージョン)とNN(Nearest Neighbor))、変数選択あり。

ソフトはRを使用。PackageはrandomForest, e1071, class, PAM, geSignatures。
その他、Random Forest のパラメータ(mtry, ntre, nodesize)を変更した際の効果についても比較。
結果
Random Forestを用いた結果は、遺伝子選択を行なわなくても、他の結果と比較可能。
# by bioinfo_paper | 2006-02-15 16:19 | Array>Classify
Survival prediction of diffuse large-B-cell lymphoma based on both clinical and gene expression ~
Survival prediction of diffuse large-B-cell lymphoma based on both clinical and gene expression information

臨床データとアレイの結果を組み合わせて、予後の予測を行なうモデルを作ったという文献。
DCBCLのデータセットを使い、主成分分析と、SIR (Sliced Inverse Regression) を使って次元を減らしデータを要約。
予測能力を比較するため、以下のグループに分け、Coxの比例モデルへ当てはめ、データの予測を比較
モデル1:臨床で使われる予後予測のIndex(IPI:Low、Intermediate、Highの3つ)のみを使って予測
モデル2:SIRを遺伝子発現データに適用し、遺伝子発現データのみで予測
モデル3:臨床データと発現データにPSIR(Pertial Space Inverse Regression)を適用し、その1st component を共変量としてCox比例モデルに採用。
モデル2、モデル3については、主成分分析を最初の次元削減に使用し、だいたい70%寄与率のものをその後の解析に使用。
その後カプラン-マイヤー生存曲線を書いて、生存率を比較。IPIのHigh、Intermediate、Lowのグループの生存曲線がよく分かれているか、ログランク検定で比較。Training Data、Test Dataいずれも低いP値を示す。
さらに予測の性能を比較するため、ROC曲線を描き、曲線下の面積(AUC)を比較。これらの結果より、予測には、臨床データのみ、遺伝子データのみではなく、両方を組み合わせるほうが、より良い予測が出来ることをしめしている。

様々な臨床データとマイクロアレイのデータを組み合わせて活用していくということは、これからもっと行なわれるようになると思う。
# by bioinfo_paper | 2006-02-13 13:43 | Array>Classify


< 前のページ 次のページ >