老化細胞データの読みかた
前回、GEOというデータベースから老化細胞データを入手しました。このデータを使って、今後はデータ分析を行っていきます。
しかし、データの中身がどうなっているのかはまだ説明していませんでした。そこで、今回の記事では行名・列名やデータそのものの読み方について説明します。
AnnData
今回入手したデータをscanpy
というPythonパッケージを用いて読み込むと、anndataという形式でデータが使えるようになります。
anndataには、大きく3つの情報が格納されています。AnnData.Xはデータ行列であり、AnnData.varは列情報、AnnData.obsは行情報を表しています。
本記事では、これらの情報が何を意味しているのかについて説明します。
RNAの構造
RNAはタンパク質を生み出す生体分子であることは、前回の記事で説明しました。今後の説明のために、RNAの分子構造についてさらに詳しい説明をします。
RNAは、ヌクレオシドという分子が複数連なってできています。ヌクレオシドには塩基という分子が結合しています。
塩基には、アデニン(A)、チミン(T)、グアニン(G)、シトシン(C)の4種類があります。ヌクレオシドにはこれらの塩基のいずれかが結合します。したがって、RNAの構造は下図のように、結合塩基の並び順で表現できます。
遺伝子とRNA塩基配列
RNAは遺伝子という分子によって作られます。ヒトの遺伝子は数万種類ありますが、それぞれの遺伝子がRNAを産生し、役割を果たします。
そして、遺伝子ごとに、生成されるRNAの塩基配列が異なります。塩基配列が異なると、その後に生成されるタンパク質の構造も異なり、結果発現される機能も異なっています。
例えば、お酒の強さを決めるALDH2遺伝子(ENSG00000111275)が産生するRNAは、以下の塩基配列を有しています。
一方で、がん抑制遺伝子として知られるTP53遺伝子(ENSG00000141510)が産生するRNAは、以下の塩基配列を有しています。
これら2つの遺伝子から産生される塩基配列は、全く異なることが分かると思います。
AnnData.var
不変のIDは、次の形式に従って作成されます:ENS[生物種接頭語][特徴型接頭語][11桁の一意な数字]。
例えば、マウスの遺伝子はENSMUSG###########になるはずです。
Stable IDs, えもり訳
それでは、AnnDataの話に戻ります。
AnnData.varには、遺伝子の識別番号(ID)が格納されています。
この遺伝子IDはEnsemblというサービスで定義された識別番号であり、各生物種の遺伝子ごとに一意のIDが割り振られています。
今回はマウス遺伝子由来のRNAを扱っているため、全ての遺伝子IDはENSMUSGから始まります。
試しに、1番目の遺伝子IDを調べてみましょう。「ENSMUSG00000051951 ensembl」などで検索してみると、その遺伝子の既知の性質が確認できます。
AnnData.obs
AnnData.obsには、サンプル情報が格納されています。
例えば、腎臓から3つの検体を採取してきた場合、ここには"腎臓1"、"腎臓2"、"腎臓3"のように、検体名が格納されます。
しかし、データ行名を見てみると、"AAACCTGAGAGTGACC-1"のような、アルファベットの謎の羅列が並んでいるだけです。はたして、これは何を意味しているのでしょうか?
細胞バーコーディングは個々の細胞をバーコードと呼ばれるユニークな核酸配列で標識し、空間と時間を通して追跡できるようにする技術です。
J.M. Kebschull et al., 2018, えもり訳
このアルファベット配列は、細胞バーコードといいます。細胞バーコードは、そのRNAが特定の細胞から産生されたことを証明するための標識です。
よく見ると、細胞バーコードの配列はRNAの塩基配列とよく似ています。これは、こうすることでRNAと一緒に細胞バーコードも同じ方法で検出することができるからだと思われます。
細胞バーコードの配列は細胞ごとに一意であるため、この塩基配列がそのまま細胞の識別番号(ID)として機能しています。
AnnData.X
最後に、データ行列であるAnnData.Xについて説明します。これはズバリ、RNAの総数を表します。
細胞中に存在する全てのRNA配列が判明すると、それらの塩基配列情報は「マッピングツール」というプログラムに入力されます。
マッピングツールはそのRNA配列を精査して、これがどの遺伝子から産生されたのかを予測してくれます。
すなわちAnnData.Xとは、マッピングツールによって出力された、RNA数の予想値なのです。
まとめ
AnnDataとは、以下の3つの情報から成り立っています。
- 列名(var): 遺伝子ID
- 行名(obs): 細胞ID
- データ行列(X): RNA数
このように、細胞ごとに各遺伝子由来のRNA数がデータとして格納されています。
RNA数が大きいほどタンパク質も多く産生されうるため、RNAは遺伝子の活性化具合を調べるための指標とも言えます。
どの遺伝子が活性化しているかを調べることで、その細胞の機能が予測できます。今後は、このような細胞データを使って老化研究を行っていきます。
以上です。