老化細胞データの読みかた

前回、GEOというデータベースから老化細胞データを入手しました。このデータを使って、今後はデータ分析を行っていきます。

しかし、データの中身がどうなっているのかはまだ説明していませんでした。そこで、今回の記事では行名・列名やデータそのものの読み方について説明します。


AnnData


f:id:emoriiin979:20201104223924p:plain


今回入手したデータをscanpyというPythonパッケージを用いて読み込むと、anndataという形式でデータが使えるようになります。


f:id:emoriiin979:20201104222637p:plain anndata.AnnData


anndataには、大きく3つの情報が格納されています。AnnData.Xはデータ行列であり、AnnData.varは列情報、AnnData.obsは行情報を表しています。

本記事では、これらの情報が何を意味しているのかについて説明します。


RNAの構造


RNAはタンパク質を生み出す生体分子であることは、前回の記事で説明しました。今後の説明のために、RNAの分子構造についてさらに詳しい説明をします。


RNAは、ヌクレオシドという分子が複数連なってできています。ヌクレオシドには塩基という分子が結合しています。

塩基には、アデニン(A)、チミン(T)、グアニン(G)、シトシン(C)の4種類があります。ヌクレオシドにはこれらの塩基のいずれかが結合します。したがって、RNAの構造は下図のように、結合塩基の並び順で表現できます。


f:id:emoriiin979:20201104232958p:plain


遺伝子とRNA塩基配列


RNAは遺伝子という分子によって作られます。ヒトの遺伝子は数万種類ありますが、それぞれの遺伝子がRNAを産生し、役割を果たします。

そして、遺伝子ごとに、生成されるRNA塩基配列が異なります塩基配列が異なると、その後に生成されるタンパク質の構造も異なり、結果発現される機能も異なっています。


例えば、お酒の強さを決めるALDH2遺伝子(ENSG00000111275)が産生するRNAは、以下の塩基配列を有しています。


f:id:emoriiin979:20201106092540p:plain


一方で、がん抑制遺伝子として知られるTP53遺伝子(ENSG00000141510)が産生するRNAは、以下の塩基配列を有しています。


f:id:emoriiin979:20201106092621p:plain


これら2つの遺伝子から産生される塩基配列は、全く異なることが分かると思います。


AnnData.var


不変のIDは、次の形式に従って作成されます:ENS[生物種接頭語][特徴型接頭語][11桁の一意な数字]。
例えば、マウスの遺伝子はENSMUSG###########になるはずです。
Stable IDs, えもり訳


それでは、AnnDataの話に戻ります。


AnnData.varには、遺伝子の識別番号(ID)が格納されています

この遺伝子IDはEnsemblというサービスで定義された識別番号であり、各生物種の遺伝子ごとに一意のIDが割り振られています。

今回はマウス遺伝子由来のRNAを扱っているため、全ての遺伝子IDはENSMUSGから始まります。


試しに、1番目の遺伝子IDを調べてみましょう。「ENSMUSG00000051951 ensembl」などで検索してみると、その遺伝子の既知の性質が確認できます。


f:id:emoriiin979:20201106093848p:plain


AnnData.obs


AnnData.obsには、サンプル情報が格納されています

例えば、腎臓から3つの検体を採取してきた場合、ここには"腎臓1"、"腎臓2"、"腎臓3"のように、検体名が格納されます。


しかし、データ行名を見てみると、"AAACCTGAGAGTGACC-1"のような、アルファベットの謎の羅列が並んでいるだけです。はたして、これは何を意味しているのでしょうか?


細胞バーコーディングは個々の細胞をバーコードと呼ばれるユニークな核酸配列で標識し、空間と時間を通して追跡できるようにする技術です。
J.M. Kebschull et al., 2018, えもり訳


このアルファベット配列は、細胞バーコードといいます。細胞バーコードは、そのRNAが特定の細胞から産生されたことを証明するための標識です

よく見ると、細胞バーコードの配列はRNA塩基配列とよく似ています。これは、こうすることでRNAと一緒に細胞バーコードも同じ方法で検出することができるからだと思われます。

細胞バーコードの配列は細胞ごとに一意であるため、この塩基配列がそのまま細胞の識別番号(ID)として機能しています。


AnnData.X


最後に、データ行列であるAnnData.Xについて説明します。これはズバリ、RNAの総数を表します。


細胞中に存在する全てのRNA配列が判明すると、それらの塩基配列情報は「マッピングツール」というプログラムに入力されます。

マッピングツールはそのRNA配列を精査して、これがどの遺伝子から産生されたのかを予測してくれます。


すなわちAnnData.Xとは、マッピングツールによって出力された、RNA数の予想値なのです


まとめ


AnnDataとは、以下の3つの情報から成り立っています。


  • 列名(var): 遺伝子ID
  • 行名(obs): 細胞ID
  • データ行列(X): RNA


このように、細胞ごとに各遺伝子由来のRNA数がデータとして格納されています。


RNA数が大きいほどタンパク質も多く産生されうるため、RNAは遺伝子の活性化具合を調べるための指標とも言えます。

どの遺伝子が活性化しているかを調べることで、その細胞の機能が予測できます。今後は、このような細胞データを使って老化研究を行っていきます。


以上です。