シングルセル解析
前回の記事では、シングルセル解析の結果を格納するためのデータベース(RDB)のテーブル設計を行いました。 本記事では、実際にRDBにデータを格納して、そのデータをSQLクエリで取得するところまでを行います。 テーブル設計のおさらい まずは、前回作成し…
データサイエンティストに求められるスキルとして、データベースを活用したデータハンドリング技術が挙げられます。これはビッグデータ解析を行う上ではExcelでは行数不足が起こり得るということもありますし、何より全てのデータがメモリに収まりきらないこ…
老化組織と若年組織の違いとして、細胞数の比率の違いが挙げられます。例えば、老年マウスでは加齢に伴い脂肪組織マクロファージのサブタイプ組成が変化することが知られており、炎症を誘発することが分かっています。このように、老人と若者の生物学的違い…
若年組織と老化組織の違いとして、「細胞種比率の違い」があります。例えば、老化によって免疫細胞の割合が増減していたりすることがあります。 このような、細胞種の割合を調べるためには、当然ですが全てのデータで細胞種を同定しておく必要があります。デ…
これまで、老化細胞データを読み込むために、ScanpyというPythonパッケージを利用していました。read_h5ad関数でH5ADファイルからデータを読み込んだ後は、他のツールを使って主成分分析(PCA)やt-SNE/UMAPを実行しました。 実は、データ読み込みだけでなく…
世の中には2種類のデータがあります。Nが大きいデータとpが大きいデータです。 Nはサンプル数、pは特徴量の数を指します。例えばコロナウイルスのデータでは、1つのデータに対して「患者年齢」「患者状態」などの特徴量が10個程度なのに対し、サンプル数は数…
シングルセルデータをPythonで読み込むにはScanpyが便利です。以前の記事では、Scanpyのread_10x_h5という関数を使ってH5ファイルを読み込みました。 Scanpyの関数でファイルを読み込むと、Anndata型のデータとして変数に格納されます。このデータ型では、シ…
このグラフは何でしょうか? J.C. Kimmel et al., 2019 このようなグラフは、シングルセル解析の論文でよく出てきます。シングルセル解析というのは、臓器や組織から採取された大量の細胞データを解析することをいいます。 このグラフの各プロットは細胞を表…
前回、GEOというデータベースから老化細胞データを入手しました。このデータを使って、今後はデータ分析を行っていきます。 しかし、データの中身がどうなっているのかはまだ説明していませんでした。そこで、今回の記事では行名・列名やデータそのものの読…
今回より、ようやく本格的に研究を開始します。まず始めに、老化研究のためのデータ取得を行います。 これまで、データ分析を行うためにPython環境を整えたり、データ分析の記事をTwitterで共有したりしてきましたが、そもそもデータ自体がなければデータ分…