シングルセル解析

シングルセル解析用のデータベース作成 ~SQL編~

前回の記事では、シングルセル解析の結果を格納するためのデータベース(RDB)のテーブル設計を行いました。 本記事では、実際にRDBにデータを格納して、そのデータをSQLクエリで取得するところまでを行います。 テーブル設計のおさらい まずは、前回作成し…

シングルセル解析用のデータベース作成 ~テーブル定義編~

データサイエンティストに求められるスキルとして、データベースを活用したデータハンドリング技術が挙げられます。これはビッグデータ解析を行う上ではExcelでは行数不足が起こり得るということもありますし、何より全てのデータがメモリに収まりきらないこ…

Pandasで細胞数をカウントし、Matplotlibでグラフにする

老化組織と若年組織の違いとして、細胞数の比率の違いが挙げられます。例えば、老年マウスでは加齢に伴い脂肪組織マクロファージのサブタイプ組成が変化することが知られており、炎症を誘発することが分かっています。このように、老人と若者の生物学的違い…

細胞種推定のための機械学習入門

若年組織と老化組織の違いとして、「細胞種比率の違い」があります。例えば、老化によって免疫細胞の割合が増減していたりすることがあります。 このような、細胞種の割合を調べるためには、当然ですが全てのデータで細胞種を同定しておく必要があります。デ…

Scanpyの真の力を僕達はまだ知らない

これまで、老化細胞データを読み込むために、ScanpyというPythonパッケージを利用していました。read_h5ad関数でH5ADファイルからデータを読み込んだ後は、他のツールを使って主成分分析(PCA)やt-SNE/UMAPを実行しました。 実は、データ読み込みだけでなく…

主成分分析で次元を落とす

世の中には2種類のデータがあります。Nが大きいデータとpが大きいデータです。 Nはサンプル数、pは特徴量の数を指します。例えばコロナウイルスのデータでは、1つのデータに対して「患者年齢」「患者状態」などの特徴量が10個程度なのに対し、サンプル数は数…

APIマニュアルからデータ読み込み関数を探す

シングルセルデータをPythonで読み込むにはScanpyが便利です。以前の記事では、Scanpyのread_10x_h5という関数を使ってH5ファイルを読み込みました。 Scanpyの関数でファイルを読み込むと、Anndata型のデータとして変数に格納されます。このデータ型では、シ…

シングルセルデータの可視化

このグラフは何でしょうか? J.C. Kimmel et al., 2019 このようなグラフは、シングルセル解析の論文でよく出てきます。シングルセル解析というのは、臓器や組織から採取された大量の細胞データを解析することをいいます。 このグラフの各プロットは細胞を表…

老化細胞データの読みかた

前回、GEOというデータベースから老化細胞データを入手しました。このデータを使って、今後はデータ分析を行っていきます。 しかし、データの中身がどうなっているのかはまだ説明していませんでした。そこで、今回の記事では行名・列名やデータそのものの読…

はじめての老化細胞データ取得

今回より、ようやく本格的に研究を開始します。まず始めに、老化研究のためのデータ取得を行います。 これまで、データ分析を行うためにPython環境を整えたり、データ分析の記事をTwitterで共有したりしてきましたが、そもそもデータ自体がなければデータ分…