2020-01-01から1年間の記事一覧

細胞種推定のための機械学習入門

若年組織と老化組織の違いとして、「細胞種比率の違い」があります。例えば、老化によって免疫細胞の割合が増減していたりすることがあります。 このような、細胞種の割合を調べるためには、当然ですが全てのデータで細胞種を同定しておく必要があります。デ…

Scanpyの真の力を僕達はまだ知らない

これまで、老化細胞データを読み込むために、ScanpyというPythonパッケージを利用していました。read_h5ad関数でH5ADファイルからデータを読み込んだ後は、他のツールを使って主成分分析(PCA)やt-SNE/UMAPを実行しました。 実は、データ読み込みだけでなく…

主成分分析で次元を落とす

世の中には2種類のデータがあります。Nが大きいデータとpが大きいデータです。 Nはサンプル数、pは特徴量の数を指します。例えばコロナウイルスのデータでは、1つのデータに対して「患者年齢」「患者状態」などの特徴量が10個程度なのに対し、サンプル数は数…

Twitter「荒らし」対策の考察

SNSなどのインターネットサービスにおいて、誹謗中傷のような迷惑行為を行うことを「荒らし」といいます。「荒らし」が被害者に与える影響は小さくなく、場合によっては精神を病んでSNSの利用自体を辞めてしまったり、企業の場合は「荒らし」による炎上で活…

自宅研究員と英語

自宅研究員とは、自宅で研究活動を趣味として行う者を指します。成果を出すために論文を執筆するなどの工程が不要なので、一般的な研究職とは何かと異なる点があります。 ところで、研究者にとって英語力は必要不可欠だとよく聞きます。私が以前在籍していた…

APIマニュアルからデータ読み込み関数を探す

シングルセルデータをPythonで読み込むにはScanpyが便利です。以前の記事では、Scanpyのread_10x_h5という関数を使ってH5ファイルを読み込みました。 Scanpyの関数でファイルを読み込むと、Anndata型のデータとして変数に格納されます。このデータ型では、シ…

シングルセルデータの可視化

このグラフは何でしょうか? J.C. Kimmel et al., 2019 このようなグラフは、シングルセル解析の論文でよく出てきます。シングルセル解析というのは、臓器や組織から採取された大量の細胞データを解析することをいいます。 このグラフの各プロットは細胞を表…

老化細胞データの読みかた

前回、GEOというデータベースから老化細胞データを入手しました。このデータを使って、今後はデータ分析を行っていきます。 しかし、データの中身がどうなっているのかはまだ説明していませんでした。そこで、今回の記事では行名・列名やデータそのものの読…

はじめての老化細胞データ取得

今回より、ようやく本格的に研究を開始します。まず始めに、老化研究のためのデータ取得を行います。 これまで、データ分析を行うためにPython環境を整えたり、データ分析の記事をTwitterで共有したりしてきましたが、そもそもデータ自体がなければデータ分…

開発者ツールでHTML要素検証

以前、はてなブログHTMLのIDを確認する方法をQiitaで記事にしました。この記事では、はてなブログが提供しているboilerplate.cssを参照して、要素の背景色を変えながら地道に該当のID名・クラス名を調べていました。 しかし、どうやらChromeの開発者ツールを…

リマインダーアプリを比較してみた

何かやるべきタスクが発生したときに、どこかにメモしておかないとそのタスクのことを忘れてしまいます。そのとき、リマインダーアプリを使えば、ただメモしておくだけでなく、やるべきタイミングにそのタスクを通知してくれます。これにより、タスクをやり…

システム開発のプロセスと反省点

先日、会社にてシステム開発の全行程を経験する機会がありました。これまで、個人でプログラムを作っていたときはあまり意識していませんでしたが、チームでの開発となると足並みを揃えるために決まった工程でシステムを作っていくことになります。 私が担当…

Colabを効果的に活用するために

Google Colaboratory(以下、Colab)を使えば、環境構築なしで簡単にPythonを試すことができます。私がデータ分析を行うときも、Colab上でデータ収集や分析を行っています。 さて、このColabですが、使い方を洗練させることで、より効果的に活用することがで…

「コロナは高齢者で重症化しやすい」は真実か?

最近、新型コロナウイルス感染症が世界中で流行しています。この感染症は2020年9月22日現時点で約100万人の死者を出す恐ろしい病気ですが、一方で若者の致死率は低く、高齢になるほど致死率が高くなるといわれています。 本ブログは、「老化のメカニズム」の…

図書館を活用して教科書代を浮かせる

現在、肺炎のデータ分析を行った記事を執筆中ですが、そこで医学書をいくつか読む機会がありました。しかし、医学書は1冊1万円以上するものも多く、全て読むならともかく一部しか引用しない場合はコスパが悪すぎます。 とはいえ、本屋で立ち読みするのも気が…

WBSとスケジューリング

昨日、ワードクラウドで論文要旨を分析する方法について、Qiita記事を投稿しました。 PubMedデータベースから論文要旨のテキストデータを取得し、ワードクラウドで単語の出現頻度を可視化するまで、Pythonというプログラミング言語で実装しました。 ここで扱…

なぜ食べログとインスタのアカウントを作ったのか

先日、鎌倉に遊びに行った際に、旅行記をつけるためにインスタグラムのアカウント(emoriiin979)を作成しました。 実は、これとは別に食べログのアカウントも作成済みです。コロナウイルスのせいで更新が止まっていますが、以前はレストランのレビューなど…

コロナウイルスの一次データを探して分析するまで

先日、コロナウイルスのデータ分析法を解説した記事を投稿しました。この記事では、北海道が公開している陽性患者属性データを使って年代ごとの重症化率を比較しています。 実は、この分析は私の老化研究の一環です。コロナウイルスは高齢者で重症化しやすい…

要件定義とか、基本設計とか。

ただいま、本業での仕事が忙しいため、研究活動については来週以降から再開予定です。この記事では、私が本業において要件定義・基本設計で困っていることを書いてみたので、よければご覧ください。

読みやすいブログデザインを追求してみた

ブログのデザインは、利用者の満足度に少なからず影響を与えます。読みやすいデザインや、疲れにくいデザインを追い求めることは、ブログ運営者にとって不可欠な要素です。 はてなブログでは、ブログのデザインを決定づける「CSS」を編集することができます…

3種類の質問方法のメリット・デメリット

前回の記事では、研究成果のフィードバックを得るために、よりアクセス数を増やすべくSEO対策について検討しました。しかし、いくら記事を読んでいただけたとしても、質問するための場所が無ければ、当初の目的が達成できません。 はてなブログには、それぞ…

SEO対策のための「1記事1キーワード」作戦

あなたのブログのアクセス数はどれくらいですか? 私のブログでは、今週のアクセス数は「7」でした。(笑) 研究者にとって、他人からのフィードバックは生命線です。自分の研究が間違った方向に進んでいないか、より良いアイデアがどこかに落ちていないか。研…

PubMedで論文を探す3つの方法

論文はインターネットで見つかる インターネットには色々な情報が公開されています 研究者という生き物は、論文をよく読むものです。論文を読むことで、自分の研究分野の先行研究を知ることができるからです。 その分野の基礎知識を身につけるだけでなく、同…

データ分析のためのパソコン環境構築

就活のほとぼりが冷めて パソコン構成図と格闘するえもり こんにちは、えもりです! 早くも(大嘘)2つ目の記事が投稿できてうれしいです! 前回の記事を投稿してから二か月ほど後になりましたが、何とか就職先を見つけることができました。終わってみれば、…