St_Hakky’s blog

Data Science / Human Resources / Web Applicationについて書きます

KEGGをRから使って可視化までさせてみる - KEGGgraph

今研究関係の論文を読んでいるんですが、KEGGとか色々出てきていてそういえば一度もまとめたことがないなぁということで、まとめます。

KEGGとは

KEGGは、端的にいうとバイオインフォマティクス研究用のデータベースです。

KEGG(Kyoto Encyclopedia of Genes and Genomes:"京都遺伝子ゲノム百科事典"の意味)は、遺伝子、タンパク質、また代謝やシグナル伝達などの分子間ネットワークに関する情報を統合したデータベースである。1995年に京都大学化学研究所の金久實教授らによるプロジェクトとして発足して整備が続けられ、ウェブ上で公開されている。

KEGGは、細胞レベルでの生命システムの機能に関する知識を、分子間相互作用ネットワーク(代謝、シグナル伝達、遺伝情報等)の二項関係に基づいた情報としてデータベース化し(PATHWAY)、これを中心に据えているのが特徴である。

From Wikipedia
KEGG - Wikipedia


■参考
KEGG: Kyoto Encyclopedia of Genes and Genomes
金久ラボラトリーズ - KEGG とは

○KEGGgraph

KEGGのPathwayをRから使うことができます。

bioconductor.org

■KEEGgraphとは

簡単にいうと、Pathwayの情報はKEGGのサーバーサイドの方ではグラフ情報として格納されていて、つまりノードは分子、エッジがノード間の関係を表された状態で格納されているんだけど、それを僕らが使える状態ではなくって、つまりクライアントサイドから使えなかったので、Rから使えるようにしました、っていう感じ。

これによって、XML形式のKEGG情報をグラフとして扱うことが容易になり、グラフの可視化や基本的な解析などができます(巨人の皆さんありがとう)。

このパッケージは、KGML(KEGG XML)ファイルも必要で、これはKEGGFTPサイトからダウンロード可能。ちなみに、KEGGgraphをインストールするときにXMLを扱うためのパッケージも一緒にダウンロードされます。

デモとか使いやすさのために、’extdata/’ の配下のフォルダにサンプルデータを用意してくれています。簡単に試すときはここを使えそう。

■特徴

特徴は、上でも述べた通り、次の通りになります。

・Parsing:XMLをグラフにパースしたり、複数の情報源をマージすることも可能。
・Graph operations : 普通のグラフ操作も可能。
・Visualization : KEGGのグラフを可視化する機能もある。

■インストール

Bioconductorからインストール可能なので、RでもRstudioでもいいですが、下記でインストール。

source("https://bioconductor.org/biocLite.R")
biocLite("KEGGgraph")
■使い方

簡単な使い方は下記の通り。

# libraryの読み込み
library(KEGGgraph)

# サンプルデータの読み込み
toyKGML = system.file("extdata/kgml-ed-toy.xml", package="KEGGgraph")

# XMLファイルをパース
toyGraph = parseKGML2Graph(toyKGML, genesOnly=FALSE)

# ノードの確認
nodes(toyGraph)

# 可視化
plot(toyGraph)


f:id:St_Hakky:20161210161014j:plain

僕が読んでいたとある論文でも、上記のような感じでXML形式になっているKEGGのpathway情報をグラフにしていた。

読んでいると、いろんな使い方があるようでした。また分かったことがあれば追記します。