: O. Yuanying

EInfoの使い方

というわけで、NCBIのE-Utilitiesの使い方。まずはEInfoというツールについて。

ところで、E-Utilitesでできる事はNCBIのサイトのEntrezで全部できるので、 それで不便していない人はE-Utilitiesを使う利点はなさそうです。

何故このE-UtilitesというツールをNCBIが公開しているのかというと、 Entrezデータベースの機能をプログラムから簡単に使えるようにするため、 ということになります。

Entrezで公開されているデータを大量に処理したい場合や、 自動的に毎日チェックしたいという場合はこのE-Utilitesを使う意味があるでしょう。

EInfo
eUtilsで使用できる各データベースのフィールドやデータ数、 最新更新日などを知ることができる。

Reference Documentationを眺めてみると、 まず最初にツールのhttp://eutils.ncbi.nlm.nih.gov/entrez/eutils/einfo.fcgi?というベースURLが出てきます。

このベースURLにいくつかのパラメータを加えてやることで、 欲しい情報が手に入るという寸法です。

ちなみにEInfoの場合、このベースURLでEntrezデータベースのリストが返ってくるようです。

<eInfoResult>
<DbList>
	<DbName>pubmed</DbName>
	<DbName>protein</DbName>
	<DbName>nucleotide</DbName>
	<DbName>structure</DbName>
	<DbName>genome</DbName>

	<DbName>books</DbName>
	<DbName>cancerchromosomes</DbName>
	<DbName>cdd</DbName>
	<DbName>domains</DbName>
	<DbName>gene</DbName>
	<DbName>genomeprj</DbName>

	<DbName>gensat</DbName>
	<DbName>geo</DbName>
	<DbName>gds</DbName>
	<DbName>homologene</DbName>
	<DbName>journals</DbName>
	<DbName>mesh</DbName>

	<DbName>ncbisearch</DbName>
	<DbName>nlmcatalog</DbName>
	<DbName>omim</DbName>
	<DbName>pmc</DbName>
	<DbName>popset</DbName>
	<DbName>probe</DbName>

	<DbName>pcassay</DbName>
	<DbName>pccompound</DbName>
	<DbName>pcsubstance</DbName>
	<DbName>snp</DbName>
	<DbName>taxonomy</DbName>
	<DbName>unigene</DbName>

	<DbName>unists</DbName>
</DbList>
</eInfoResult>

なんか色々データベースが、、、 Entrezってこんなにたくさんデータベースがあったんですね。

聞いたことがあるデータベースなんてほんの一部です。 これらのデータベースにはどのような情報が含まれていて、 どのくらいのデータがあるのでしょう??

そこでこのEInfoの出番です。 冒頭にも書きましたがEInfoは「eUtilsで使用できる各データベースのフィールドやデータ数、最新更新日などを知ることができる。」ツールなのです!

さっそく見慣れたPubmedについてEInfoで調べてみましょう。

http://eutils.ncbi.nlm.nih.gov/entrez/eutils/einfo.fcgi?db=pubmed

先ほどのベースURLにdb=pubmedとつけました。 これがEInfoから情報を取ってくるためのパラメータとなります。

<DbName>pubmed</DbName>
<MenuName>PubMed</MenuName>
<Description>PubMed bibliographic record</Description>
<Count>15547852</Count>
<LastUpdate>2005/05/12 08:26</LastUpdate>

データはすべてXMLで表示されます。 XMLは機械でもデータを処理しやすいようにするためのファイルフォーマットなのですが、 人間でも理解できるように書かれています。 例えばこの場合は、調べたデータベースの名前がpubmedで、 15547852件のデータが含まれており、 2005/05/12 08:26に更新されたということがわかりますね。

さらに下の方には<FieldList>と<LinkList>というタグがあって、 それぞれこのデータベース(pubmed)のフィールドと、 このデータベースからリンクされているデータベースが表示されています。

この情報は後で説明するのESearchやELinkで使用するために必要となってきます。