EInfoの使い方
というわけで、NCBIのE-Utilitiesの使い方。まずはEInfoというツールについて。
ところで、E-Utilitesでできる事はNCBIのサイトのEntrezで全部できるので、 それで不便していない人はE-Utilitiesを使う利点はなさそうです。
何故このE-UtilitesというツールをNCBIが公開しているのかというと、 Entrezデータベースの機能をプログラムから簡単に使えるようにするため、 ということになります。
Entrezで公開されているデータを大量に処理したい場合や、 自動的に毎日チェックしたいという場合はこのE-Utilitesを使う意味があるでしょう。
- EInfo
- eUtilsで使用できる各データベースのフィールドやデータ数、 最新更新日などを知ることができる。
Reference Documentationを眺めてみると、 まず最初にツールのhttp://eutils.ncbi.nlm.nih.gov/entrez/eutils/einfo.fcgi?というベースURLが出てきます。
このベースURLにいくつかのパラメータを加えてやることで、 欲しい情報が手に入るという寸法です。
ちなみにEInfoの場合、このベースURLでEntrezデータベースのリストが返ってくるようです。
<eInfoResult> <DbList> <DbName>pubmed</DbName> <DbName>protein</DbName> <DbName>nucleotide</DbName> <DbName>structure</DbName> <DbName>genome</DbName> <DbName>books</DbName> <DbName>cancerchromosomes</DbName> <DbName>cdd</DbName> <DbName>domains</DbName> <DbName>gene</DbName> <DbName>genomeprj</DbName> <DbName>gensat</DbName> <DbName>geo</DbName> <DbName>gds</DbName> <DbName>homologene</DbName> <DbName>journals</DbName> <DbName>mesh</DbName> <DbName>ncbisearch</DbName> <DbName>nlmcatalog</DbName> <DbName>omim</DbName> <DbName>pmc</DbName> <DbName>popset</DbName> <DbName>probe</DbName> <DbName>pcassay</DbName> <DbName>pccompound</DbName> <DbName>pcsubstance</DbName> <DbName>snp</DbName> <DbName>taxonomy</DbName> <DbName>unigene</DbName> <DbName>unists</DbName> </DbList> </eInfoResult>
なんか色々データベースが、、、 Entrezってこんなにたくさんデータベースがあったんですね。
聞いたことがあるデータベースなんてほんの一部です。 これらのデータベースにはどのような情報が含まれていて、 どのくらいのデータがあるのでしょう??
そこでこのEInfoの出番です。 冒頭にも書きましたがEInfoは「eUtilsで使用できる各データベースのフィールドやデータ数、最新更新日などを知ることができる。」ツールなのです!
さっそく見慣れたPubmedについてEInfoで調べてみましょう。
http://eutils.ncbi.nlm.nih.gov/entrez/eutils/einfo.fcgi?db=pubmed
先ほどのベースURLにdb=pubmed
とつけました。
これがEInfoから情報を取ってくるためのパラメータとなります。
<DbName>pubmed</DbName> <MenuName>PubMed</MenuName> <Description>PubMed bibliographic record</Description> <Count>15547852</Count> <LastUpdate>2005/05/12 08:26</LastUpdate>
データはすべてXMLで表示されます。 XMLは機械でもデータを処理しやすいようにするためのファイルフォーマットなのですが、 人間でも理解できるように書かれています。 例えばこの場合は、調べたデータベースの名前がpubmedで、 15547852件のデータが含まれており、 2005/05/12 08:26に更新されたということがわかりますね。
さらに下の方には<FieldList>と<LinkList>というタグがあって、 それぞれこのデータベース(pubmed)のフィールドと、 このデータベースからリンクされているデータベースが表示されています。
この情報は後で説明するのESearchやELinkで使用するために必要となってきます。