ゲノムデータのファイルの場所について

北陸先端科学技術大学院大学
知識科学研究科 佐藤賢二

JAISTにおけるゲノムネットのデータベース本体は、 /home/bio/db/ideasおよび/home/bio/db/fastaというディ レクトリの下に主に格納されています。前者はテキスト形式のエントリ本体 (bgetなどで得られるエントリ)、後者はホモロジー検索用のFASTA形式の データが収められています。ここでは前者について説明します。

上記ディレクトリの下には、2000年8月現在、以下のディレクトリ群があります。

aaindex        embl-upd       linkdb         pir            refseq-upd
aatdb          enzyme         litdb          pmd            sacchdb
acedb          epd            medline        prf            swissprot
antigen        genbank        omim           prints         swissprot-upd
blocks         genbank-upd    pathway        prodom         transfac
brite          genes          pdb            prosdoc
compound       genome         pdbstr         prosite
embl           ligand         pfam           refseq
一部のディレクトリ(aatdb, acedb, antigen, medline, sacchdb)は obsolete ですので気にしないで下さい。残りのデータベースをかいつまんで 紹介すると、以下のようになります。
aaindex アミノ酸指標データベース(京大化研製)。
blocks 配列の保存領域に関するデータベース(アライメント系)。
brite 分子間相互作用データベース(京大化研製)。
compound LIGANDデータベース(京大化研製)の一部。化合物関係。
embl 核酸配列データベース。
embl-upd embl の更新分。embl + embl-upd で最新の embl になる。
enzyme ligandデータベース(京大化研製)の一部。酵素関係。
epd 真核生物のプロモータ配列のデータベース。
genbank 核酸配列データベース。
genbank-upd genbank の更新分。genbank + genbank-upd で最新の genbank になる。
genes KEGG(京大化研製)の一部。遺伝子カタログデータベース。
genome KEGG(京大化研製)の一部。ゲノムカタログデータベース。
ligand ligand = compound + enzyme。
linkdb これらデータベース間の相互参照(クロスリファレンス)情報データベース。
litdb prf 付随の文献データベース。
omim 遺伝病データベース。
pathway KEGG(京大化研製)の一部。パスウェイマップ(代謝などの反応ネットワーク)データベース。
pdb タンパク質立体構造データベース。
pdbstr pdb から生成した、アミノ酸配列データベース。
pfam タンパク質ファミリー(同種の機能を持つタンパク質群)およびモチーフ(あるファミリーに共通な配列パターン)のデータベース。
pir アミノ酸配列データベース。
pmd タンパク質のミューテーションに関するデータベース。
prf アミノ酸配列データベース。
prints タンパク質のモチーフに関するデータベース。
prodom タンパク質のドメイン(部分領域)に関するデータベース。
prosdoc prosite に付属の文献データベース。
prosite タンパク質のモチーフに関するデータベース。
refseq 代表的な核酸配列に関するデータベース。
refseq-upd refseq の更新分。refseq + refseq-upd で最新の refseq になる。
swissprot アミノ酸配列データベース。
swissprot-upd swissprot の更新分。swissprot + swissprot-upd で最新の swissprot になる。
transfac 転写因子などに関するデータベース。
では、それぞれのデータベース本体(テキストファイル)は、 /home/bio/db/ideas/データベース名の下のどのファイルなのでしょ うか。以下に示します(パスは省略)。
aaindex aaindex1, aaindex2
blocks blocks.dat
brite brite
compound compound
embl *.dat
embl-upd *-cum*
enzyme enzyme
epd epd.blk
genbank *.seq(但し gbcon.seq を除く)
genbank-upd *-cum*
genes a.aeolicus や synechocystis など、拡張子が付いていないもの
genome genome
ligand compound + enzyme
linkdb */*.xl
litdb litdb
omim omim.flat
pathway HTMLとGIFでクリッカブルマップを構成(これだけ特別)
pdb pdb.ent*
pdbstr pdbstr
pfam Pfam-A.full
pir pir*.dat
pmd pmd.dat
prf seqdb
prints prints.dat
prodom prodom
prosdoc ???
prosite prosite.dat
refseq rscu.gbff
refseq-upd *-cum
swissprot seq.dat
swissprot-upd *-cum
transfac {factor,site}.dat
これらのファイル群を自作プログラムで処理することにより、大規模なゲノム データベースを用いた研究やサービスが可能になります。
Kenji SATOU <ken@jaist.ac.jp>
Last Updated:Aug 14 2000
Copyright(C) Kenji SATOU,1998-2000. All rights reserved.