Location of Genome Database Files

ゲノムデータのファイルの場所について

北陸先端科学技術大学院大学
知識科学研究科佐藤賢二

JAISTにおけるゲノムネットのデータベース本体は、 /home/bio/db/ideasおよび/home/bio/db/fastaというディレクトリの下に主に格納されています。前者はテキスト形式のエントリ本体（bgetなどで得られるエントリ）、後者はホモロジー検索用のFASTA形式のデータが収められています。ここでは前者について説明します。

上記ディレクトリの下には、2000年8月現在、以下のディレクトリ群があります。

aaindex        embl-upd       linkdb         pir            refseq-upd
aatdb          enzyme         litdb          pmd            sacchdb
acedb          epd            medline        prf            swissprot
antigen        genbank        omim           prints         swissprot-upd
blocks         genbank-upd    pathway        prodom         transfac
brite          genes          pdb            prosdoc
compound       genome         pdbstr         prosite
embl           ligand         pfam           refseq

一部のディレクトリ（aatdb, acedb, antigen, medline, sacchdb）は obsolete ですので気にしないで下さい。残りのデータベースをかいつまんで紹介すると、以下のようになります。

aaindex アミノ酸指標データベース（京大化研製）。

blocks 配列の保存領域に関するデータベース（アライメント系）。

brite 分子間相互作用データベース（京大化研製）。

compound LIGANDデータベース（京大化研製）の一部。化合物関係。

embl 核酸配列データベース。

embl-upd embl の更新分。embl + embl-upd で最新の embl になる。

enzyme ligandデータベース（京大化研製）の一部。酵素関係。

epd 真核生物のプロモータ配列のデータベース。

genbank 核酸配列データベース。

genbank-upd genbank の更新分。genbank + genbank-upd で最新の genbank になる。

genes KEGG（京大化研製）の一部。遺伝子カタログデータベース。

genome KEGG（京大化研製）の一部。ゲノムカタログデータベース。

ligand ligand = compound + enzyme。

linkdb これらデータベース間の相互参照（クロスリファレンス）情報データベース。

litdb prf 付随の文献データベース。

omim 遺伝病データベース。

pathway KEGG（京大化研製）の一部。パスウェイマップ（代謝などの反応ネットワーク）データベース。

pdb タンパク質立体構造データベース。

pdbstr pdb から生成した、アミノ酸配列データベース。

pfam タンパク質ファミリー（同種の機能を持つタンパク質群）およびモチーフ（あるファミリーに共通な配列パターン）のデータベース。

pir アミノ酸配列データベース。

pmd タンパク質のミューテーションに関するデータベース。

prf アミノ酸配列データベース。

prints タンパク質のモチーフに関するデータベース。

prodom タンパク質のドメイン（部分領域）に関するデータベース。

prosdoc prosite に付属の文献データベース。

prosite タンパク質のモチーフに関するデータベース。

refseq 代表的な核酸配列に関するデータベース。

refseq-upd refseq の更新分。refseq + refseq-upd で最新の refseq になる。

swissprot アミノ酸配列データベース。

swissprot-upd swissprot の更新分。swissprot + swissprot-upd で最新の swissprot になる。

transfac 転写因子などに関するデータベース。

では、それぞれのデータベース本体（テキストファイル）は、 /home/bio/db/ideas/データベース名の下のどのファイルなのでしょうか。以下に示します（パスは省略）。

aaindex aaindex1, aaindex2

blocks blocks.dat

brite brite

compound compound

embl *.dat

embl-upd *-cum*

enzyme enzyme

epd epd.blk

genbank *.seq（但し gbcon.seq を除く）

genbank-upd *-cum*

genes a.aeolicus や synechocystis など、拡張子が付いていないもの

genome genome

ligand compound + enzyme

linkdb */*.xl

litdb litdb

omim omim.flat

pathway HTMLとGIFでクリッカブルマップを構成（これだけ特別）

pdb pdb.ent*

pdbstr pdbstr

pfam Pfam-A.full

pir pir*.dat

pmd pmd.dat

prf seqdb

prints prints.dat

prodom prodom

prosdoc ???

prosite prosite.dat

refseq rscu.gbff

refseq-upd *-cum

swissprot seq.dat

swissprot-upd *-cum

transfac {factor,site}.dat

これらのファイル群を自作プログラムで処理することにより、大規模なゲノムデータベースを用いた研究やサービスが可能になります。

aaindex	アミノ酸指標データベース（京大化研製）。
blocks	配列の保存領域に関するデータベース（アライメント系）。
brite	分子間相互作用データベース（京大化研製）。
compound	LIGANDデータベース（京大化研製）の一部。化合物関係。
embl	核酸配列データベース。
embl-upd	embl の更新分。embl + embl-upd で最新の embl になる。
enzyme	ligandデータベース（京大化研製）の一部。酵素関係。
epd	真核生物のプロモータ配列のデータベース。
genbank	核酸配列データベース。
genbank-upd	genbank の更新分。genbank + genbank-upd で最新の genbank になる。
genes	KEGG（京大化研製）の一部。遺伝子カタログデータベース。
genome	KEGG（京大化研製）の一部。ゲノムカタログデータベース。
ligand	ligand = compound + enzyme。
linkdb	これらデータベース間の相互参照（クロスリファレンス）情報データベース。
litdb	prf 付随の文献データベース。
omim	遺伝病データベース。
pathway	KEGG（京大化研製）の一部。パスウェイマップ（代謝などの反応ネットワーク）データベース。
pdb	タンパク質立体構造データベース。
pdbstr	pdb から生成した、アミノ酸配列データベース。
pfam	タンパク質ファミリー（同種の機能を持つタンパク質群）およびモチーフ（あるファミリーに共通な配列パターン）のデータベース。
pir	アミノ酸配列データベース。
pmd	タンパク質のミューテーションに関するデータベース。
prf	アミノ酸配列データベース。
prints	タンパク質のモチーフに関するデータベース。
prodom	タンパク質のドメイン（部分領域）に関するデータベース。
prosdoc	prosite に付属の文献データベース。
prosite	タンパク質のモチーフに関するデータベース。
refseq	代表的な核酸配列に関するデータベース。
refseq-upd	refseq の更新分。refseq + refseq-upd で最新の refseq になる。
swissprot	アミノ酸配列データベース。
swissprot-upd	swissprot の更新分。swissprot + swissprot-upd で最新の swissprot になる。
transfac	転写因子などに関するデータベース。

aaindex	aaindex1, aaindex2
blocks	blocks.dat
brite	brite
compound	compound
embl	*.dat
embl-upd	-cum
enzyme	enzyme
epd	epd.blk
genbank	*.seq（但し gbcon.seq を除く）
genbank-upd	-cum
genes	a.aeolicus や synechocystis など、拡張子が付いていないもの
genome	genome
ligand	compound + enzyme
linkdb	/.xl
litdb	litdb
omim	omim.flat
pathway	HTMLとGIFでクリッカブルマップを構成（これだけ特別）
pdb	pdb.ent*
pdbstr	pdbstr
pfam	Pfam-A.full
pir	pir*.dat
pmd	pmd.dat
prf	seqdb
prints	prints.dat
prodom	prodom
prosdoc	???
prosite	prosite.dat
refseq	rscu.gbff
refseq-upd	*-cum
swissprot	seq.dat
swissprot-upd	*-cum
transfac	{factor,site}.dat

ゲノムデータのファイルの場所について

北陸先端科学技術大学院大学 知識科学研究科 佐藤賢二

北陸先端科学技術大学院大学
知識科学研究科佐藤賢二