JAISTにおけるゲノムネットのデータベース本体は、 /home/bio/db/ideasおよび/home/bio/db/fastaというディ レクトリの下に主に格納されています。前者はテキスト形式のエントリ本体 (bgetなどで得られるエントリ)、後者はホモロジー検索用のFASTA形式の データが収められています。ここでは前者について説明します。
上記ディレクトリの下には、2000年8月現在、以下のディレクトリ群があります。
一部のディレクトリ(aatdb, acedb, antigen, medline, sacchdb)は obsolete ですので気にしないで下さい。残りのデータベースをかいつまんで 紹介すると、以下のようになります。aaindex embl-upd linkdb pir refseq-upd aatdb enzyme litdb pmd sacchdb acedb epd medline prf swissprot antigen genbank omim prints swissprot-upd blocks genbank-upd pathway prodom transfac brite genes pdb prosdoc compound genome pdbstr prosite embl ligand pfam refseq
では、それぞれのデータベース本体(テキストファイル)は、 /home/bio/db/ideas/データベース名の下のどのファイルなのでしょ うか。以下に示します(パスは省略)。
aaindex アミノ酸指標データベース(京大化研製)。 blocks 配列の保存領域に関するデータベース(アライメント系)。 brite 分子間相互作用データベース(京大化研製)。 compound LIGANDデータベース(京大化研製)の一部。化合物関係。 embl 核酸配列データベース。 embl-upd embl の更新分。embl + embl-upd で最新の embl になる。 enzyme ligandデータベース(京大化研製)の一部。酵素関係。 epd 真核生物のプロモータ配列のデータベース。 genbank 核酸配列データベース。 genbank-upd genbank の更新分。genbank + genbank-upd で最新の genbank になる。 genes KEGG(京大化研製)の一部。遺伝子カタログデータベース。 genome KEGG(京大化研製)の一部。ゲノムカタログデータベース。 ligand ligand = compound + enzyme。 linkdb これらデータベース間の相互参照(クロスリファレンス)情報データベース。 litdb prf 付随の文献データベース。 omim 遺伝病データベース。 pathway KEGG(京大化研製)の一部。パスウェイマップ(代謝などの反応ネットワーク)データベース。 pdb タンパク質立体構造データベース。 pdbstr pdb から生成した、アミノ酸配列データベース。 pfam タンパク質ファミリー(同種の機能を持つタンパク質群)およびモチーフ(あるファミリーに共通な配列パターン)のデータベース。 pir アミノ酸配列データベース。 pmd タンパク質のミューテーションに関するデータベース。 prf アミノ酸配列データベース。 prints タンパク質のモチーフに関するデータベース。 prodom タンパク質のドメイン(部分領域)に関するデータベース。 prosdoc prosite に付属の文献データベース。 prosite タンパク質のモチーフに関するデータベース。 refseq 代表的な核酸配列に関するデータベース。 refseq-upd refseq の更新分。refseq + refseq-upd で最新の refseq になる。 swissprot アミノ酸配列データベース。 swissprot-upd swissprot の更新分。swissprot + swissprot-upd で最新の swissprot になる。 transfac 転写因子などに関するデータベース。
これらのファイル群を自作プログラムで処理することにより、大規模なゲノム データベースを用いた研究やサービスが可能になります。
aaindex aaindex1, aaindex2 blocks blocks.dat brite brite compound compound embl *.dat embl-upd *-cum* enzyme enzyme epd epd.blk genbank *.seq(但し gbcon.seq を除く) genbank-upd *-cum* genes a.aeolicus や synechocystis など、拡張子が付いていないもの genome genome ligand compound + enzyme linkdb */*.xl litdb litdb omim omim.flat pathway HTMLとGIFでクリッカブルマップを構成(これだけ特別) pdb pdb.ent* pdbstr pdbstr pfam Pfam-A.full pir pir*.dat pmd pmd.dat prf seqdb prints prints.dat prodom prodom prosdoc ??? prosite prosite.dat refseq rscu.gbff refseq-upd *-cum swissprot seq.dat swissprot-upd *-cum transfac {factor,site}.dat