参考blog:

SEQ 3. pfam数据库的注释及本地分析 (pfam_scan)-CSDN博客

wget ftp://ftp.ebi.ac.uk:21/pub/databases/Pfam/current_release/Pfam-A.hmm.gz
wget ftp://ftp.ebi.ac.uk:21/pub/databases/Pfam/current_release/Pfam-A.hmm.dat.gz
wget ftp://ftp.ebi.ac.uk:21/pub/databases/Pfam/current_release/active_site.dat.gz
gunzip *.gz

对应的最新链接:

Index of /pub/databases/Pfam/current_release

在服务器中下载如上三个数据即可。

hmmer-3.2下载

wget http://eddylab.org/software/hmmer/hmmer-3.2.tar.gz
tar -xzvf  hmmer-3.2.1.tar.gz
cd hmmer-3.2
./configure
make
make check
make install
 
# 添加至环境变量
echo 'export PATH=/usr/local/bin:$PATH' >> ~/.bashrc
source ~/.bashrc
 

下载pfam_scan.pl

#验证,有参数说明即可。
# 确保在 (pfam_scan) 环境下

conda install -c bioconda pfam_scan

pfam_scan.pl -h

如何运行

pfam_scan.pl -fasta ./input_data/6-3_v5/V5-2.pep.fasta -dir ./ -outfile 6-3_v5.xls -as

#-dir后面跟的是pfam_db数据库
#outfile后面跟的是输出结果


输出结果解读

输出结果说明:

(1) seq_id:蛋白序列编号

(2) alignment start:蛋白序列比对的起始位置

(3) alignment end:蛋白序列比对的终止位置

(4) envelope start:蛋白序列结构域的起始位置

(5) envelope end:蛋白序列结构域的终止位置

(6) hmm acc:比对到pfam结构域的ID

(7) hmm name:pfam结构域名称

(8) type:pfam结构域类型

(9) hmm start:比对到结构域的起始位置

(10) hmm end:比对到结构域的终止位置

(11) hmm length:pfam结构域的长度

(12) bit score:比对打分分值

(13) E-value:比对的E值

(14) Significance:比对序列的显著性

(15) Clan:蛋白结构域超级家族名称

(16) predicted_active_site_residues:比对的序列是否位于酶的活性部位

另外也可以直接eggnog本地注释,但是版本可能会比较落后

后续补充更新ing.....

Logo

openEuler 是由开放原子开源基金会孵化的全场景开源操作系统项目,面向数字基础设施四大核心场景(服务器、云计算、边缘计算、嵌入式),全面支持 ARM、x86、RISC-V、loongArch、PowerPC、SW-64 等多样性计算架构

更多推荐