pfam结构域批量注释方法总结
在服务器中下载如上三个数据即可。
·
参考blog:
SEQ 3. pfam数据库的注释及本地分析 (pfam_scan)-CSDN博客
wget ftp://ftp.ebi.ac.uk:21/pub/databases/Pfam/current_release/Pfam-A.hmm.gz
wget ftp://ftp.ebi.ac.uk:21/pub/databases/Pfam/current_release/Pfam-A.hmm.dat.gz
wget ftp://ftp.ebi.ac.uk:21/pub/databases/Pfam/current_release/active_site.dat.gz
gunzip *.gz
对应的最新链接:
Index of /pub/databases/Pfam/current_release
在服务器中下载如上三个数据即可。
hmmer-3.2下载
wget http://eddylab.org/software/hmmer/hmmer-3.2.tar.gz
tar -xzvf hmmer-3.2.1.tar.gz
cd hmmer-3.2
./configure
make
make check
make install
# 添加至环境变量
echo 'export PATH=/usr/local/bin:$PATH' >> ~/.bashrc
source ~/.bashrc
下载pfam_scan.pl
#验证,有参数说明即可。
# 确保在 (pfam_scan) 环境下
conda install -c bioconda pfam_scan
pfam_scan.pl -h
如何运行
pfam_scan.pl -fasta ./input_data/6-3_v5/V5-2.pep.fasta -dir ./ -outfile 6-3_v5.xls -as
#-dir后面跟的是pfam_db数据库
#outfile后面跟的是输出结果
输出结果解读
输出结果说明:
(1) seq_id:蛋白序列编号
(2) alignment start:蛋白序列比对的起始位置
(3) alignment end:蛋白序列比对的终止位置
(4) envelope start:蛋白序列结构域的起始位置
(5) envelope end:蛋白序列结构域的终止位置
(6) hmm acc:比对到pfam结构域的ID
(7) hmm name:pfam结构域名称
(8) type:pfam结构域类型
(9) hmm start:比对到结构域的起始位置
(10) hmm end:比对到结构域的终止位置
(11) hmm length:pfam结构域的长度
(12) bit score:比对打分分值
(13) E-value:比对的E值
(14) Significance:比对序列的显著性
(15) Clan:蛋白结构域超级家族名称
(16) predicted_active_site_residues:比对的序列是否位于酶的活性部位
另外也可以直接eggnog本地注释,但是版本可能会比较落后
后续补充更新ing.....
openEuler 是由开放原子开源基金会孵化的全场景开源操作系统项目,面向数字基础设施四大核心场景(服务器、云计算、边缘计算、嵌入式),全面支持 ARM、x86、RISC-V、loongArch、PowerPC、SW-64 等多样性计算架构
更多推荐



所有评论(0)