如何使用Orthomcl查找同源基因(OrthoMCL,开发技术)

如何使用Orthomcl查找同源基因

导读：本文共4389.5字符，通常情况下阅读需要15分钟。同时您也可以点击右侧朗读，来听本文内容。按键盘←（左） →（右）方向键可以翻页。

摘要： OrthoMCL介绍OrthoMCL (http://orthomcl.org/orthomcl/) （v2.0版本）是现在用的最多的一款来找直系同源基因（Orthologs）以及旁系同源基因 (Paralog) 的软件。根据官网的教程需要十多步来完成整个运行流程，但是绝大部分的工作都有代码可以用，按照他的步骤来，还是很省心的。话不多数，接下来就以蛋白质序列为例... ...

音频解说

使用orthomclFilterFasta命令对compliantFasta文件夹下的序列进行过滤，orthomcl的推荐规则是允许protein序列最短长度为10，stop coden占的最大比例为20%，命令会在my_orthomcl_dir目录下产生goodProteins.fasta和poorProteins.fasta，goodProteins.fasta文件中包含所有comliantFasta文件夹下经过筛选的物种蛋白组。

（4）blast比对

用goodProteins.fasta建库，并与自身比对。由于数据量较大，比对时间可能会比较长，一两天都是正常的，小伙伴们请耐心等待！

（5）处理blast产生的结果

#使用orthomclBlastParser命令引入compliantFasta文件夹下文件，生成similarSequences.txt文件，找出相似性序列，输出文件从第1列到第8列分别是：query_id, subject_id, query_taxon, subject_taxon, evalue_mant, evalue_exp, percent_ident, percent_match。

（6）相似性序列载入mysql数据库

（7）寻找成对蛋白质

（8）将数据从mysql数据库中导出

此命令会在my_orthomcl_dir下生成一个mclInput文件和一个pairs文件夹，pairs文件夹下包含coorthologs.txt和inparalogs.txt和orthologs.txt三个文件。

（6）（7）（8）三步是对数据库的操作，不懂没关系，照做就可以了。

（9）使用mcl对pairs进行聚类

（10）提取mcl的结果，生成group.txt文件

至此orthomcl程序运行完毕，产生的groups.txt即为即为最终结果文件，可对其进行各种数据操作，例如提取单拷贝的直系同源基因，只需要判断同源组中包含研究的所有物种，且每个物种都只有一个基因，这样的就是一组单拷贝的直系同源基因啦。

本文：如何使用Orthomcl查找同源基因的详细内容，希望对您有所帮助，信息来源于网络。

如何使用Orthomcl查找同源基因(OrthoMCL,开发技术)

目录

6 人围观 / 0 条评论 ↓快速评论↓

搜索

最新文章

猜你喜欢

特价优惠

标签

流量统计