《基于k词的生物序列分析与预测的模型研究及应用》

书名：《基于k词的生物序列分析与预测的模型研究及应用》

CIP：2019086724

出版地：北京

出版时间：2019.5

出版价格：30元

本书以k词为研究对象，提出了一些DNA序列分析的非比对模型，主要成果有：（1）建立了DNA序列的一个新的几何图形表示模型。此模型是以有序的双核苷酸（2词）为研究对象，将一条DNA序列映射成一条3D曲线。运用此模型对DNA序列进行了突变分析，相似性分析和进化分析。在相似性分析和进化分析中，提出了一种简单有效的新的数值刻画量表征DNA序列，通过重构11个物种的进化树以及跟其它方法的比较，此模型蕴含着更为丰富的生物信息。此模型是对已有的几何图形表示模型的一种有效的补充。（2）将伪氨基酸方法的思想推广到DNA序列分析中，构建了一个新的模型。此模型仍然是以双核苷酸为研究对象，将伪氨基酸中20个氨基酸的频率换为16个双核苷酸的频率，并从16个双核苷酸中挑选了8个重要的双核苷酸，将它们的逻辑序列的复杂度作为组成成分构建了一个24维的特征向量。用欧式距离度量得到相似性矩阵，并用PHYLIP软件重新构建两组实验数据的进化树来说明此模型的有效性。（3）构建了DNA序列的一个概率模型。对DNA序列中的词定义了一个新的概率分布，此概率分布不仅考虑了词频率同时考虑了其位置信息。