面对海量的生物序列数据,要采用机器学习方法对其进行分析,并从中挖掘分子功能和细胞属性的相关信息,很重要的一个步骤是从这些序列中提起有效的特征,并用数值向量来进行表示,以便多数机器学习算法使用。如何将长度不一的序列表示成维度一致的数值向量,并在这以过程中尽量确保序列信息不丢失以及提取出有用的信息,是一个很重要的问题。过去若干年里,已经有很多相关研究提出了各种不同的算法以及相关软件。然而,每次一个新的算法被发布出来的时候,就必须要开发一个新的软件。这些软件虽然都能正确实现相关算法,但在技术层面上,效率和质量参差不齐。这对于相关算法性能的比较和分析造成了一定的困难。为了解决这一问题,我们提出了UltraPse平台软件。这一平台软件的作用并非是生成各种序列特征,而是为开发序列特征表示算法提供一个基础的通用的高效率的平台,用以简化在实现算法过程中的程序设计与编写工作。通过允许用户对生物序列类型,序列表示算法和理化特性数据进行自定义,UltraPse应该能够在绝大多数的算法实现工作中节省工作量,并大幅度提高计算效率。UltraPse可以在以下GitHub仓库中下载:https://github.com/pufengdu/UltraPse. |