剪切因子是转录模板上游基因编码的一类蛋白调节因子, 它们在调控选择性剪切接中起着重要作用。在人类基因组中,很多剪切因子调控基因表达的作用尚不清楚。由于通过实验方法确定剪切因子活性是昂贵和耗时的, 因此需开发一种有效的计算方法来从蛋白质序列预测剪切因子的活性。虽然机器学习已经在蛋白分类,结构预测等方面有广泛的应用,但是在预测剪切因子活性上的研究寥寥无几。
近日,深圳大学高等研究院李文金团队,利用机器学习方法探索了理化性质和结构信息在预测剪切因子活性中的作用。通过结合最小冗余-最大相关算法和向前搜索算法来筛选特征,该研究得到一个包含16个双氨基酸特征、5个理化性质特征和3个结构信息特征的特征子集,该特征子集可以准确地预测剪切因子的活性。进一步分析表明理化性质和结构信息对预测剪切因子的活性是非常重要的,疏水性和卷曲螺旋的分布分别是关键的理化性质特征和结构信息特征。
该研究成果以“Roles of Physicochemical and Structural Properties of RNA-Binding Proteins in Predicting the Activities of Trans-Acting Splicing Factors with Machine Learning”为题发表在《IJMS》(中科院二区;IF 5.923)。 深圳大学2020级研究生朱琳为论文的一作,李文金研究员为论文的通讯作者。该工作得到广东省自然科学基金(2020A1515010984)等项目的资助。
文章链接:
https://www.mdpi.com/1422-0067/23/8/4426