闻芳, 李衍达
电子学报. 2001, 29(S1): 1735-1739.
随着人类基因组计划(HGP)的完成,生物信息学的研究进入了后基因组时代,用计算方法对基因表达调控和基因功能进行研究成为生物信息学研究的核心内容.由于在真核基因表达调控中的特殊地位,选择性剪接成为研究真核基因表达调控的重要内容之一.本文从收集选择性剪接基因的数据出发,尽可能的收集已知的选择性剪接的基因和它们的各种转录产物,并进行了适当的筛选以保证数据的质量和统计分析的可靠性.对挑选出的371个人类基因,提取各种转录产物的编码区(coding regions,或简称cds),应用一种新的针对选择性剪接的多序列比对程序ASALIGN进行多序列比对来揭示不同cds间的剪接关系,提出其中的可变区域与不可变区域,并对可变区域与不可变区域的长度分布,可变区域在cds中出现的位置,由于选择性剪接引起的同一段序列读码框相位的变化以及可变区域与不可变区域及二者边界上的密码子使用频率进行了统计分析,得到了一些很有意思的结果.这些统计结果对于选择性剪接机制的进一步研究以及选择性剪接基因的预测提供了良好的线索.