Codon Bias
Object Of The Study
所选样本基因组序列的总体鸟嘌呤胞嘧啶含量(GC)及密码子3位的鸟嘌呤胞嘧啶含量见图3-2。
总体鸟嘌呤、胞嘧啶含量(GC)结果中4型病毒最高,由于鸟嘌呤、胞嘧啶由三个氢键联结,故认为4型病毒的核苷酸结构相对最为稳定。
密码子首位鸟嘌呤胞嘧啶含量(GC1)在4种数据中总为最高,第2位鸟嘌呤胞嘧啶含量(GC2)总为最低,第3位鸟嘌呤胞嘧啶含量(GC3)与总体GC含量较为接近且具备变化趋势大致相同,通过计算得GC3及GC含量呈显著正相关(r=0.807,P=0.01)。登革1型病毒的首位鸟嘌呤胞嘧啶含量相较其它三种最高,最高可达0.58。总体来说,GC3方差最大,变化程度最高,4型病毒的GC3含量明显更高。根据注释范围内的国家时间信息,可知1型病毒中GC1含量随时间推移有比较明显的波幅。中国90年代起跌明显,泰国自80年代GC1含量开始逐渐升高至0.53。2型病毒GC含量波动相对明显,泰国注释左边的马来西亚地区GC及GC3含量明显较高,3型病毒各含量指标较为平稳,中国台湾1988年序列GC3含量较高,4型病毒GC含量相对最高。
Result
4种登革血清型的有效密码子值(ENC)对GC3散点见图3-3。由图可见,4种血清型病毒ENC散点总体来说集中在一起,密码子偏好性和第三位密码子GC含量差异程度在血清型间、东南亚热带亚热带地区不同国家间的对比并不明显,但有细微差别,东南亚地区2型病毒的密码子偏好性水平为49.39±0.32,偏离程度最强,4型病毒密码子偏好性水平为51.04±0.20,偏离程度最弱。所有样本序列的基因组编码区域的ENC值皆低于期望曲线,GC3和ENC值的相关分析显示除碱基含量外,还有其他因素会影响到密码子的偏好性偏离程度。
样本按照年代分类并求出平均以代表该型该年代的状态,整理数据得东南亚登革1至4型病毒编码区同义密码子使用频率计算结果(如表3-2)。其中使用频率为0的密码子共有3个,为编码终止密码子的TAA、TAG和TGA,密码子出现率明显大于期望值出现率(RSCU值高于1.50,均值加标准差等于1.50)的氨基酸有精氨酸、甘氨酸、脯氨酸、丝氨酸、苏氨酸、缬氨酸(Arg、Gly、Pro、Ser、Thr、Val),密码子分别为AGA、GCA、CCA、TCA、ACA、GTG,第三位核苷酸多为A,64个密码子中RSCU值大于1.00的密码子1型病毒有23个,2型病毒26个,3型病毒24个,4型病毒25个。各型病毒密码子相对使用频率略有不同,如编码酪氨酸(Tyr)的密码子1型病毒更偏好使用TAT密码子,2至4型则更偏好于TAC,2型病毒密码子偏好编码丙氨酸(Ala)的密码子GCA的倾向明显,编码精氨酸(Arg)3、4型病毒相较其他两型明显更偏好ACG密码子。各型病毒中RSCU值会随时间产生小幅波动,1型病毒编码丝氨酸(Ser)的TCC密码子自80年代后偏好性小幅提升,超于1.00,出现率大于期望值出现率,2型病毒编码亮氨酸(Leu)的CTC密码子则相反,自60年代后,RSCU降低于1.00以下,3型病毒编码该段的密码子亦具有相同特征。