在獲得一個基因序列后,需要對其進行生物信息學分析,從中盡量發掘信息,從而指導進一步的實驗研究。通過染色體定位分析、內含子/外顯子分析、ORF分析、表達譜分析等,能夠闡明基因的基本信息。通過啟動子預測、CpG島分析和轉錄因子分析等,識別調控區的順式作用元件,可以為基因的調控研究提供基礎。通過蛋白質基本性質分析,疏水性分析,跨膜區預測,信號肽預測,亞細胞定位預測,抗原性位點預測,可以對基因編碼蛋白的性質作出初步判斷和預測。尤其通過疏水性分析和跨膜區預測可以預測基因是否為膜蛋白,這對確定實驗研究方向有重要的參考意義。此外,通過相似性搜索、功能位點分析、結構分析、查詢基因表達譜聚簇數據庫、基因敲除數據庫、基因組上下游鄰居等,盡量挖掘網絡數據庫中的信息,可以對基因功能作出推論。上述技術路線可為其它類似分子的生物信息學分析提供借鑒
下面介紹其中一些基本分析。值得注意的是,在對序列進行分析時,首先應當明確序列的性質,是mRNA序列還是基因組序列?是計算機拼接得到還是經過PCR 擴增測序得到?是原核生物還是真核生物?這些決定了分析方法的選擇和分析結果的解釋。
(一)核酸序列分析
1、雙序列比對(pairwise alignment)
雙序列比對是指比較兩條序列的相似性和尋找相似堿基及氨基酸的對應位置,它是用計算機進行序列分析的強大工具,分為全局比對和局部比對兩類,各以
Needleman-Wunsch算法和Smith-Waterman算法為代表。由于這些算法都是啟發式(heuristic)的算法,因此并沒有最優值。根據比對的需要,選用適當的比對工具,在比對時適當調整空格罰分(gap
penalty)和空格延伸罰分(gap extension penalty),以獲得更優的比對。
除了利用BLAST、FASTA等局部比對工具進行序列對數據庫的搜索外,我們還推薦使用EMBOSS軟件包中的Needle軟件(http://bioinfo.pbi.nrc.ca:8090/EMBOSS/),和Pairwise BLAST
(http://www.ncbi.nlm.nih.gov/BLAST/)。以上介紹的這些雙序列比對工具的使用都比較簡單,一般輸入所比較的序列即可。
(1)BLAST和FASTA
FASTA(http://www.ebi.ac.uk/fasta33/)和BLAST(http://www.ncbi.nlm.nih.gov
/BLAST/)是目前運用較為廣泛的相似性搜索工具。這兩個工具都采用局部比對的方法,選擇計分矩陣對序列計分,通過分值的大小和統計學顯著性分析確定有意義的局部比對。使用FASTA和BLAST,進行數據庫搜索,找到與查詢序列有一定相似性的序列。一般認為,如果蛋白的序列一致性為25-30%,則可認為序列同源。BLAST根據搜索序列和數據庫的不同類型分為5種(表2),另外PSI-BLAST通過迭代搜索,可以搜索到與查詢序列相似性較低的序列。其中BLASTN、BLASTP在實踐中最為常用,TBLASTN在搜索相似序列進行新基因預測時特別有用。
使用BLAST時,先選擇需要使用的BLAST程序,然后提供相應的查詢序列,選擇所比對的數據庫即可。
(2)Needle和Pairwise BLAST:其中Needle適用于蛋白質和DNA序列,而Pairwise BLAST僅適用于DNA序列
(3)相似性和同源性:必須指出,相似性(similarity)和同源性(
homology)是兩個完全不同的概念。同源序列是指從某一共同祖先經過趨異進化而形成的不同序列。相似性是指序列比對過程中檢測序列和目標序列之間相同堿基或氨基酸殘基序列所占比例的大小。經過比對,當相似性高于一定程度,可以推測序列可能是同源序列,具有一定同源性。
2、多序列比對和進化樹
在研究生物問題時,常常需要同時對兩個以上的序列進行比對,這就是多序列比對。多序列比對可用于研究一組相關基因或蛋白,推斷基因的進化關系,還可用于發現一組功能或結構相關基因之間的共有模式(pattern)。最常用的多序列比對工具為ClustalW(http://www.ebi.ac.uk /clustalw/),多用于比較蛋白序列。
ClustalW用法:
(1)輸入:序列以FastA格式輸入。