如何對二代測序資料進行質量分析？

Question

其他

如何對二代測序資料進行質量分析？

從事生物資訊學分析的學生和工作人員都會接觸到二代測序資料，我們從測序公司拿到所需要的資料之後，首先最關心的問題就是測序資料的質量好不好，本文介紹一下如何對二代測序資料進行質量分析(QC)

工具/原料

linux系統：ubuntu 或者服務

fastqc

方法/步驟

1

安裝fastqc

注意將fastqc加入到系統環境變數中，以便於在終端或命令列中直接執行

具體安裝方法參考fastqc官方手冊

2

在命令列中直接執行命令

fastqc [-o output dir] [--(no)extract] [-f fastq|bam|sam] [-c contaminant file]

output dir指的是輸出結果路徑

extract引數指的`是輸出結果是否解壓

-f 引數是輸入檔案的格式，指的是測序資料

3

執行fastqc：

fastqc seqfile1.fq seqfile2.fq

4

輸出結果：在output dir目錄下的一個壓縮檔案(未壓縮)

通常我們只需關注如下幾個結果

1 每個位置的鹼基測序質量。通常我們一般認為從第二個鹼基開始，平均每個鹼基的測序質量boxplot下四分位線在30分以上，則認為測序質量非常好

5

2.每條序列的測序質量一般認為90%的reads測序質量在35分以上，則認為該測序質量非常好

6

3. ATCG鹼基在各個位置上的分佈一般來說，AT含量高於CG含量，AT含量約28%，CG含量約22%。由於測序問題，通常第一二位置的鹼基測序質量比較低，ATCG含量也不正常。這種情況不影響資料質量，如果實在介意，可在後續bowtie mapping的時候將前兩個鹼基去掉

Answer 1