FASTQ QC

How to evaluate raw Nanopore sequencing reads before downstream analysis

Note

Public This page explains how to perform and interpret FASTQ-level quality control in Nanopore sequencing before downstream analysis.

Definition

FASTQ QC 指的是在 downstream analysis 之前，先對原始 reads 的基本品質與結構做初步檢查。

對 Nanopore 資料來說，FASTQ QC 通常回答以下問題：

這批 reads 的整體品質如何？
read 數量與總 bases 是否足夠？
read length 分布是否合理？
是否存在明顯異常，導致後續分析結果不可靠？

FASTQ QC 不是最終判讀，但它是進入後續分析前最重要的第一關。

Why it matters

在 Nanopore sequencing workflow 中，如果 FASTQ QC 沒先看清楚，就很容易出現以下問題：

downstream 結果很差，卻不知道是 sample 問題還是分析問題
讀到少量目標訊號時，無法判斷是低 abundance 還是資料本身品質不足
分析花很多時間，但最後發現 run 本身就不適合繼續解讀

FASTQ QC 的價值不在於追求「漂亮數字」，而在於判斷：

這批資料是否足以支撐接下來想做的分析

What to check

FASTQ QC 最常看的幾個核心面向如下。

1. Read count

read count 是最基本的資料量指標之一。

它回答的是：

這批資料總共有多少條 reads？
不同樣本之間 read 數量是否差太多？
是否出現明顯低產出樣本？

實務上，read count 太低時，常會限制：

病原偵測靈敏度
taxonomic classification 穩定性
alignment coverage

但 read count 多，不代表資料一定好，仍需搭配其他指標一起看。

2. Total bases

total bases 代表總共產生了多少鹼基數。

這個值比單純 read count 更能反映實際資料量，因為：

有些 run reads 多，但都很短
有些 run reads 較少，但總 bases 很高

在 Nanopore 中，total bases 通常和後續的資料利用率很有關係，特別是：

sequencing depth
assembly 潛力
target detection sensitivity

3. Read length distribution

Nanopore 的重要特性之一是 long reads，因此 read length 分布很值得看。

可以從這裡判斷：

這批 DNA 是否過度 fragmented
library preparation 是否保留了足夠長的片段
這批資料偏向短 reads 還是長 reads

這一項通常要搭配：

N50
mean read length
median read length
length histogram

一起看會比較有意義。

4. Quality score distribution

quality score（Q score）反映的是 basecalling 品質。

FASTQ QC 中，Q score 常被拿來做快速品質檢查，但不應單獨使用。

在實務上，Q score 的重點不是追求單一高值，而是看：

整體分布是否合理
是否有大量極低品質 reads
不同樣本之間是否差異過大

5. Abnormal patterns

FASTQ QC 也要注意是否有一些「一眼就不對勁」的異常現象，例如：

read 數量異常低
read 長度過短
品質分布明顯偏低
樣本之間落差過大
整批資料與預期完全不符

這些現象未必能直接告訴說明原因，但會提醒：

這批資料不能直接進入後續解讀，而是需要先釐清問題來源

How to interpret

這一段的重點不是單看某一個值，而是整體判斷資料是否「適合的分析目的」。

In practice

在 Nanopore workflow 中，FASTQ QC 的實務解讀通常是這樣：

若目標是 初步 pathogen screening
重點會放在：是否有足夠 usable reads、是否有合理 total bases、品質是否不至於太差
若目標是 reference alignment / validation
重點會放在：Q score、read length、後續 mapping potential
若目標是 assembly / structural analysis
重點會放在：read length distribution、N50、total bases

換句話說：

同一批 FASTQ，在不同分析目的下，QC 判斷標準不一定相同

What to compare with

FASTQ QC 最好至少一起比較這些資訊：

read count
total bases
Q score
read length / N50
NanoPlot 視覺化結果
sequencing depth（若已有 reference）
negative control 或其他樣本表現

如果只看其中一個值，很容易誤判。

例如：

read count 很高，但 reads 都很短
Q score 還可以，但 total bases 太少
N50 很漂亮，但 usable reads 不夠
total bases 很多，但大部分都是 host background

Common pitfalls

Warning

FASTQ QC 最常見的錯誤，不是數值看錯，而是解讀方式太單一。

只看 Q score，不看 read length 與資料量
只看 read count，不看 total bases
只看 summary statistics，不看 distribution
把「數值不漂亮」直接當成資料不能用
把「數值漂亮」直接當成分析一定可靠
不依分析目的調整 QC 觀點

Common tools

FASTQ QC 常用工具包括：

NanoPlot
NanoStat
seqkit
basecalling summary outputs
自訂統計腳本

不同工具用途稍有不同：

NanoPlot：視覺化最完整
NanoStat：快速 summary
seqkit stats：快速查看序列基本統計

Example commands

NanoStat

NanoStat --fastq reads.fastq

NanoPlot

NanoPlot --fastq reads.fastq -o nanoplot_output

seqkit

seqkit stats reads.fastq

Practical QC mindset

FASTQ QC 可以把它想成三個層次：

Layer 1：資料有多少？

read count
total bases

Layer 2：資料長什麼樣？

read length
N50
distribution

Layer 3：資料能不能用？

Q score
abnormal patterns
downstream suitability

真正重要的，不是某一個數字，而是：

這批 reads 是否足以支撐接下來要分析問題

Quick takeaway

Tip

FASTQ QC 是 Nanopore downstream analysis 前的第一層品質檢查。
它不只是看 reads 多不多、Q 值高不高，而是整合 read count、total bases、read length、quality 與分析目的，判斷資料是否足夠可靠。

Definition

Why it matters

What to check

1. Read count

2. Total bases

3. Read length distribution

4. Quality score distribution

5. Abnormal patterns

How to interpret

In practice

What to compare with

Common pitfalls

Common tools

Example commands

NanoStat

NanoPlot

seqkit

Practical QC mindset

Layer 1：資料有多少？

Layer 2：資料長什麼樣？

Layer 3：資料能不能用？

Quick takeaway

Related pages