Trimming dengan Cutadapt
Setelah QC dengan FastQC, langkah berikutnya adalah trimming adaptor dan primer dengan Cutadapt.
Tujuannya untuk membuang sekuens adaptor atau primer yang masih menempel agar analisis downstream (misalnya DADA2) lebih akurat.
๐ Dokumentasi resmi: Cutadapt Manual (opens in a new tab)
1. Adaptor vs Primer
-
Adaptor
Potongan sekuens buatan (biasanya 10โ30 bp) yang ditambahkan oleh platform sequencing (misalnya Illumina) ke ujung DNA.
Adaptor berfungsi sebagai:- Titik awal mesin sequencer untuk membaca DNA (flow cell binding).
- Indeks/barcode untuk identifikasi sampel multiplex.
Adaptor ini selalu teknis, tidak berasal dari organisme.
-
Primer
Potongan oligonukleotida (biasanya 18โ25 bp) yang digunakan saat PCR untuk mengamplifikasi region target tertentu.
Contoh pada studi mikrobioma: primer 341F/805R untuk region V3โV4 gen 16S rRNA.
Primer bisa tetap tertinggal di ujung reads jika tidak dipotong, sehingga bisa mengganggu analisis downstream (misalnya klasifikasi taksonomi).
Perbedaan utama: - Adaptor โ berasal dari proses library preparation & sequencing. - Primer โ berasal dari PCR untuk memperbanyak region target. Pada data amplicon (16S/ITS), trimming primer adalah langkah penting, sedangkan adaptor kadang tidak selalu terlihat pada laporan FastQC.
2. Identifikasi keberadaan Adaptor/Primer
Sebelum trimming, kita bisa lihat beberapa baris awal FASTQ.
a) Linux / macOS
Gunakan perintah berikut:
zcat ATCCMiSeq2x300R1_S1_L001_R1_001.fastq.gz | head -20Perintah ini akan menampilkan 20 baris pertama dari file FASTQ. Dari sini kita bisa cek apakah ada sekuens adaptor atau primer di ujung reads.
b) Windows
Di Windows tidak ada zcat atau head bawaan. Ada dua opsi:
-
Jika pakai WSL (Windows Subsystem for Linux):
Instalasi WSL bisa mengikuti panduan resmi Microsoft:
๐ Install WSL on Windows (opens in a new tab)Setelah WSL terpasang, jalankan perintah yang sama seperti di Linux:
zcat ATCCMiSeq2x300R1_S1_L001_R1_001.fastq.gz | head -20 -
Jika tanpa WSL:
- Gunakan Notepad++ untuk membuka file FASTQ (meski ukurannya besar).
- Atau ekstrak file
.gzdengan 7-Zip, lalu buka file.fastqdengan text editor. - Lihat beberapa baris pertama untuk mengecek apakah ada sekuens adaptor atau primer.
Mengecek isi awal FASTQ penting untuk memastikan apakah primer (misalnya 341F, 805R) masih menempel.
3. Primer Umum untuk Amplicon 16S
Beberapa primer yang sering digunakan:
- 341F:
CCTACGGGNGGCWGCAG - 805R:
GACTACHVGGGTATCTAATCC - 515F:
GTGCCAGCMGCCGCGGTAA - 806R:
GGACTACHVGGGTWTCTAAT
Jika sekuens ini terlihat di awal reads, berarti perlu trimming primer.
4. Menjalankan Cutadapt
a) Linux / macOS
cutadapt -j 0 --report=full -g CCTACGGGNGGCWGCAG -G GACTACHVGGGTATCTAATCC -q 20 -m 100 -o MSA1002-50-MiSeqi100-2x300-241007_S50_L001_R1_001.trim.fastq.gz -p MSA1002-50-MiSeqi100-2x300-241007_S50_L001_R2_001.trim.fastq.gz MSA1002-50-MiSeqi100-2x300-241007_S50_L001_R1_001.fastq.gz MSA1002-50-MiSeqi100-2x300-241007_S50_L001_R2_001.fastq.gzb) Windows
Gunakan py -m cutadapt:
py -m cutadapt -j 0 --report=full -g ^CCTACGGGNGGCWGCAG -G ^GACTACHVGGGTATCTAATCC -q 20 -m 100 -o MSA1002-50-MiSeqi100-2x300-241007_S50_L001_R1_001.trim.fastq.gz -p MSA1002-50-MiSeqi100-2x300-241007_S50_L001_R2_001.trim.fastq.gz MSA1002-50-MiSeqi100-2x300-241007_S50_L001_R1_001.fastq.gz MSA1002-50-MiSeqi100-2x300-241007_S50_L001_R2_001.fastq.gzKeterangan opsi:
-j 0โ gunakan semua core CPU untuk mempercepat proses.--report=fullโ hasil laporan trimming ditampilkan lengkap (detail jumlah reads, panjang, distribusi).-gโ sekuens primer/adaptor forward yang ingin dipotong dari Read 1.-Gโ sekuens primer/adaptor reverse yang ingin dipotong dari Read 2.-q 20โ potong ujung reads dengan kualitas di bawah Phred Q20 (sekitar akurasi 99%).-m 100โ buang reads yang panjang akhirnya < 100 bp setelah trimming.-oโ nama file output hasil trimming untuk Read 1.-pโ nama file output hasil trimming untuk Read 2.
5. Contoh Interpretasi Output
Jika berhasil, Cutadapt akan menampilkan ringkasan seperti ini:
=== Summary ===
Total read pairs processed: 366,282
Read 1 with adapter: 365,326 (99.7%)
Read 2 with adapter: 365,162 (99.7%)
== Read fate breakdown ==
Pairs that were too short: 208 (0.1%)
Pairs written (passing filters): 366,074 (99.9%)
Total basepairs processed: 220,016,303 bp
Read 1: 110,147,225 bp
Read 2: 109,869,078 bp
Quality-trimmed: 111,144 bp (0.1%)
Total written (filtered): 205,955,432 bp (93.6%)
Read 1: 103,822,221 bp
Read 2: 102,133,211 bp
=== First read: Adapter 1 ===
Sequence: CCTACGGGNGGCWGCAG; Length: 17; Trimmed: 365,326 timesInterpretasi:
- Hampir semua reads (99.7%) mengandung primer/adaptor yang berhasil dipotong.
- Hanya 0.1% reads terlalu pendek setelah trimming.
- 93.6% total base pairs berhasil dipertahankan โ artinya kualitas data sangat baik.
Setelah trimming, file hasil (sample_trim_R1.fastq.gz dan
sample_trim_R2.fastq.gz) siap dipakai untuk analisis DADA2.
๐ Selanjutnya: Inferensi ASV dengan DADA2