Trimming dengan Cutadapt

Setelah QC dengan FastQC, langkah berikutnya adalah trimming adaptor dan primer dengan Cutadapt.
Tujuannya untuk membuang sekuens adaptor atau primer yang masih menempel agar analisis downstream (misalnya DADA2) lebih akurat.

👉 Dokumentasi resmi: Cutadapt Manual (opens in a new tab)

1. Adaptor vs Primer

Adaptor
Potongan sekuens buatan (biasanya 10–30 bp) yang ditambahkan oleh platform sequencing (misalnya Illumina) ke ujung DNA.
Adaptor berfungsi sebagai:
- Titik awal mesin sequencer untuk membaca DNA (flow cell binding).
- Indeks/barcode untuk identifikasi sampel multiplex.
  Adaptor ini selalu teknis, tidak berasal dari organisme.
Primer
Potongan oligonukleotida (biasanya 18–25 bp) yang digunakan saat PCR untuk mengamplifikasi region target tertentu.
Contoh pada studi mikrobioma: primer 341F/805R untuk region V3–V4 gen 16S rRNA.
Primer bisa tetap tertinggal di ujung reads jika tidak dipotong, sehingga bisa mengganggu analisis downstream (misalnya klasifikasi taksonomi).

💡

Perbedaan utama: - Adaptor → berasal dari proses library preparation & sequencing. - Primer → berasal dari PCR untuk memperbanyak region target. Pada data amplicon (16S/ITS), trimming primer adalah langkah penting, sedangkan adaptor kadang tidak selalu terlihat pada laporan FastQC.

2. Identifikasi keberadaan Adaptor/Primer

Sebelum trimming, kita bisa lihat beberapa baris awal FASTQ.

a) Linux / macOS

Gunakan perintah berikut:

zcat ATCCMiSeq2x300R1_S1_L001_R1_001.fastq.gz | head -20

Perintah ini akan menampilkan 20 baris pertama dari file FASTQ. Dari sini kita bisa cek apakah ada sekuens adaptor atau primer di ujung reads.

b) Windows

Di Windows tidak ada zcat atau head bawaan. Ada dua opsi:

Jika pakai WSL (Windows Subsystem for Linux):
Instalasi WSL bisa mengikuti panduan resmi Microsoft:
👉 Install WSL on Windows (opens in a new tab)

Setelah WSL terpasang, jalankan perintah yang sama seperti di Linux:
```
zcat ATCCMiSeq2x300R1_S1_L001_R1_001.fastq.gz | head -20
```
Jika tanpa WSL:
- Gunakan Notepad++ untuk membuka file FASTQ (meski ukurannya besar).
- Atau ekstrak file .gz dengan 7-Zip, lalu buka file .fastq dengan text editor.
- Lihat beberapa baris pertama untuk mengecek apakah ada sekuens adaptor atau primer.

🔍

Mengecek isi awal FASTQ penting untuk memastikan apakah primer (misalnya 341F, 805R) masih menempel.

3. Primer Umum untuk Amplicon 16S

Beberapa primer yang sering digunakan:

341F: CCTACGGGNGGCWGCAG
805R: GACTACHVGGGTATCTAATCC
515F: GTGCCAGCMGCCGCGGTAA
806R: GGACTACHVGGGTWTCTAAT

Jika sekuens ini terlihat di awal reads, berarti perlu trimming primer.

4. Menjalankan Cutadapt

a) Linux / macOS

cutadapt -j 0 --report=full -g CCTACGGGNGGCWGCAG -G GACTACHVGGGTATCTAATCC -q 20 -m 100 -o MSA1002-50-MiSeqi100-2x300-241007_S50_L001_R1_001.trim.fastq.gz -p MSA1002-50-MiSeqi100-2x300-241007_S50_L001_R2_001.trim.fastq.gz MSA1002-50-MiSeqi100-2x300-241007_S50_L001_R1_001.fastq.gz MSA1002-50-MiSeqi100-2x300-241007_S50_L001_R2_001.fastq.gz

b) Windows

Gunakan py -m cutadapt:

py -m cutadapt -j 0 --report=full -g ^CCTACGGGNGGCWGCAG -G ^GACTACHVGGGTATCTAATCC -q 20 -m 100 -o MSA1002-50-MiSeqi100-2x300-241007_S50_L001_R1_001.trim.fastq.gz -p MSA1002-50-MiSeqi100-2x300-241007_S50_L001_R2_001.trim.fastq.gz MSA1002-50-MiSeqi100-2x300-241007_S50_L001_R1_001.fastq.gz MSA1002-50-MiSeqi100-2x300-241007_S50_L001_R2_001.fastq.gz

Keterangan opsi:

-j 0 → gunakan semua core CPU untuk mempercepat proses.
--report=full → hasil laporan trimming ditampilkan lengkap (detail jumlah reads, panjang, distribusi).
-g → sekuens primer/adaptor forward yang ingin dipotong dari Read 1.
-G → sekuens primer/adaptor reverse yang ingin dipotong dari Read 2.
-q 20 → potong ujung reads dengan kualitas di bawah Phred Q20 (sekitar akurasi 99%).
-m 100 → buang reads yang panjang akhirnya < 100 bp setelah trimming.
-o → nama file output hasil trimming untuk Read 1.
-p → nama file output hasil trimming untuk Read 2.

5. Contoh Interpretasi Output

Jika berhasil, Cutadapt akan menampilkan ringkasan seperti ini:

=== Summary ===
Total read pairs processed:        366,282
  Read 1 with adapter:             365,326 (99.7%)
  Read 2 with adapter:             365,162 (99.7%)

== Read fate breakdown ==
Pairs that were too short:              208 (0.1%)
Pairs written (passing filters):    366,074 (99.9%)

Total basepairs processed:    220,016,303 bp
  Read 1: 110,147,225 bp
  Read 2: 109,869,078 bp
Quality-trimmed:                   111,144 bp (0.1%)

Total written (filtered):    205,955,432 bp (93.6%)
  Read 1: 103,822,221 bp
  Read 2: 102,133,211 bp

=== First read: Adapter 1 ===
Sequence: CCTACGGGNGGCWGCAG; Length: 17; Trimmed: 365,326 times

Interpretasi:

Hampir semua reads (99.7%) mengandung primer/adaptor yang berhasil dipotong.
Hanya 0.1% reads terlalu pendek setelah trimming.
93.6% total base pairs berhasil dipertahankan → artinya kualitas data sangat baik.

📊

Setelah trimming, file hasil (sample_trim_R1.fastq.gz dan sample_trim_R2.fastq.gz) siap dipakai untuk analisis DADA2.

👉 Selanjutnya: Inferensi ASV dengan DADA2

1 Quality Control Data Sequencing (FastQC)3 Amplicon Sequence Variants (DADA2)