Getting Started
1 Quality Control Data Sequencing (FastQC)

Quality Control dengan FastQC

Langkah pertama setelah data sequencing diterima adalah melakukan quality control (QC).
Tujuannya: memastikan data FASTQ mentah masih memiliki kualitas yang baik sebelum diproses lebih lanjut.


1. Menjalankan FastQC

a) Linux / macOS

Buka terminal, lalu jalankan:

fastqc sample_R1.fastq.gz sample_R2.fastq.gz -o qc_output/

Keterangan:

  • sample_R1.fastq.gz dan sample_R2.fastq.gz → file paired-end hasil MiSeq.
  • -o qc_output/ → folder tujuan untuk menyimpan hasil QC. Output: file laporan dalam format .html dan .zip.

b) Windows

  1. Setelah mengudunduh FastQC (ZIP) dari halaman resmi FastQC (opens in a new tab).
  2. Ekstrak folder FastQC ke lokasi yang mudah diakses (misalnya C:\FastQC).
  3. Masuk ke folder hasil ekstrak, lalu cari file aplikasi run_fastqc.bat.
  4. Klik dua kali file tersebut → aplikasi FastQC akan terbuka (GUI).
  5. Pilih file FASTQ yang ingin dianalisis melalui aplikasi.
💡

Pastikan Java Runtime Environment (JRE) sudah terinstal di Windows agar FastQC dapat dijalankan.

2. Membuka Hasil QC

  • File laporan .html dapat dibuka di browser (Chrome/Firefox).
  • Atau langsung melalui GUI FastQC di Windows (aplikasi run_fastqc.bat).
  • Setiap sampel memiliki grafik kualitas dan ringkasan status (pass, warn, fail).

3. Bagian Penting untuk Dicek (khusus data amplicon)

Untuk analisis amplicon sequencing (misalnya 16S rRNA), ada beberapa hal yang lebih kritis dibandingkan dengan shotgun metagenomics:

  • Amplicon sequencing: menargetkan region gen tertentu (contoh: 16S, ITS), sehingga reads lebih seragam panjangnya. QC fokus pada adaptor, kualitas ujung reads, dan potensi primer yang masih menempel.
  • Shotgun metagenomics: membaca seluruh DNA dalam sampel, reads lebih bervariasi panjang & kontennya. QC juga memperhatikan kompleksitas sekuens dan kontaminasi host.

👉 Referensi singkat:


Poin QC yang Penting

  • Per Base Sequence Quality → pastikan kualitas tidak terlalu menurun di ujung reads.
  • Adapter Content → mendeteksi adaptor/primer yang belum terpotong.
  • Per Sequence GC Content → distribusi GC sesuai dengan organisme target.
  • Overrepresented Sequences → indikasi adanya adaptor, primer, atau kontaminasi.
🧾

Hasil QC ini menjadi dasar keputusan trimming adaptor dengan Cutadapt.