Sesi 5.8: Iterasi Prompt

Kursus → Modul 5: Prompt Engineering

Sesi 8 dari 10

Prompt Itu Spesifikasi

Prompt bukan keinginan. Prompt itu spesifikasi. Spesifikasi butuh testing. Kamu nulis prompt, jalankan, evaluasi output-nya, identifikasi gap antara output dan hasil yang diinginkan, modifikasi prompt, dan jalankan lagi. Ini feedback loop engineering.

Kebanyakan orang nulis prompt sekali dan terima apa pun yang keluar. Kalo hasilnya kurang lebih oke, mereka publish. Kalo jelek, mereka nulis ulang prompt dari nol. Ga ada yang efisien. Yang pertama menghasilkan kualitas ga konsisten. Yang kedua membuang informasi yang ada di percobaan gagal.

Prompt belum selesai kalo berhasil sekali. Prompt selesai kalo berhasil setiap kali. Konsistensi itu standarnya. Kalo prompt kamu menghasilkan output bagus 3 dari 5 kali, itu 40% failure rate. Di produksi, artinya 40% batch kamu butuh regenerasi. Itu bukan prompt yang berfungsi. Itu draft prompt.

Loop Iterasi

Setiap iterasi mengikuti langkah yang sama. Disiplinnya ada di melakukan kelima langkah setiap kali, ga skip evaluasi untuk hemat waktu.

graph TD A["1. Jalankan prompt
(5 kali, parameter sama)"] --> B["2. Evaluasi setiap output
terhadap kriteria kualitas"] B --> C["3. Identifikasi failure mode
yang paling sering"] C --> D["4. Modifikasi prompt untuk
mengatasi kegagalan itu"] D --> E["5. Jalankan prompt modifikasi
(5 kali lagi)"] E --> F{"Pass rate
4/5 atau lebih?"} F -->|Ya| G["Prompt siap produksi"] F -->|Ga| A style A fill:#222221,stroke:#c8a882,color:#ede9e3 style C fill:#222221,stroke:#c47a5a,color:#ede9e3 style G fill:#222221,stroke:#6b8f71,color:#ede9e3

Menjalankan prompt lima kali bukan opsional. Satu kali berhasil ga bilang apa-apa tentang konsistensi. Lima kali mengungkap pola: apakah output selalu dibuka dengan pembukaan generik? Apakah paragraf tiga selalu mengandung hedging? Apakah AI mengabaikan batasan tertentu di 2 dari 5 run? Pola ini memandu modifikasi kamu.

Failure Mode Umum dan Perbaikannya

Failure Mode	Gejala	Perbaikan Prompt
Drift struktural	Output mengabaikan struktur yang diminta	Tambahkan "Ikuti struktur ini persis. Jangan tambah, hapus, atau ubah urutan bagian."
Pelanggaran batasan	Output memakai frasa terlarang	Pindahkan batasan ke awal dan akhir prompt
Inkonsistensi tone	Output berubah tone antar bagian	Tambahkan few-shot example yang mendemonstrasikan tone konsisten
Pelanggaran panjang	Output terlalu panjang atau terlalu pendek	Tentukan jumlah kata per bagian, bukan cuma total
Hedging	Output mengkualifikasi setiap pernyataan	Tambahkan "Nyatakan klaim secara langsung. Jangan hedge dengan 'arguably,' 'mungkin,' atau 'bisa dibilang.'"
Pembukaan generik	Output dimulai dengan "Di era..." atau sejenisnya	Tambahkan "Mulai dengan fakta, contoh, atau pernyataan langsung yang spesifik. Jangan pernah mulai dengan kalimat framing generik."

Jurnal Iterasi

Lacak iterasi kamu. Untuk setiap prompt, maintain log:

Versi: v1, v2, v3...
Perubahan yang dibuat: Apa yang kamu modifikasi dan kenapa
Pass rate: Berapa dari 5 run yang memenuhi kriteria kualitas
Kegagalan tersisa: Apa yang masih salah

Jurnal ini punya dua tujuan. Pertama, mencegah kamu mengulang modifikasi yang gagal. Kedua, membangun knowledge base tentang apa yang berhasil untuk tipe konten kamu. Setelah iterasi di sepuluh prompt, kamu akan melihat pola: batasan tertentu selalu perlu diulang di akhir, failure mode tertentu butuh few-shot examples daripada instruksi, struktur tertentu butuh jumlah kata eksplisit per bagian.

Kapan Berhenti Iterasi

Targetnya pass rate 4/5 atau lebih di lima kali run. Ini artinya prompt menghasilkan output yang acceptable minimal 80% dari waktu. Mengejar 5/5 sering ga worth it. Peningkatan marginal dari 4/5 ke 5/5 biasanya butuh kompleksitas prompt yang ga proporsional. Terima 4/5 dan tangani kegagalan sesekali lewat proses review manusia kamu.

Kalo kamu ga bisa mencapai 3/5 setelah lima iterasi, masalahnya mungkin bukan prompt. Tugasnya mungkin terlalu kompleks untuk satu prompt, butuh pendekatan chain-of-thought atau workflow multi-agent (dibahas di Modul 9).

Bacaan Lanjutan

Best Practices for Prompt Engineering, Anthropic
Prompt Engineering, OpenAI
Prompt Engineering Best Practices 2025, CodeSignal

Tugas

Pilih prompt yang udah kamu pakai. Jalankan lima kali dan evaluasi setiap output terhadap kriteria kualitas kamu. Identifikasi failure mode yang paling umum. Modifikasi prompt untuk mengatasi kegagalan itu. Jalankan lima kali lagi. Apakah failure rate turun? Dokumentasikan setiap iterasi di log dengan: nomor versi, perubahan yang dibuat, pass rate, dan kegagalan tersisa. Ulangi sampai kamu mencapai 4/5 atau lebih.