Kursus → Modul 11: Quality Control & Gerbang Manusia
Sesi 5 dari 7

Dari "Ini Rasanya Udah Bener" ke "Ini Skornya 38"

Penilaian kualitas subjektif ga bisa diskalakan. Ketika kamu satu-satunya reviewer, "aku tahu yang bagus kalo lihat" itu jalan. Ketika kamu tambah reviewer kedua, definisi kalian mulai beda. Ketika kamu batch-produce 20 tulisan per minggu, standar kamu mulai drift. Rubrik memperbaiki ini dengan meng-encode standar kualitas kamu ke dimensi yang bisa diukur.

The New York Times membangun persis framework seperti ini. Tool internal mereka, Stet, mengkodifikasi pengetahuan editorial institusional ke rubrik konkret untuk menykor copy AI-generated. Prinsipnya universal: kalo kamu bisa mendefinisikan apa arti kualitas dalam angka, kamu bisa menegakkannya secara konsisten.

Rubrik Kualitas: Framework scoring dengan dimensi yang terdefinisi, masing-masing dinilai pada skala tetap, yang mengubah penilaian editorial subjektif jadi angka yang bisa diulang dan diaudit. Rubrik meng-encode standar kamu supaya bertahan dari perubahan mood, kelelahan, dan reviewer.

Lima Dimensi Scoring

Rubrik kamu harus punya 5 dimensi. Kurang dari 5 dan kamu melewatkan sinyal kualitas penting. Lebih dari 7 dan rubriknya jadi beban yang reviewer skip. Lima itu optimal secara praktis.

Dimensi di bawah ini adalah titik awal. Modifikasi sesuai tipe konten kamu.

Dimensi Apa yang Diukur Skor 10 Skor 0
Akurasi Ketepatan faktual semua klaim yang bisa diverifikasi Setiap klaim terverifikasi, sumber dicantumkan, ga ada halusinasi Banyak fakta fabrikasi, sumber karangan, angka salah
Konsistensi Voice Kecocokan dengan profil voice target Ga bisa dibedakan dari tulisan natural penulisnya Voice AI generik tanpa personality marker
Kejelasan Struktural Alur logis, organisasi bagian, progresi argumen Tiap bagian membangun di atas sebelumnya, transisi jelas, ga ada redundansi Urutan paragraf acak, ide diulang, ga ada argumen koheren
Orisinalitas Insight Keberadaan ide yang ga bisa dihasilkan dengan prompting model manapun Mengandung pengetahuan praktisi, contoh spesifik, dan posisi yang hanya bisa diambil penulisnya Sepenuhnya nasihat generik yang tersedia di hasil pencarian manapun
Ketiadaan Artefak AI Bebas dari 15 marker forensik (skala terbalik) Nol marker AI terdeteksi Lebih dari 10 marker hadir di seluruh tulisan

Matriks Aksi Scoring

Skor tanpa aksi itu pajangan. Setiap rentang skor dipetakan ke aksi editorial spesifik.

flowchart LR A["Skor Konten
(5 dimensi × 0-10)"] --> B{Total Skor?} B -->|"40-50"| C["Publish
Proofread ringan saja"] B -->|"30-39"| D["Rework
Edit tertarget di dimensi lemah"] B -->|"20-29"| E["Revisi Besar
Overhaul struktur dan voice"] B -->|"Di bawah 20"| F["Regenerate
Revisi prompt diperlukan"] style C fill:#6b8f71,color:#111 style D fill:#c8a882,color:#111 style E fill:#c47a5a,color:#111 style F fill:#c47a5a,color:#111
Rentang Skor Aksi Investasi Waktu Tipikal Output yang Diharapkan
40-50 Publish setelah proofread 5-10 menit Siap untuk audiens
30-39 Rework tertarget di dimensi skor terendah 20-40 menit Bisa dipublish setelah review kedua
20-29 Revisi besar: restrukturisasi, injeksi voice, verifikasi fakta 45-90 menit Mungkin bisa dipublish; pertimbangkan regenerasi
Di bawah 20 Buang dan regenerate dengan prompt yang direvisi Waktu regenerasi + siklus review baru Output baru dari prompt yang diperbaiki

Kalibrasi

Rubrik cuma berguna kalo menghasilkan skor yang konsisten. Untuk kalibrasi, skor 5 konten yang kamu udah tahu kualitasnya: satu tulisan terbaik kamu sendiri, satu tulisan yang kamu kagumi dari orang lain, satu output AI yang bagus, satu output AI yang biasa aja, dan satu slop yang jelas-jelas jelek.

Tulisan terbaik kamu harus skor 40+. Tulisan yang dikagumi harus skor 40+. Output AI bagus harus skor 28-35. Output AI biasa aja harus skor 18-27. Slop yang jelas harus skor di bawah 18.

Kalo skor-nya ga cocok dengan ranking kualitas intuitif kamu, sesuaikan rubriknya. Entah definisi dimensinya salah, anchor skalanya salah, atau kamu membobot dimensi secara ga tepat. Kalibrasi itu iteratif. Ekspektasi 2-3 ronde sebelum rubrik secara andal cocok dengan penilaian kamu.

Menggunakan Rubrik di Production

Setiap konten yang keluar dari pipeline kamu harus punya score card terlampir. Ga disimpan terpisah, ga diingat samar-samar, tapi dicatat bersama kontennya di log sederhana. Seiring waktu, log ini mengungkap pola: tipe konten mana yang konsisten skor rendah, template prompt mana yang menghasilkan skor tertinggi, dan apakah kualitas kamu membaik atau menurun seiring scaling.

Search Quality Evaluator Guidelines milik Google sendiri menggunakan pendekatan serupa. Quality rater manusia mengevaluasi hasil pencarian terhadap rubrik yang terdefinisi dengan kriteria spesifik untuk setiap level rating. E-E-A-T (Experience, Expertise, Authoritativeness, Trustworthiness) itu rubrik. Rubrik kamu adalah padanan untuk produksi konten.

Further Reading

Tugas

Bangun rubrik kualitas kamu. Definisikan 5 dimensi scoring yang relevan dengan tipe konten kamu (boleh pakai yang di sesi ini atau buat sendiri). Untuk setiap dimensi, definisikan seperti apa skor 10 dan seperti apa skor 0. Skor 5 konten dengan kualitas bervariasi. Kalo skor-nya ga cocok dengan ranking intuitif kamu, sesuaikan rubrik dan skor lagi. Ulangi sampai angkanya mencerminkan realitas.