Verify 32 min

Separate Doing from Judging

Memisahkan agent yang membuat memo dari gate yang menilai apakah evidence cukup.

Failure pattern

Agent membuat investment memo lalu menandainya ready. Tetapi ready menurut pembuat memo tidak sama dengan ready menurut reviewer. Missing risk exposure, invalid backtest assumption, atau compliance boundary sering baru terlihat setelah independent check.

Incident: Memo siap yang belum layak review

Agent menulis advisory trade idea untuk long/short pair. Memo punya thesis, chart, dan backtest. Ia menutup dengan “ready for IC review.”

Risk reviewer menemukan bahwa sector exposure belum dinetralkan, transaction cost assumption terlalu rendah, dan data snapshot tidak disebut. Memo bukan buruk, tetapi belum boleh masuk committee packet.

Harness principle

Separate doing from judging berarti implementer dan evaluator punya role berbeda. Agent yang menghasilkan output tidak boleh menjadi satu-satunya pihak yang menyatakan completion.

Dalam quant workflow, judge bisa berupa test suite, eval checklist, risk reviewer, compliance reviewer, atau human analyst.

Operating practice

Buat completion gate:

GateEvidence
Data gatesnapshot, freshness, lineage
Research gatehypothesis, benchmark, sensitivity
Risk gateexposure, drawdown, constraints
Compliance gateadvisory wording, no final decision
Human gateanalyst approval

Memo hanya “ready for review” setelah evidence packet lengkap. Final decision tetap manusia.

Product-agent example

Harnessed agent mengirim:

Status: ready for evaluator, not approved.
Missing: human review and compliance sign-off.
Evidence attached: backtest config, risk exposure table, source list.

Bahasanya jujur. Agent tidak mengambil authority yang bukan miliknya.

Common mistakes

Kesalahan paling sering adalah menyamakan output selesai dengan decision selesai. Kesalahan lain adalah meminta agent “be critical of your own work” lalu menganggap itu cukup. Self-critique membantu, tetapi bukan independent gate.

Practical exercise

Ambil satu memo atau research artifact. Tulis gate yang harus dilewati sebelum boleh disebut ready. Pisahkan gate deterministic, agent evaluator, dan human approval.

Key takeaways

  • Pembuat output tidak boleh menjadi satu-satunya judge.
  • Completion harus berbasis evidence packet.
  • Advisory trade idea tetap membutuhkan human approval.

Further reading / source notes

Konsep ini selaras dengan evals, model risk review, dan human approval gates untuk domain finansial.