Separate Doing from Judging

Failure pattern

Agent membuat investment memo lalu menandainya ready. Tetapi ready menurut pembuat memo tidak sama dengan ready menurut reviewer. Missing risk exposure, invalid backtest assumption, atau compliance boundary sering baru terlihat setelah independent check.

Incident: Memo siap yang belum layak review

Agent menulis advisory trade idea untuk long/short pair. Memo punya thesis, chart, dan backtest. Ia menutup dengan “ready for IC review.”

Risk reviewer menemukan bahwa sector exposure belum dinetralkan, transaction cost assumption terlalu rendah, dan data snapshot tidak disebut. Memo bukan buruk, tetapi belum boleh masuk committee packet.

Harness principle

Separate doing from judging berarti implementer dan evaluator punya role berbeda. Agent yang menghasilkan output tidak boleh menjadi satu-satunya pihak yang menyatakan completion.

Dalam quant workflow, judge bisa berupa test suite, eval checklist, risk reviewer, compliance reviewer, atau human analyst.

Operating practice

Buat completion gate:

Gate	Evidence
Data gate	snapshot, freshness, lineage
Research gate	hypothesis, benchmark, sensitivity
Risk gate	exposure, drawdown, constraints
Compliance gate	advisory wording, no final decision
Human gate	analyst approval

Memo hanya “ready for review” setelah evidence packet lengkap. Final decision tetap manusia.

Product-agent example

Harnessed agent mengirim:

Status: ready for evaluator, not approved.
Missing: human review and compliance sign-off.
Evidence attached: backtest config, risk exposure table, source list.

Bahasanya jujur. Agent tidak mengambil authority yang bukan miliknya.

Common mistakes

Kesalahan paling sering adalah menyamakan output selesai dengan decision selesai. Kesalahan lain adalah meminta agent “be critical of your own work” lalu menganggap itu cukup. Self-critique membantu, tetapi bukan independent gate.

Practical exercise

Ambil satu memo atau research artifact. Tulis gate yang harus dilewati sebelum boleh disebut ready. Pisahkan gate deterministic, agent evaluator, dan human approval.

Key takeaways

Pembuat output tidak boleh menjadi satu-satunya judge.
Completion harus berbasis evidence packet.
Advisory trade idea tetap membutuhkan human approval.