Metacognitive agents offer genuine safety benefits, including interpretability, early detection of misalignment, and graceful degradation. However, there is a hidden risk in feedback loops that can produce unintended behaviors if not carefully designed. Design principles for safe metacognitive systems include multi-objective evaluation, transparent steering directives, bounded correction, and explicit failure modes.