Hướng dẫn độ tin cậy
Mục đích
Đưa ra các thực hành để đảm bảo hệ thống vận hành ổn định, dễ hồi phục khi gặp sự cố.
Thành phần liên quan
- Journal/Recovery:
hierachain/error_mitigation/{journal.py, recovery_engine.py, rollback_manager.py} - Cross-level Sync:
hierachain/cluster/{cross_level_sync.py, state_sync_manager.py}(nếu áp dụng)
Mẫu hình
- Nhật ký bền vững (Journal): ghi trước khi áp dụng thay đổi.
- Hoàn tác an toàn (Rollback): trạng thái có thể quay lại điểm an toàn.
- Phục hồi tự động (Recovery): kịch bản tiêu chuẩn cho mất kết nối/DB lỗi.
- Idempotency + Retry with backoff: lặp lại hành động mà không gây nhân đôi hiệu ứng.
Khuyến nghị triển khai
- Áp dụng journal cho thao tác thay đổi trạng thái quan trọng.
- Đặt ngưỡng, thời gian chờ hợp lý cho retry; đảm bảo idempotency key.
- Dùng metrics/alert để phát hiện vòng lặp retry bất thường.