플래그 메시지 모니터링 기능
Jun 30, 2025

여러분의 AI는 오늘도 수많은 고객 대화를 처리하고 있습니다. 하지만 모든 고객이 AI에게 친절하지만은 않죠.
유해 콘텐츠 차단, 특정 문구 필터링, 프롬프트 인젝션 방어 등 AI의 응답을 악의적인 공격으로부터 보호하기 위한 다양한 장치가 존재합니다. 그러나 이러한 보호 장치들이 잘 작동하고 있는지 과연 얼마나 확신할 수 있을까요?
이제 플래그 메시지 모니터링(Flagged Message Monitoring)을 통해 각 보호 장치가 발동될 때마다 이를 추적할 수 있는 대시보드를 확인해 보세요. 금지된 키워드, 적대적인 프롬프트, 취약점 공격 시도 등 어떤 고객 행동이 플래그를 유발했으며 AI가 어떻게 대응했는지를 정확히 확인할 수 있습니다.
플래그 메시지 모니터링 기능이 중요한 이유
- 구축과 모니터링의 루프 완성: 금칙어부터 보안 정책까지, 설정 시 정의한 모든 규칙을 실제 대화 속에서 추적하고 검증할 수 있습니다.
- 투명한 플래깅 원인 제공: 모든 플래그에는 트리거 원인에 대한 명확한 설명이 포함되어 있어 리뷰어가 더욱 빠르고 정확하게 대응할 수 있습니다.
- 새로운 위협 탐지 및 보안 강화: 사용자가 보호 장치를 우회하려는 패턴을 식별하고 이를 바탕으로 방어 체계를 지속적으로 강화할 수 있습니다.
- 보호 & 보안 정책 개선: 플래그된 대화를 직접적인 피드백으로 활용해 감지 임곗값을 조정하거나, 신규 키워드를 추가하고 플래깅 로직을 개선할 수 있습니다.
- 컴플라이언스 문서화 지원: AI가 정책 위반을 어떻게 감지하고 대응하는지를 명확히 보여주는 감사 로그로 보안 및 규정 준수를 투명하게 증명할 수 있습니다.

새로운 기능
- 전방위 모니터링: 전역 모니터링 기능을 활용해 모든 보호 장치 카테고리(가이드라인, 적대적 공격, 금지 문구, 유해 콘텐츠 등)에 대한 정책 위반을 실시간으로 추적합니다.
- 명확한 플래그 원인 설명: 각 위반 항목에 대한 트리거 원인을 구체적으로 명시합니다.
- 트렌드 분석: 일간/주간/월간 단위로 위반 시도 패턴을 분석해 새로운 공격 벡터나 반복적 문제를 조기에 파악할 수 있습니다.
- 필터 가능한 대화 목록: 위반 유형, 사용자 ID, 기간 등으로 세분화해 특정 사례를 심층적으로 조사할 수 있습니다.
- 대화 전체 맥락 확인: 플래그된 메시지와 해당 대화를 직접 연결해 상호작용의 맥락을 빠짐없이 검토할 수 있습니다.
플래그 메시지 모니터링 기능은 센드버드가 지향하는 책임감 있고 신뢰할 수 있는 AI 고객 서비스를 위한 핵심 기능입니다. 고객이 정의한 기준부터 AI가 전달하는 메시지까지, 센드버드는 투명성, 제어력, 확장 가능한 보호 체계를 통해 AI 운영의 선순환 구조를 만들어 나가고 있습니다.