VLM은 CCTV를 어떻게 바꾸는가



보통 공공 CCTV관제센터나 기업의 관제센터, 상황실에서는 한 명이 카메라 수십 대~수백대를 봅니다.
현실적으로 인간이 육안으로 관제 가능한 CCTV 대수를 넘어선지 오래되었습니다.
그래서 VLM은 CCTV 영상관제에 반드시 접목되어야 합니다.

대형 모니터가 벽을 가득 채우고 있습니다.
각 화면에서 사람들이 움직이고, 장비가 돌아가고, 현장이 흘러갑니다.
이상이 생기면 화면 어딘가에서 먼저 신호가 나타납니다.
하지만 그 신호를 놓치지 않으려면 모든 화면을 동시에 봐야 합니다. 현실적으로 불가능해 졌습니다.
그리고 신속하고 빠르게 인지할 수 있도록 알려줘야 합니다.

딥러닝 기반 각종 객체/이벤트 감지 AI가 이 문제를 일부 해결했습니다.
안전모 미착용, 화재 징후, 침입/배회, 쓰러짐, 이상행동 및 이상물체 등 정해진 패턴을 자동으로 잡아내고
알람을 울립니다. 하지만 이 방식에도 한계가 있습니다. 학습된 것만 감지합니다.
정해진 패턴 밖의 상황은 여전히 사람이 봐야 합니다.

VLM이 바꾸려는 것이 바로 그 지점입니다.


VLM이 기존 감지 AI와 다른 이유

딥러닝 감지 모델은 잘 훈련된 분류기입니다.
안전모가 있는지 없는지, 불꽃인지 연기인지 아닌지를 판별합니다.
학습한 범주 안에서는 빠르고 정확합니다.
하지만 “이 상황이 왜 위험한지”를 설명하지는 못합니다. 결과만 있고 맥락이 없습니다.

VLM(Vision Language Model)은 다릅니다. 이미지를 보고 언어로 설명합니다.
“작업자가 고소 작업대 위에서 안전고리를 체결하지 않은 채 난간에 기대고 있습니다”처럼 상황 전체를 문장으로 표현할 수 있습니다.
미리 학습된 감지 항목이 아니라, 장면 안에서 일어나고 있는 일을 이해하는 겁니다.

이 차이가 현장에서 의미하는 바는 큽니다.

기존 AI가 “이상 감지”라는 알람을 울렸다면, VLM은 “3번 구역 작업자가 보호구 없이 화학물질 근처에 접근 중입니다. 즉각 확인이 필요합니다”라고 관제 요원에게 전달할 수 있습니다. 알람을 받은 관제 요원이 화면을 찾아보고 상황을 파악하는 시간이 사라집니다. 이미 파악된 상황이 텍스트로 와 있습니다.
(이 부분도 추후 음성으로도 실시간 알림이 되면 아주 다른 차원의 관제 시스템으로 진화 할 수 있습니다.)


관제 현장이 얼마나 열악한지부터

VLM의 가능성을 이야기하기 전에, 지금 관제 현장이 어떤지를 먼저 봐야 합니다.

산업 현장의 관제 인력은 만성적으로 부족합니다.
CCTV는 늘어나는데 관제 인원은 그대로입니다. 1인당 모니터링해야 하는 카메라가 수십 대에 이르는 경우도 드물지 않습니다. 야간이나 새벽 시간대에는 더 심합니다.
집중력이 한계에 달한 관제 요원이 수십 개의 CCTV 화면 중 하나에서 나타나는 초기 위험 신호를 잡아내야 합니다.

이 구조에서 아무리 정확한 감지 AI가 있어도, 알람이 너무 많으면 오히려 역효과가 납니다.
오탐이 반복되면 관제 요원은 알람에 무감각해집니다.
진짜 위험 알람도 또 오탐이겠거니 하고 늦게 반응하게 됩니다.
이걸 알람 피로(alarm fatigue)라고 합니다. 현장에서 실제로 일어나는 일입니다.

VLM이 해결할 수 있는 문제가 여기 있습니다.


image 18

VLM이 관제를 바꾸는 세 가지 방식

첫째, 상황을 설명하는 알람

기존 알람은 “화재 감지 – CAM-07″처럼 이벤트 유형과 위치만 알려줍니다.
관제 요원은 해당 화면을 찾아 직접 확인해야 합니다.
VLM 기반 알람은 다릅니다. “7번 카메라, 3번 작업장 입구 우측 전기 패널 하단에서 연기 발생.
주변 작업자 2명 인식됨”처럼 상황을 요약해서 전달합니다.
관제 요원이 화면을 보기 전에 이미 무슨 일인지 알고 있습니다. 대응 시간이 줄어듭니다.

둘째, 정해지지 않은 위험을 포착

기존 딥러닝 모델은 학습된 항목만 감지합니다. 안전모, 화재, 침입처럼 사전에 정의된 것들입니다.
하지만 현장의 위험은 그 목록 밖에도 있습니다.
비정상적인 자세로 쓰러진 것 같은 사람, 장비가 이상한 방향으로 기울어진 것, 평소와 다른 위치에 놓인 위험물. 이런 것들은 어떤 감지 항목으로도 정의하기 어렵습니다.
VLM은 장면 전체를 이해하기 때문에, 학습하지 않은 상황에서도 “이 장면이 정상적이지 않다”는 판단을 내릴 수 있는 방향으로 발전하고 있습니다.

셋째, 자연어로 검색하는 영상

지금은 특정 사건을 찾으려면 발생 시각을 알거나, 카메라 번호를 알거나, 긴 영상을 돌려봐야 합니다. VLM이 적용되면 “어제 오후 2시에서 4시 사이에 안전모 없이 작업한 사람을 보여줘”처럼 자연어로 영상을 검색할 수 있게 됩니다.
사고 조사, 안전 점검, 증거 확인 등 사후 대응의 속도가 완전히 달라집니다.


이미 시작된 변화 – 해외 사례들

VLM의 산업안전·공공안전 적용은 이미 해외에서 구체적인 형태로 나타나고 있습니다.

영국의 AI 영상분석 기업 Ipsotek은 2025년 1월 VLM 기반 영상분석 플랫폼인 VISense를 출시했습니다. 이 시스템은 관제 요원이 “어떤 카메라에서든 비정상적인 상황이 발생하면 알려줘”라고 질문하면, “북쪽 구역에 침수가 발생했고 수위가 올라가고 있습니다. 차량 여러 대가 고립되어 교통 혼잡이 심합니다”처럼 상황을 자연어로 설명하는 방식으로 작동합니다.
관제 요원이 화면을 직접 확인하기 전에 이미 상황이 정리된 형태로 전달되는 겁니다.
Ipsotek은 이후 에너지, 학교, 주유소 등 고위험 시설을 대상으로 한 대규모 배포용 플랫폼으로 확장하고 있으며, 오탐 감소와 수동 모니터링 부담 경감을 핵심 목표로 삼고 있습니다.

광산과 건설처럼 사고 위험이 높은 산업 현장을 대상으로 VLM 기반 안전 위반 감지 프레임워크인 MonitorVLM이 연구·개발됐습니다.
이 시스템은 CCTV 영상 스트림에서 안전 위반을 직접 감지하고, 감지 결과를 안전 규정과 연계한 자연어 설명으로 출력합니다.
기존 객체 감지 방식과 달리 장면 전체를 이해해서 어떤 규정을 어떻게 위반했는지까지 설명합니다.

실제 CCTV 관제 환경에서 VLM 기반 시스템은 영상만 사용하는 기존 시스템 대비 약 15~20%의 정확도 향상을 보였습니다.
특히 조명이 불량하거나 장면이 부분적으로 가려진 어려운 환경에서도 90% 이상의 정확도를 유지했습니다. 또한 VLM 경량화 기술을 통해 연산량을 약 30% 줄이면서도 실시간 처리가 가능한 수준의 속도를
확보하는 방향으로 발전하고 있습니다.

홍콩 경찰은 SmartView 프로그램 1단계에서 5,000대의 카메라를 설치하고 기존 6,000대와 통합했습니다. 이 시스템은 2025년 기준 살인, 강도 등 899건의 범죄 해결에 기여했습니다.
현재는 VLM과 연계한 자연어 기반 영상 검색과 이상 행동 감지 방향으로 고도화가 진행 중입니다.


아직 해결해야 할 것들

VLM이 가능성이 크다는 건 분명하지만, 현재 시점에서 현장 적용에는 현실적인 과제들이 남아 있습니다.

처리 속도가 그 중 하나입니다.
이미지를 보고 언어로 설명하는 과정은 기존 감지 모델보다 연산량이 훨씬 많습니다.
실시간 처리가 필요한 관제 환경에서 이 속도를 맞추려면 하드웨어와 모델 경량화 모두가 해결되어야 합니다. 비용 문제도 있습니다.
고성능 연산을 요구하는 VLM을 수십 대 카메라에 동시에 적용하려면 현재 기준으로 상당한 인프라 비용이 발생합니다.

그럼에도 기술의 발전 속도는 빠릅니다.
1~2년 전만 해도 현장 적용이 어려웠던 기능들이 지금은 가능해지는 걸 계속 보고 있습니다.
VLM도 그 방향으로 가고 있습니다.


CCTV가 보는 것에서 이해하는 것으로

CCTV는 오랫동안 기록하는 도구였습니다.
사고가 나면 돌려보는 것. 딥러닝이 더해지면서 실시간으로 감지하는 도구가 됐습니다.
VLM은 그 다음을 향합니다. 장면을 이해하고, 상황을 설명하고, 맥락 속에서 위험을 판단하는 도구.

관제 요원 한 명이 수십 대, 수백 대 카메라를 커버해야 하는 현실은 당장 바뀌지 않습니다.
하지만 그 한 명이 더 정확하고 더 빠르게 판단할 수 있도록 돕는 것, 그게 기술이 해야 할 일입니다.
VLM은 그 방향에서 가장 주목할 만한 변화입니다.



2026. 05. 25 Rhapsody
카테고리: AI in the Field

Similar Posts

  • 왜 우리는 AI를 공장에 들이는가 – 산업안전 AI의 현실

    숫자 뒤에 있는 것 오늘도 누군가의 아버지가, 누군가의 동료가 일터에서 돌아오지 못했습니다. 고용노동부 통계에 따르면 2024년 한 해 동안 산업 현장에서 사고로 목숨을 잃은 노동자는 589명입니다. 하루 평균으로 계산하면 1.6명. 주말도, 공휴일도 없이 반복되는 숫자입니다. 더 불편한 사실은 따로 있습니다. 이 사고들의 상당수가 ‘예측 가능했던 상황’에서 발생했다는 점입니다. 위험한 구역에 사람이 들어갔고, 보호구를 착용하지 않았고,…

  • 소음의 시대, 본질에 집중하는 기록의 시작

    안녕하세요, Rhapsody입니다. Focused Frame – 이 블로그의 이름이자, 제가 세상을 바라보는 방식입니다. 올봄은 유독 시끄럽습니다. 기술의 변화 속도는 이미 인간의 감각을 앞질렀고, 매일 쏟아지는 정보들은 무엇이 중요한지를 가늠하기 어렵게 만듭니다. 제가 몸담고 있는 AI 분야는 더욱 그렇습니다. 상상속의 기능과 성능으로 어느날 하늘에서 뚝 떨어지 듯 나타나는 AI 모델과 서비스들. 그리고 “AI가 세상을 빠르게 바꾸어가는 그 중심에서의…

  • 날씨가 바뀌면 모델도 자동으로 바뀐다 – 지능형 오토 스위칭의 이유

    비 오는 날, CCTV는 원래 기능의 상당부분을 잃는다. 현장 관제 담당자에게서 연락이 왔습니다. “비가 많이 오면 보이지도 않는데, 지능형은 오탐이 너무 많아서 관제 자체가 안 됩니다.” 처음엔 운영상의 문제라고 생각했습니다. 설치 위치나 CCTV 각도, 임계값 설정의 문제일 거라고. 하지만 직접 확인해 보니 달랐습니다. 모델 자체가 비 오는 환경에 대응하지 못하고 있었습니다.물론 비 오는 환경에 대한…

  • 카메라가 사람을 지키는 방법 – 딥러닝 비전 AI 입문

    CCTV는 많은데, 왜 사고는 줄지 않았을까 국내 산업 현장에 설치된 CCTV는 수백만 대에 달합니다. 공장, 건설 현장, 물류 창고 어디를 가도 카메라가 없는 곳을 찾기 어렵습니다. 그런데 카메라가 늘어난 만큼 산업재해가 줄었냐고 하면, 솔직히 그렇지 않습니다. 이유는 단순합니다. 기존 CCTV는 찍기만 하고, 보지 않습니다. 아니 정확히는, 볼 수 있는 사람이 없습니다. 카메라 100대를 관제실 한…

  • AI 신제품 기획, 우리는 무엇을 선택해야 하는가

    기술 트렌드 앞에서 제품 기획자가 해야 할 질문들 요즘 제품 기획 회의에서 자주 나오는 말이 있습니다. “이 기술, 우리도 넣어야 하는 거 아닌가요?” VLM, Edge AI, AI 에이전트. 관련 뉴스가 매일 쏟아지다 보니 당장 따라가지 않으면 뒤처지는 것 같은느낌이 듭니다. 저도 그 압박을 모르지 않습니다. 하지만 그럴 때마다 스스로에게 되묻습니다. 이 기술이 우리 현장 문제를…