본문 바로가기

빅데이터에 가치를 부여하는 기술, 데이터 시각화

빅데이터 활용의 중요성이 점차 높아지고 있다. 빅데이터에 가치를 부여하고 이를 통해 사용자에게 인사이트를 제공하는 기술인 데이터 시각화에 대해 알아본다.

데이터의 중요성에 대한 사회적 인식은 분야를 막론하고 점점 높아지고 있다. 실제로 데이터는 정치, 사회, 경제, 문화, 과학 기술 등 우리의 삶과 관련된 전 영역에서 목적 달성을 위한 지표나 근거로 활용되고 있다. 정보화 시대로 접어들면서 데이터 수집이 용이해짐에 따라 더 많은, 더 세부적인 데이터가 수집되기 시작했다. 통상적으로 사용되는 데이터의 수집은 물론, 관리 및 처리 소프트웨어의 수용 한계를 넘어서는 수십 테라바이트에서 수 페타바이트에 이르는 데이터를 뜻하는 ‘빅데이터(Big Data)’라는 개념이 등장한 것이다.

빅데이터는 수집, 저장, 분석, 처리가 어려울 정도로 방대한 양의 데이터를 의미한다. 다양한 종류의 대규모 데이터에 대한 생성, 수집, 분석, 표현을 특징으로 하는 빅데이터를 다루는 기술의 발전은 다변화된 현대 사회를 더욱 정확하게 예측할 수 있게 돕는다. 이 기술의 발전으로 인해 개인화된 사회의 각 구성원에게 맞춤형 정보를 제공, 관리, 분석하는 것이 가능해졌다.

하지만 빅데이터 기술의 핵심은 얼마나 많은 양의 데이터를 보유하고 있는지가 아니라, 수집한 빅데이터를 어떻게 활용할 것인지에 달려있다. 누구나 알고 있는 정보는 정보가 아니듯, 데이터의 단순한 나열이나 수집 자체는 큰 의미가 없다.

빅데이터에 가치를 부여하는 기술

다양한 데이터 전처리 방법

그렇다면 빅데이터는 어떻게 해야 잘 활용할 수 있을까? 빅데이터에 가치를 부여하기 위해서는 먼저 데이터 전처리와 데이터 시각화라는 두 단계를 거쳐야 한다. 데이터 전처리는 기술적으로 데이터를 수집하고 정제하는 데이터 가공 단계부터 분석 기법을 활용한 데이터 분석에 이르는 과정에 필요한 기술이며, 방대한 양의 원시 데이터를 분석 목적과 분석 방법에 맞는 형태로 가공하는 과정이다.

현대로템은 철도차량의 상태 기반 유지보수(Condition Based Maintenance, CBM) 시스템의 일환으로 철도차량에서 수집되는 다양한 빅데이터를 분석해 열차와 부품의 실시간 진단 및 고장을 예지하기 위한 플랫폼을 개발하고 있다. 또한, 빅데이터의 수집, 전처리 및 분석 기술을 사용한 빅데이터 관리 기술을 바탕으로 수소전기트램과 수소충전설비의 실시간 운영 및 고장 데이터를 활용한 디지털 트윈 기술을 이용한 수소 통합 관제 시스템 데모 버전을 2021년 부산국제철도물류전시회를 통해 선보인 바 있다. 수집한 빅데이터를 목적에 맞게 정제한 후 사용자의 눈높이에서 시각화 기술을 접목해 인사이트를 제공하는 이러한 사례가 바로 대표적인 빅데이터 활용 기술이다.

‘현대로템의 빅데이터 전처리 기술’ 더 알아보기
https://tech.hyundai-rotem.com/digital/hyundai-rotems-big-data-preprocessing-technology/

데이터 시각화란?

데이터 시각화 기술이란, 수집된 빅데이터의 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현하고 전달하는 기술을 말한다. 데이터 시각화가 빅데이터 기술의 중요한 요소로 부각되는 이유는 인간의 인지 처리 과정과 관련 있다. 사람은 그 어떤 감각보다 시각 정보에 익숙하며 약 80%의 정보를 시각을 통해 얻는다. 또 시각화된 자료가 청각화된 자료보다 정보의 밀도가 높고, 시공간의 제약이 적다는 것도 데이터 시각화의 유용성을 뒷받침한다.

데이터의 시각화라고 하면 차트나 그래프와 같은 형태를 떠올리기 쉽다. 이러한 형태 역시 데이터 시각화의 사례이기는 하나, 근래의 데이터 시각화는 더욱 고도화된 형태를 띤다. 수집되는 데이터들이 단순히 정형적인 문자나 숫자 형태를 벗어나 영상이나 이미지와 같이 비정형 데이터도 등장하면서 차트나 그래프로 표현하기에는 한계가 있기 때문이다. 즉, 데이터 시각화의 개념은 데이터를 차트나 표로 표현한다는 기존 의미에서, 인간이 이해할 수 없는 비정형 데이터를 이해할 수 있는 형식으로 정리하는 기술이라는 의미로 점차 변화하고 있다.

데이터 시각화의 다양한 유형들

데이터 시각화에는 다양한 유형이 있다. 이들은 데이터가 의미하는 바를 쉽게 찾고 이해할 수 있도록 돕는 역할을 한다. 대표적인 유형으로는 막대그래프(Bar Chart), 선 도표(Line Chart), 면적 그래프(Area Chart), 원그래프(Pie Chart), 산점도(Scatter Plot), 버블 차트(Bubble Chart), 방사형 그래프(Rader Chart), 프레임 다이어그램(Frame Diagram), 깔때기 도표(Funnel Plot), 갠트 차트(Gantt Chart) 등이 있다.

막대그래프 이미지 예시

막대그래프는 데이터를 막대로 나타내 표에 비해 여러 항목의 수치를 전체적으로 비교하기 쉬운 장점이 있다. 사람의 눈은 높이 차이에 민감하기 때문에 데이터의 최고가, 최저가 등을 비교할 때 유용하게 사용할 수 있으나 분류가 많아질 경우 데이터의 특성을 표현하는 데 한계가 있다는 단점이 있다. 선 도표는 좌표 축의 점들로 데이터를 나타내고, 이 점을 연결해 시간의 흐름에 따른 데이터 변화를 직선적으로 관찰할 수 있도록 데이터를 시각화한다. 주로 데이터의 경향성을 파악할 때 유용하게 사용되며, 무질서한 데이터의 특성을 나타내는 데는 적합하지 않다. 면적 그래프는 선이나 점이 아닌 도형의 면적을 이용해 통계 수치의 크기를 시각화하는 방식이다. 선 도표와 마찬가지로 시간의 흐름에 따른 데이터의 변화를 나타내기 위해 사용하지만, 선 도표와 다르게 시각적으로 데이터의 양을 표현한다는 특징이 있다.

원그래프 이미지 예시

원그래프는 데이터의 전체 항목 중 각 부분의 비율을 부채꼴 모양으로 배치해 백분율로 표현하는 시각화 방식이다. 각 부채꼴의 중심각이 전체에서 차지하는 비율을 의미하며, 한눈에 항목별 비율을 파악할 수 있기 때문에 통계 수치를 비교할 때 자주 활용된다. 산점도는 한 변수를 x축에, 나머지 다른 변수를 y축에 배치해 두 연속형 변수의 상관관계를 시각화하는 그래프다. 각 변수의 변화에 따른 상관관계를 파악하는 데 주로 활용한다. 버블 차트는 동그란 버블의 크기로 데이터의 값을 표현하는 시각화 방식이다. 버블차트는 그 자체로는 데이터값의 크기만을 표현할 수 있지만 산점도 기능을 더할 경우 x축, y축 변수와 해당 변수의 결과 값을 데이터 크기도 표현할 수 있어 3차원적인 데이터를 표현하는 데 유용하게 사용된다.

방사형 그래프 이미지 예시

방사형 그래프는 평가항목이 여러 개일 때 항목 수에 따라 원을 같은 간격으로 나누고, 중심으로부터 일정 간격으로 척도를 재는 칸을 나눠 각 평가항목의 정량화된 수치에 따라 그 위치에 점을 찍고 평가항목 간 점을 이어 선으로 만들어 항목 간 균형을 한눈에 볼 수 있도록 만들어주는 도표다. 가령 특정 제품의 품질을 평가하기 위해 디자인, 가격, 편의성, 독창성 등에 점수를 매겨 방사형 그래프로 그리면 해당 제품의 특징을 한눈에 파악하기 용이하다. 게임 캐릭터의 능력치, 운동선수의 능력치 등을 표현하는 데도 자주 사용된다.

Mega set of various flowcharts schemes, diagrams. Simply color editable. Infographics elements.

프레임 다이어그램은 트리 형태로 계층적 구조를 표시하는 시각화 방법의 일종으로 데이터의 계층적 관계를 명확하게 표현하는 데 사용하고, 깔때기 도표는 단계별로 지표가 변화하는 것을 한눈에 표현하기 위한 목적으로 사용한다. 갠트 차트는 타임라인을 가로막대로 표시하는 시각화 방식으로 주로 프로젝트와 프로젝트에 포함된 작업의 스케줄을 정리할 때 사용한다.

데이터 시각화의 장점

서울의 생활이동 인구 데이터를 시각화한 사례 (출처: 서울 열린데이터 광장 – https://data.seoul.go.kr/)

데이터 시각화의 첫 번째 장점은 많은 양의 데이터를 한눈에 볼 수 있다는 것이다. 가령 ‘서울의 생활이동 인구라는 데이터’를 가공되지 않은 형태로 본다면, 검토가 불가능한 수준의 방대한 수치일 뿐 아니라, 해당 데이터를 통해 유의미한 경향성을 찾는 것도 어려울 것이다. 하지만 이를 시각화하면 데이터 분석 전문가가 아니더라도 서울에 들고 나는 인구를 시간별, 지역별, 성별 등 다양한 조건에 맞춰 한눈에 파악할 수 있다.

또 다른 장점은 데이터 시각화가 요약 통계보다 정확한 분석 결과를 도출할 수 있다는 것이다. 일반적으로 시각 정보는 분석 결과를 다른 사람에게 전달하기 위한 ‘보여주기’ 용도로 활용되는데, 데이터 시각화는 단순히 데이터 분석 결과를 전달하기 위한 목적뿐만 아니라 정확한 분석을 위한 데이터 탐색 방법으로의 활용도도 높다. 즉, 데이터 분석 과정에서도 시각화는 중요한 역할을 한다.

데이터 시각화의 중요성 사례를 보여주는 알베르토 카이로의 데이터사우르스 차트

위 그림은 데이터 시각화 분야의 유명 인사인 알베르토 카이로(Alberto Cairo)의 데이터 세트인 데이터사우르스(Datasaurus, 정상적인 통계처럼 보이지만 시각화하면 공룡 모양의 형태를 보이는 데이터 세트)와 소수점 두 자릿수 기준으로 동일한 요약 통계를 갖는 12개의 데이터 세트를 시각화했을 때의 차이를 보여주는 연구 사례다. 공룡 형태로 분포된 차트와 아래 12개의 차트는 모두 평균과 분산, 표준편차 등 주요한 지표가 소수점 두 자리까지 같은 데이터인데도, 소수점 세 자리 이하의 수치를 바꿔가며 시각화했을 때 전혀 다른 패턴이 등장한다. 이는 숫자로 요약된 통계만으로는 해당 숫자들이 가진 정확한 의미를 도출하는 것에는 한계가 있고, 시각화했을 때 비로소 유의미한 차이를 찾을 수 있다는 메시지를 전달한다. 이러한 연구 결과를 통해 데이터 시각화가 단순히 데이터를 요약해 보여주는 것을 넘어 데이터를 이해하고 활용할 수 있는 인사이트를 제공하는 데도 필수적이라는 사실을 확인할 수 있다.

데이터를 시각화한 다양한 형태를 종합적으로 모아 구성한 데이터 대시보드

앞서 소개한 것처럼 데이터 시각화는 데이터 분석 과정 중 인사이트 도출을 이끌어내고, 방대한 양의 데이터를 보기 쉽게 정리해 보다 많은 사람이 데이터를 활용할 수 있도록 돕는다. 이러한 특징을 기반으로 데이터 기반의 의사결정을 원활하게 하는 것이 데이터 시각화의 또 다른 장점이다. 가령 보고서, 프레젠테이션 문서에 삽입된 시각화 차트가 메시지 전달을 효과적으로 뒷받침하는 근거 자료의 역할도 하는 것이다.

데이터 시각화 결과를 공유하는 대표적인 방식으로 데이터 대시보드(Data Dashboard)가 있다. 데이터 대시보드란 여러 시각화 차트와 표 등으로 구성되어 중요한 데이터 지표를 모니터링하는 용도로 사용한다. 대부분의 데이터 대시보드는 데이터 조회 기간을 선택하거나 특정 기준으로 데이터를 필터링할 수 있는 인터랙티브 기능을 제공해 사용자는 자유롭게 데이터 탐색을 할 수 있다.

데이터 대시보드는 이런 특성 덕분에 기업이나 조직에서 매우 유용하게 활용된다. 다수의 조직 구성원이 공동의 데이터 대시보드를 공유하고 각기 다른 관점에서 데이터를 탐색해 인사이트를 도출할 수 있기 때문이다. 특히 데이터 대시보드는 시각화 차트로 구성되기 때문에 데이터 분석 전문가가 아니더라도 여러 기능을 통해 데이터를 유용하게 활용할 수 있다. 이를 바탕으로 기업이나 조직은 쉽게 발견하지 못했던 문제점을 찾고, 정확한 데이터를 근거로 중요한 의사결정을 할 수 있다.

데이터 시각화 어디에, 어떻게 사용할까?

우리나라 정부가 제공하는 다양한 공공 데이터를 시각화한 사례 (출처: 공공데이터포털 – https://www.data.go.kr/)

많은 기업들이 보유 데이터의 활용도를 높이기 위해 데이터 시각화를 도입하고 있다. 사내 성과 지표 추적, 데이터 기반의 마케팅 활성화 등을 위한 목적으로 데이터 대시보드를 구축하고 활용하고 있다. 가령 금융권에서는 은행의 핵심 경영지표, 조직 단위별 영업 실적 모니터링, 고객 특성에 따른 비정형 정보 분석 등 다양한 데이터를 숫자가 아닌 시각화 형태로 만들어 업무의 효율성을 높이고 있다. 언론사나 미디어에서는 데이터를 기반으로 한 스토리텔링에 방점을 두고 데이터 저널리즘을 실현하는 데 데이터 시각화를 적극적으로 활용하기도 한다. 데이터를 활용한 콘텐츠 제작으로 객관성과 신뢰성을 높이면서, 이를 독자들에게 효과적으로 스토리텔링하기 위해 시각화 기법을 사용하는 것이다.

다양한 데이터 시각화 솔루션

데이터 시각화의 활용도가 높아짐에 따라 데이터 시각화를 누구나 쉽게 구현하기 다양한 솔루션도 등장했다. 대표적으로 마이크로소프트의 Power BI와 태블로(Tableau)가 있다. Power BI는 모든 데이터를 원하는 방법으로 어디서나 접근하고 한눈에 볼 수 있는 데이터 활용 도구로 70종 이상의 데이터 커넥터를 제공하기 때문에 다양한 데이터 소스를 시각화하는 데 유용하다. 마찬가지로 태블로 역시 복잡한 데이터 소스를 시각적으로 분석해 보여주는 툴로 데이터 시각화에 누구나 쉽게 접근할 수 있도록 다양한 시각화 기능을 제공한다. 이외에도 오라클 비즈니스 인텔리전스(Oracle OBIEE), SAP 분석 클라우드(SAP Analytics Cloud), 마이크로스트래티지(MicroStrategy), 도모(Domo) 등 다양한 데이터 시각화 솔루션이 있다.

현대로템의 데이터 대시보드 활용 사례

현대로템이 빅데이터 분석 플랫폼에 활용 중인 데이터 시각화 사례. 좌- Sub-system Diagnosis, 우-Event Analysis

현대로템은 지난 2018년부터 열차의 빅데이터를 활용한 스마트 유지보수의 일환인 상태 기반 유지보수(Condition Based Maintenance, CBM)와 예측 유지보수(Predictive Maintenance)가 가능한 빅데이터 분석 플랫폼을 개발했다. 이 플랫폼은 프로젝트별 요구사항에 따라 구축 방법과 활용 방법도 조금씩 상이하다. 주요 장치의 센서 데이터의 수집과 분석을 위주로 한 빅데이터 분석 플랫폼의 형태를 갖거나 실시간 모니터링과 진단을 통해 운영자에게 보다 직관적인 열차의 상태를 제공하는 플랫폼의 형태가 있으며, 이러한 플랫폼은 모두 사물인터넷(Internet of Things, IoT) 기술을 활용해 각종 센서와 데이터 수집 장치에 연결된 뒤 철도차량의 정보를 수집하고 이를 분석하여 곧바로 필요한 조치를 취할 수 있어 스마트한 열차 운영 및 유지보수가 가능하다.

이 시스템에서 관리자가 쉽게 문제점을 파악하고 해결할 수 있도록 가능하게 한 것이 데이터 시각화와 데이터 대시보드다. 열차에서 실시간으로 수집되는 수많은 데이터는 수치만 놓고 봤을 때 단시간 내에 문제점 파악이 힘들지만, 데이터의 전처리와 시각화를 통해 직관적으로 문제점을 파악하고 해결할 수 있도록 시스템을 구축한 사례다. 가령 현대로템은 상태기반 유지보수 시스템 데이터 대시보드 내에서 진단장치의 이벤트 발생 결과, 진단 결과 스코어, 열차의 주행거리, 진단장치의 잔류수명, 진단 장치의 유지보수 이력, 열차의 누적 고장 수, 장치별 고장 발생 건수, 편성별 고장 비율, 고장 발생 TOP 10 분석, 위치별 고장 발생 건수 등 다양한 데이터를 쉽게 파악할 수 있다. 관리자는 해당 데이터를 시각화한 대시보드를 통해 데이터를 기반으로 열차의 현재 상태를 파악하고, 고장 발생 가능성을 예측해 탑승객들의 안전한 열차 이용 환경을 제공할 수 있다.

실시간 열차 상태 모니터링 및 진단 플랫폼에 활용 중인 데이터 시각화의 사례

현대로템은 열차의 유지보수뿐만 아니라 열차 내 각종 데이터를 실시간으로 모니터링하여 진단을 수월하게 할 수 있도록 시각화를 통해 운영자와 유지보수자가 열차를 보다 효율적으로 관리할 수 있도록 인사이트를 제공하고 있다. 열차 실시간 모니터링 진단 플랫폼은 열차의 실내 온도, 승객수, 객실등 점멸 상태, 추진/제동 지령, 가선 전압, 배터리 전압, 주공기 압력 등의 실시간 정보를 데이터 대시보드를 통해 실시간으로 파악해 열차 내 환경을 최적으로 관리하고 있다.

기존의 데이터 활용 방식은 곳곳에 분산된 데이터를 일일이 열람하고 분석해 문제점을 파악하고 해결방안을 도출하는 형태로 진행됐다. 이는 시간과 노력이 필요할 뿐만 아니라 전문 분석가가 아닌 사람은 접근하기 힘들었다. 하지만 데이터를 수집 및 분석하는 기술이 발전하고 동시에 이를 효과적으로 보여주기 위한 데이터 시각화 기술이 보편화됨에 따라 방대한 양의 데이터를 한 화면에 구현해 효율적으로 문제점을 파악하고 의사결정을 신속하게 진행할 수 있게 됐다.

실제로 해외에서는 데이터를 활용한 스마트 유지보수 플랫폼 도입을 통해 유지보수 비용을 기존 대비 최대 30%까지 절감한 경우도 있다. 물론 이런 비용 절감이 전부 데이터 시각화에 따른 효과는 아니겠지만, 데이터를 의사결정에 활용하는 최종 형태는 결국 시각화라는 점에서 데이터 시각화의 중요성은 매우 높다. 데이터를 어떻게 확보하느냐보다 어떻게 활용하는지가 중요해진 최근 추세에 따라 데이터에 가치를 부여하는 기술인 데이터 시각화에 대한 관심도 점점 더 뜨거워지고 있다.