많은 사람들이 ‘호수처럼 잔잔하고 고요하다’는 표현을 즐겨 쓴다. 바다나 강과는 달리, 호수는 대부분 수면의 움직임이 없어 풍경을 아름답게 비춰주곤 한다. 그러나 잊기 쉬운 사실이 하나 있다. 깨끗하고 아름답게 유지되기 위해 호수는 끊임없이 움직이고 있다는 점이다. 호수는 계속해서 물을 받아들이고 내보내며, 호수 자체의 형태와 물의 양도 잠시도 쉬지 않고 바뀌고 있다. 또한 호수의 표면과 수면 아래, 호숫가 주변에는 수많은 생명체들이 살아가며 활발한 생명 활동을 펼치고 있다. 호수란, 고요함이나 잔잔함에서는 거리가 먼 공간인 것이다.
GE가 새롭게 구축한 산업용 데이터 저장 관리 시스템인 ‘데이터 레이크’. 이 첨단 시스템에 하필 ‘호수’라는 명칭을 사용한 이유는, 글머리에서 말한 호수의 역동적인 특성과 이어져 있다. 최근 GE와 피보탈사는 산업용 대규모 데이터 레이크를 최초로 구축했다. 이 시스템을 통해 기업들은 산업인터넷 과 연결된 장비에서 얻은 데이터를 저장하고, 관리와 분석을 통해 새로운 정보를 알 수 있다.
데이터 레이크 시스템을 통해 이미 취합된 정보는 300만 편의 항공 정보와 맞먹는 양인 340테라바이트 규모다. 데이터 레이크가 이 막대한 양의 정보를 처리하는 속도는 기존 방식보다 2000배 이상 빠른 데 비해 소요 비용은 기존의 10분의 에 불과하다. 예전에 1개월 이상 소요되던 복잡한 작업이 20분 안에 끝나버리는 것이다.
데이터 레이크, 데이터 분석의 새로운 개념
GE는 빅데이터 기술의 가능성과 미래를 확신하고 있다. GE소프트웨어 부사장 빌 루는 “빅데이터 시장과 그 중요성이 급부상하고 있습니다. 기존 장비의 성능을 압도하는 이 새로운 장비들의 우수성이 충분히 증명되고 있습니다.”라고 말한다. GE항공의 최고기술책임자인 컴퓨터 과학자 데이비드 바틀렛은, 향후 발생할 문제를 예측하고 장비 운용의 효율성과 지속성을 증대시키는데 데이터 레이크 시스템이 기여할 것이며, 기업의 이익도 늘 것이라고 말한다. 기계와 장비에 대한 유지보수와 서비스 가 더 좋아진다는 것이다. “우리가 가진 가능성을 최대한 활용할 수 있게 되죠.”라는 것이 그의 말이다.

데이터 레이크 시스템은 제트 엔진, 철도 기관, 의료 장비 등 셀 수 없이 다양한 산업 분야와 하드웨어에 적용될 것이다.
데이터 레이크는 데이터의 형태에 구애 받지 않는다. 여러 형식의 데이터를 막대한 양으로 받아들이고 저장할 수 있다. 크고 작은 시냇물과 지류가 흘러 들어 호수나 강을 만드는 것과 마찬가지다. 데이터 레이크는 기존의 데이터 웨어하우스, 특정 업무와 관련하여 기업 활동을 지원하는 대규모 데이터베이스와는 다르다. 데이터 웨어하우스는 데이터가 입력되는 시점부터 시작해서 데이터를 분류하고 카테고리를 나눈다.
“데이터 웨어하우스처럼 데이터를 분류하고 나누는 대신, 데이터 레이크는 메타데이터, 즉 데이터에 관한 데이터를 수집합니다. 메타데이터는 기존 분석기법이 놓치곤 했던 맥락(Context)에 대한 정보도 제공하죠.” 데이비드 바틀렛 설명이다. 데이터 레이크 시스템을 통해 기업들은 기존 시스템과 비교해 더 많은 문제를 해결할 수 있게 되었다.
이 데이터 레이크 시스템을 통해 기업들은 기존 시스템과 비교해 더 많은 문제를 해결할 수 있게 되었다. 데이터 레이크의 내용에 대한 데이비드 바틀렛의 설명을 조금 더 들어보자.
“데이터베이스 내의 수치들(Numeric Sequence)은 맥락이 분석될 때에만 의미를 가집니다. 그 수치 자체로는 1차원적인 결과, 예를 들어 특정한 제트 엔진의 최근 2년 간 정비 비용 같은 정보만 산출할 수 있습니다. 그렇지만 데이터 레이크는 특정 상황과 연관된 다양한 분석을 제공합니다. 예를 들어 엔진 정비의 원인, 향후 고장 방지를 위한 예방 정비와 예측에 관한 정보도 제공할 수 있다는 말이죠.”
생물학과 생태계를 연구했던 바틀렛은 데이터 레이크의 개념을 설명하기 위해 생물학적인 비유를 든다. “데이터 레이크는 다양한 생태계가 존재하는 숲 속의 연못과도 같습니다. 수많은 유기체들이 모여 미생물부터 최상위 포식동물에 이르는 먹이사슬을 형성하죠. 물의 깊이, 산소 양, 양분 수준, 기온, 염도, 물의 흐름 같은 요소가 복잡하고 상호 연결된 생태계를 만듭니다. 호수에 낚시를 드리우면 뭐가 잡힐지 알 수 없습니다. 그래서 낚시가 재미있어지죠. 마찬가지로, 데이터 레이크에서 질문을 던지고 얻을 수 있는 정보는 사실상 무한하다고 봐야 합니다.”
“반면, 기존의 데이터베이스는 물고기 양식장이라고 생각할 수 있습니다. 같은 종의 물고기가 같은 사료와 영양 보조제를 먹으며 자라고 있어요. 생태계를 아무리 충실히 재현하더라도 한계가 있을 수 밖에 없습니다. 여기에 낚시를 던지면 어떤 어종이 잡힐지 당연히 예상할 수 있겠죠? 유용하다고 할 수도 있겠지만, 우리가 얻을 수 있는 것은 제한적입니다.”
스스로 문제와 해답을 찾아내는 데이터 레이크
이미 25개 항공사가 GE와 피보탈의 데이터 레이크 시스템을 통해 데이터를 전송하고 있다. 항공기 운용과 유지 관리 측면의 효율성이 향상되고 있음은 물론이다. 데이터 레이크는 사용자가 이상 현상을 감지할 수 있도록 해준다. 예를 들어 제트 엔진의 온도가 평소보다 높다면, 시스템은 과거 동일 엔진에 유사한 현상이 있었는지 검색할 뿐만 아니라 엔진의 사용 기간, 정비 이력 같은 다른 많은 요소들을 분석해낸다. 시스템이 알아서 문제를 분석하고 찾아내며 예측하는 것이 가능해졌다. 기존 기술에 데이터 레이크 시스템이 더해지면서, 마치 SF영화에서나 볼 수 있었던 일들이 현실에서 이뤄지고 있는 것이다.
데이터 레이크는 GE의 산업 소프트웨어 플랫폼인 프레딕스(PredixTM)와 오픈소스 프로젝트 아파치 하둡(Apache Hadoop)같은 대량 병렬처리 아키텍처 시스템과 함께 운용할 수 있다. 데이비드 바틀렛은 데이터 레이크 시스템이 앞으로 제트 엔진, 철도 기관, 의료장비 등 다양한 산업 분야와 다양한 장비에 적용될 것이라고 예측한다. “데이터 레이크는 질문을 던지고 해답을 찾아냅니다. 그 이전까지 상상도 할 수 없었던 시스템이에요. 데이터 레이크에는 비즈니스 모델을 통째로 바꿀 수 있는 힘이 있습니다.”