빅데이터 분석 기술이 사람을 차별 한다면, 그 책임은 누구에게 있을까? ‘민주주의와 기술을 위한 센터(Center for Democracy & Technology, CDT)’의 누알라 오코너(Nuala O’Connor) 대표는, 인간에 대한 고민이 없다면 알고리즘도 존재하지 않는다고 말한다. GE리포트에서는 알고리즘 및 빅데이터와 인간의 자유와 평등을 관련 지어 생각한 누알라 오코너의 글을 소개한다. 본 내용은 필자 본인의 견해이며 GE리포트의 입장과 반드시 일치하는 것은 아니다.
인터넷 서핑을 하면서 우리는 평가를 받는다. 우리가 읽는 것, 구매하는 것, 심지어 ‘시크릿 모드’를 이용해 비밀을 유지하면서 노력하는 것들까지 우리의 모든 활동 데이터는 저장되고 분석되어, 우리가 누구인지를 설명하는 개인 프로파일 (Profile)로 만들어진다. 그리고 이 프로파일은 디지털 세계에서 우리에게 맞춤형 경험을 제공하기 위해 사용된다. 경쟁이 치열해지면서 기업 브랜드 인지도를 확보하고 차별화하기 위해, 프로파일을 사용하여 개인의 니즈에 맞춘 콘텐츠를 제공하는 웹사이트가 점점 더 증가하고 있다.
이런 분류(Sorting)와 개인화(Personalizing)는 무슨 기준으로 또는 누가 결정하는 것일까? 우리 정체성에 관한 디지털 인상(Impressions)은 인터넷을 구동하는 엄청난 양의 코드에 의해 수집되고 유지된다. 이 코드는 인간이 만들어내는 것이며, 차별적인 결과로 이어질 잠재적 가능성을 가지고 있다.
개인화 데이터는 차별화에 사용될 수 있다
개인화는 빅데이터 기술이 가져온 엄청난 성과이지만, 정책 입안자들에게 새로운 문제를 야기하기도 한다. 일부 온라인 분류 시스템이 차별적인 결과를 만들어낼 수 있다는 증거가 있다. 월스트리트저널은, 스테이플스닷컴(Staples.com)이 고객이 경쟁 매장에 얼마나 가까운지에 따라 상품 가격에 차별을 둔 사실을 발견해 보도했다. 만약 고객의 IP 주소가 경쟁 매장에서 20 마일(약 32킬로미터) 이내에 있으면, 상품 가격은 고객이 스테이플스(Staples) 근처에 있을 때보다 더 낮게 제시된다. 또한, 평균 가계 소득이 더 높은 지역에서 이 회사 상품 가격이 가계 소득이 낮은 지역보다 일반적으로 더 낮았다는 더욱 놀라운 사실도 발견했다. 즉, 소득이 더 많은 지역에는 낮은 가격이, 소득이 더 적은 지역에는 높은 가격이 책정된 것이다.
이런 보도나 다른 연구조사의 결과를 보고, 개인화의 잠재적 피해에 대응하려는 정책 논의가 점점 더 활발해지고 있다. 그런데 가장 어려운 문제 중 하나는 어떻게 시스템에 책임감을 부여하여, 자동으로 동작하도록 만들 것인가라는 것이다. 이런 논의 과정에서 명심해야 할 것은, 이런 자동화 시스템을 구축, 시험, 개선, 검사, 평가하는 과정에서 인간이 자동화의 중심에 존재한다는 점이다. 기업은 실제 세계 속에서 시스템이 어떤 함의를 가지는지, 그리고 시스템이 어떤 타입의 정보를 사용할 지에 충분히 고려해야 한다. 왜냐하면 이런 시스템의 잠재적 영향력은 광범하기 때문이다. 백악관의 빅데이터 보고서는 “주택, 신용 거래, 고용, 건강, 교육, 시장에서 개인 정보가 사용되는 방식에서, 빅데이터 분석은 오랜 세월 지속되어온 시민권 보호를 퇴색시킬 가능성이 있다”고 결론을 짓는다.
차별화를 없애기 위한 방법
그러면 기업은 무엇을 할 수 있을까? “자동화 시스템이 차별로 이어질 수 있을까?”라고 스스로 질문을 던져봐야 한다. 사실 컴퓨터가 사실(Fact)와 고정관념(Stereotype)을 구분하는 것은 불가능한 것은 아니지만 어려운 일이다. 이런 의무는 사람들과 그 사람들을 고용한 기업의 몫이다. 그러나 현재로는 기업이 이와 같은 문제를 해결하기 위해, 시간을 투자하도록 할 만한 유인책이 없다.
CDT와 UC버클리 정보대학원 연구팀이 함께 진행한 새로운 연구(링크)에서는 (기업이 ‘사용자’라고 대상화해서 부르는) ‘사람들’은 일부 특징에 기반한 개인화에 대해 실제로는 격한 감정을 가지고 있음을 밝혀냈다. 자신들이 어떻게 분류되고 있는지 알게 될 때, 사람들은 인종이나 가계 소득에 근거한 광고나 검색 결과, 특히 가격 책정에서의 개인화가 매우 불공평하다는 점을 알게 되었다. 인종이나 젠더처럼 오프라인에서는 사적으로 민감한 것이라 간주되지 않는 특성들도 온라인 정보 수집이라는 맥락에서는 민감하게 받아들여졌다. 이 조사에 응답한 이들 중 몇몇은, 자신들에 대한 판단의 결과 본인들이 뭔가 중요한 것을 놓칠 수도 있다는 우려를 표현했다.
연구 결과, 시스템에 기반한 개인화 이면의 판단이 그 효력이나 인식 측면에서도 해가 없지는 않다는 것을 알 수 있었다. 자동 분류의 결과로 사람들이 실질적인 피해를 경험할 수 있으며, 사람들은 자신이 ‘관련 없음’으로 분류되어 중요한 사실을 놓칠 수 있다는 가능성도 싫어했다. 이런 사실은 공정한 자동화를 주도하고 혁신하려는 기업에게 엄청난 기회가 될 수 있다. 결과적으로사람들에게도 이익이 된다.
CDT는 사람들이 컴퓨터 코드를 쓸 때 사용하는 가정(Assumptions)에 대해 질문을 하는 프로세스를 개발했다. 그것은 프로세스 안에 질문을 삽입하는 것으로 통계적 관계 이상으로 더 깊은 고민을 하도록 만든다. 이 데이터는 어디에서 왔는가? 이것은 모든 사람을 대표하는가? 데이터 처리 메커니즘이 다수에게 적합한 패턴을 증폭하여, 그 결과를 소수에게 적용하는가? 알고리즘을 만들면서 이 질문들을 던지는 것만으로는 충분하지 않다. 기업은 자동화에서 놀랍거나 의도치 않았던 모든 결과를 파악하기 위해 피드백 루프도 만들어야 한다.
제대로 관리된다면 자동화 시스템은 더 투명하고 명확해 질 뿐 아니라 더욱 정확해질 것이다. 그 결과 고객의 신뢰를 얻게 된다. 온라인 광고와 온라인 스토어에 더 많은 사람이 몰리면서, 고객이 신뢰할 수 있는 기업이 장기적으로 더 번창하게 될 것이다.