[한국 AI의 착시] ⑤데이터는 많은데, 왜 AI 시장은 열리지 않나

의료·금융·공공 데이터 활용 확대 추진…표준화·책임·신뢰 체계가 병목

한국은 데이터가 부족한 나라가 아니다. 병원에는 진료와 검사 기록이 쌓여 있고, 금융권에는 거래와 신용 정보가 축적돼 있다. 공공기관도 행정, 교통, 기상, 복지 데이터를 보유하고 있다. 제조 현장에도 공정과 품질 데이터가 남아 있다.

그러나 데이터가 많다는 것과 인공지능(AI)이 쓸 수 있다는 것은 다른 문제다. AI가 학습하고 판단하려면 데이터가 표준화돼 있어야 하고, 결합할 수 있어야 하며, 품질과 활용 목적도 분명해야 한다. 개인정보 보호, 기관 간 칸막이, 책임 소재 불명확성은 여전히 병목으로 남아 있다.

한국 AI의 다섯 번째 착시는 데이터의 양을 경쟁력으로 착각하는 데서 나온다. 데이터가 쌓여 있어도 활용 가능한 구조가 없으면 AI 산업의 원재료가 되기 어렵다. 정부가 의료, 금융, 공공 영역에서 데이터 개방과 결합, 가명처리 제도를 손보는 것도 이 때문이다.

# 의료데이터, 활용 확대 나섰지만 책임 기준이 관건

의료데이터는 AI 개발에 중요한 자원 중 하나다. 영상, 전자의무기록(EMR·전자의무기록), 유전체, 건강검진 데이터는 진단 보조, 질병 예측, 병원 업무 자동화, 신약 개발에 활용될 수 있다. 한국은 건강보험 체계와 대형병원 중심의 고밀도 진료 데이터를 갖고 있어 의료 AI의 잠재력이 크다는 평가를 받아왔다.

정부는 의료 AI 스타트업과 중소기업의 데이터 접근성을 높이는 방향으로 사업을 확대하고 있다. 보건복지부는 의료데이터 이용권 지원을 지난해 8개 과제에서 올해 40개 과제로 늘리고, 각 의료기관이 보유한 데이터를 연구자가 쉽게 확인할 수 있도록 메타데이터 기반 연결 체계를 마련하겠다고 밝혔다.

데이터 제공 심의를 효율화하기 위해 기관생명윤리위원회(IRB·기관생명윤리위원회)와 데이터심의위원회(DRB·데이터심의위원회)의 표준 운영절차를 제시하고, 공용 DRB 제도도 신설하기로 했다.

의료 AI 데이터 활용 바우처 지원사업도 같은 흐름이다. 의료 AI 분야 중소기업과 스타트업이 의료데이터 중심병원의 임상데이터를 활용할 수 있도록 비용을 지원하는 방식이다. 이는 데이터 접근 비용과 기관 간 연결 문제를 줄여 의료 AI 개발 속도를 높이려는 조치다.

다만 의료데이터는 가장 민감한 개인정보에 속한다. 활용을 넓히는 만큼 책임 문제도 커진다. AI가 진단을 보조했을 때 오류가 나면 누가 책임질 것인지, 가명처리된 데이터가 재식별될 위험은 어떻게 관리할 것인지, 병원과 기업이 데이터를 공유할 때 환자의 신뢰를 어떻게 확보할 것인지가 핵심 쟁점이다.

의료 현장에서도 책임과 품질 문제가 주요 과제로 꼽힌다. 한국보건산업진흥원의 '2025년 의료 인공지능 활용 실태조사'에 따르면, 의사들은 의료 AI 활성화를 위해 책임·배상 기준 명확화, 허가·인증 기준 강화, 데이터 품질 관리, 사후 모니터링 체계 구축이 필요하다고 답했다. 기술 개발만으로 의료 AI 시장이 열리기 어렵다는 의미다.

# 금융 마이데이터는 커졌지만 AI 활용은 별개 문제

금융권도 데이터 기반이 두텁다. 금융 마이데이터는 지난 2022년 본격 시행 이후 개인이 자신의 금융자산과 거래내역을 통합 조회할 수 있는 기반을 만들었다. 금융위원회에 따르면, 지난해 5월 말 기준 마이데이터 서비스 이용자 수는 중복 가입 기준 약 1억 6,531만 명으로, 가입 가능한 14세 이상 국민 한 명당 약 3.5개 서비스를 이용하는 수준이다.

금융당국은 마이데이터 2.0을 통해 서비스 범위도 넓히고 있다. 사용하지 않는 소액 계좌를 마이데이터 앱에서 조회한 뒤 바로 해지할 수 있도록 어카운트인포 시스템을 연계하는 식이다. 금융자산 조회에서 계좌 정리와 자산관리 실행으로 기능을 확장하는 흐름이다.

금융 공공데이터 개방도 확대되고 있다. 금융위는 올해 국가 AI 전략과 연계한 데이터 발굴·개방을 추진하고, AI 친화적인 금융공공데이터 활용 기반을 확충하겠다고 밝혔다. 데이터 표준화와 품질 개선도 함께 추진해 금융산업 전반의 혁신 생태계 조성에 기여하겠다는 계획이다.

그러나 금융 데이터가 많다고 금융 AI 시장이 자동으로 열리는 것은 아니다. 금융권은 대출, 투자, 보험, 자산관리처럼 소비자 손실과 직결되는 분야가 많다. AI가 추천한 상품이나 심사 결과가 차별, 오류, 불완전판매 논란으로 이어질 수 있다. 개인정보와 신용정보 규제도 강하다.

금융 AI의 쟁점은 데이터 접근보다 신뢰와 설명 가능성으로 이동하고 있다. 어떤 데이터로 AI가 판단했는지, 소비자에게 불리한 결과가 나왔을 때 이의를 제기할 수 있는지, 금융회사가 알고리즘의 책임을 질 수 있는지가 시장 확산의 조건이 된다. 금융 데이터는 AI에 값비싼 자원이지만, 동시에 가장 조심스럽게 다뤄야 하는 자원이기도 하다.

# 공공데이터는 늘었지만 활용성은 과제

공공데이터도 양적으로는 크게 늘었다. 행정안전부 발표에 따르면, 지난해 1월 기준 공공데이터포털을 통해 개방된 공공데이터는 10만2,052건으로 집계됐다. 2013년 개방 건수 5,272건에서 12년 만에 약 20배 늘어난 규모다.

하지만 AI가 필요로 하는 데이터는 단순히 공개된 파일의 숫자와 다르다. AI 학습과 서비스 개발에 쓰려면 데이터가 최신성을 갖고 있어야 하고, 기계가 읽을 수 있는 형식이어야 하며, 다른 데이터와 결합하기 쉬워야 한다. 품질과 표준, 메타데이터가 부족하면 공개 데이터도 실제 산업 활용으로 이어지기 어렵다.

지난해 공공데이터 제공 운영실태 평가 결과도 이 점을 보여준다. 행안부는 중앙정부와 지방정부, 공공기관 등 684개 기관을 대상으로 공공데이터 제공 운영실태를 평가했는데, 평가 영역별 점수는 관리체계 89.5점, 품질 72.5점, 개방·활용 59.2점 순으로 나타났다. 관리체계는 비교적 높은 평가를 받았지만, 실제 개방과 활용 부문은 상대적으로 낮았다.

공공데이터는 AI 산업에서 중요한 초기 시장을 만들 수 있다. 교통, 기상, 재난, 복지, 행정 데이터는 민간 서비스와 결합될 여지가 크다. 기상청은 지난 한 해 공공데이터개방플랫폼을 통한 기상정보 응용프로그램 인터페이스(API·응용프로그램 인터페이스) 이용 건수가 50억 건을 넘어섰다고 밝혔다. 에너지 분야 이용 건수는 전년 대비 7.3배, 방재 분야는 3.0배 늘었다. 고품질 공공데이터가 실제 서비스와 연구에 활용될 수 있음을 보여주는 사례다.

관건은 공공데이터를 '공개'에서 '활용'으로 옮기는 일이다. 기업이 원하는 데이터가 어디에 있는지 찾기 쉽고, 형식이 통일돼 있으며, 응용프로그램 인터페이스와 결합 서비스로 연결돼야 한다. AI 시대의 공공데이터 정책은 파일을 많이 올리는 방식에서 벗어나 고가치 데이터의 품질과 활용성을 높이는 방향으로 바뀌어야 한다는 지적이 나온다.

# 가명정보 제도 손질…활용과 보호의 균형 시험대

데이터 활용 확대를 위해 제도도 바뀌고 있다. 개인정보보호위원회는 올해 3월 개정한 '가명정보 처리 가이드라인'을 공개했다. 개정 가이드라인은 AI 전환 등 데이터 활용 환경 변화를 반영해 가명정보 처리 기준을 정비한 것이다.

개인정보위는 이번 개정으로 가명정보 처리 기준을 실질적 위험도 기반으로 전환하고, AI 반복학습과 확장 활용에 제약이 있던 기존 제도를 목적·기간·검수 방식의 유연화 등을 통해 개선했다고 설명했다.

가명정보는 개인정보를 일부 처리해 특정 개인을 알아보기 어렵게 만든 정보다. 의료, 금융, 공공 데이터를 AI 개발에 활용하려면 가명정보 제도는 핵심 통로가 된다. 완전한 익명정보만 허용하면 활용성이 떨어지고, 원본 개인정보 활용을 넓히면 사생활 침해 위험이 커진다. 가명정보는 이 사이에서 활용과 보호의 균형을 맞추는 제도적 장치다.

하지만 현장에서는 여전히 불확실성이 크다. 어떤 수준까지 가명처리를 해야 충분한지, 결합 과정에서 재식별 위험은 어떻게 판단할지, 데이터 제공기관과 활용기관의 책임은 어디까지인지에 대한 부담이 남아 있다. 기준이 불명확하면 기관은 데이터를 내놓지 않고, 기업은 활용을 포기한다.

AI 기본법 시행도 데이터 활용의 환경을 바꾸고 있다. '인공지능 발전과 신뢰 기반 조성 등에 관한 기본법'은 올해 1월 시행됐다. 법은 인공지능의 건전한 발전과 신뢰 기반 조성에 필요한 기본 사항을 규정하고, 국민의 권익과 존엄성 보호, 삶의 질 향상, 국가경쟁력 강화를 목적으로 한다.

데이터 활용은 이제 단순 규제 완화의 문제가 아니다. 어떤 데이터가 어떤 목적으로 쓰이는지, AI가 어떤 판단을 내리는지, 문제가 발생했을 때 누가 책임지는지를 함께 설계해야 한다. 신뢰 없는 데이터 활용은 사회적 반발을 부르고, 과도한 보호만으로는 AI 산업화가 늦어진다.

# 데이터의 양보다 중요한 것은 구조다

한국 AI의 다섯 번째 착시는 데이터의 양을 경쟁력으로 착각하는 데 있다. 병원과 금융회사, 공공기관, 제조 현장에 데이터가 쌓여 있는 것은 사실이다. 그러나 AI가 쓸 수 있는 데이터는 다르다. 표준화돼 있어야 하고, 결합할 수 있어야 하며, 품질이 검증돼야 한다. 활용 목적과 책임 구조도 분명해야 한다.

의료데이터는 환자의 신뢰 없이는 산업화되기 어렵다. 금융데이터는 설명 가능성과 소비자 보호 없이는 확산되기 어렵다. 공공데이터는 품질과 활용성이 낮으면 파일 개방에 그친다. 데이터가 많아도 정제와 유통 구조가 없으면 AI 산업의 원재료가 아니라 잠긴 자산에 머물 수밖에 없다.

한국형 AI의 시장을 열려면 데이터 정책의 질문도 바뀌어야 한다. "얼마나 많이 열 것인가"보다 "누가, 어떤 목적과 책임 아래, 어떤 품질의 데이터를 쓸 수 있게 할 것인가"가 중요하다. 데이터 개방률보다 중요한 것은 데이터가 실제 AI 서비스와 산업 현장으로 흘러가는 경로다.

정부와 기업의 과제도 데이터 축적을 넘어 활용 가능한 구조를 만드는 쪽으로 이동하고 있다. 의료, 금융, 공공 영역에서 검증 가능한 데이터 활용 사례를 만들고, 그 과정에서 표준과 책임 기준을 세워야 한다. 데이터 신탁, 가명정보 결합, 공공 테스트베드, 산업별 데이터 표준화가 함께 움직여야 하는 이유다.

조대형 기자 [email protected]

다른 기사 보기

댓글 남기기 응답 취소