⭐️ 프로젝트 개요
- 기간 : 2024.03.05 ~ 2024.05.20
- 프로젝트 성과 : 한국데이터정보과학회 춘계학술대회 참가(포스터 부문), KCI 논문 투고(on review)
💡 Motivation
1. 데이터 결합을 통한 빅데이터 구축의 중요성 증대
- 2023년 스위스 국제경영개발원(IMD)이 발표한 세계 디지털 경쟁력 평가 순위 👉🏻 한국은 6위를 기록 (전년 대비 2단계 상승)
- 특히 평가 분야 중 미래 준비도 분야에서 전체 1위를 기록
- 빅데이터 및 분석기술 활용 항목이 해당 분야에 포함
- 한국의 빅데이터 및 분석기술 활용 능력이 매우 높은 수준으로 평가 받았다 볼 수 있음
- 2023년 과학기술정보통신부에서 데이터 결합을 통한 빅데이터 구축의 기대효과 발표
- 여러 항목들에 대한 기대효과 발표를 통해 빅데이터 구축의 산업적 효과 및 국민﹒기업 편익에 대한 기대를 드러냄
- 빅데이터 활용을 위한 정부적 차원의 노력
- 금융위원회의 이종산업간 데이터 결합 활성화를 위한 제도 개선(2022)
- 데이터 통합 지원 센터와 공공 데이터 활용 지원 센터를 통한 국가 데이터 정책 추진 및 데이터 구축﹒분석﹒활용 지원
2. 데이터 결합으로 인한 개인정보 유출 문제의 심각성
- Apple의 'The Continued Threat to Personal Data : Key Factors Behind the 2023 Increase'
- 지난 2년간 전 세계에서 26억 건의 개인정보가 유출
- 최근까지 국내에서 지속적으로 발생하는 기업 단위의 개인정보 유출
👉🏻 이러한 문제들과 더불어 기업들의 직접적인 데이터 공유에 대한 냉소적인 태도로 인해 데이터의 직접적인 공유는 사실상 불가
3. 관련 선행 연구
- 최근 기업간 데이터 결합은 결합키 관리 기관, 결합 전문 기관의 별도 기관을 거쳐서 진행되고 있음
- 이에 따라 실시간 데이터 결합은 불가능하며, 데이터 결합에 시간과 비용이 많이 소요되는 단점 존재
- 데이터 결합에 관해 진행되고 있는 연구들은 대부분 법정책적 연구나 특정 분야에 국한되어 진행됨
🤔 개인정보 유출 문제로부터 안전하면서도, 실시간으로 데이터를 결합할 수 있는 직접적인 데이터 결합 방법은 없을까?
⚙️ STC(STatistical Data Combination) 프로세스
💡 idea
- 결합 대상 데이터의 그룹별 통계값을 구해 기준 데이터와 결합하는 프로세스
🛠️ process
- 고유정보(성별, 나이)를 기준으로 각 데이터를 그룹화
- 결합 대상 데이터의 각 그룹별로 데이터 특성에 맞는 통계값 생성 (ex: 최빈값, 평균, 중앙값..)
- 기준 데이터의 각 그룹별로 결합 대상 데이터에서 생성한 동일 그룹의 통계 데이터 결합
👍🏻 benefits
- 데이터를 그룹화하여 집계한 통계값 사용 → 이상치의 영향이 감소
- 최소한의 고유정보를 기준으로 그룹화 → 주체가 특정될 위험 감소
⚙️ SEC(SEquential Data Combination) 프로세스
💡 idea
- 동일 그룹 데이터들에 대해 순차적인 일대일 결합을 수행하는 프로세스
🛠️ process
- 고유정보(성별, 나이)를 기준으로 각 데이터를 그룹화
- 동일한 그룹의 데이터들에 대해 순차적인 일대일 결합 수행
- 결합 대상 데이터가 적은 경우, 데이터의 첫번째 인덱스로 돌아가 이를 반복
👍🏻 benefits
- 데이터 손실이 없는 결합 방식
- 최소한의 고유정보를 기준으로 그룹화 → 주체가 특정될 위험 감소
📖 Federated learning
💡 idea
- 2016년 Jakub Konečný에 의해 제시된 아이디어
🛠️ process
- 각 클라이언트들이 로컬 환경에서 각자의 데이터로 학습시킨 모델의 개별 가중치를 업데이트
- 해당 업데이트를 중앙 서버로 전달하여 집계
- 전달된 업데이트를 바탕으로 서버에서 통합 업데이트 진행
👍🏻 benefits
- 데이터의 탈중앙화
- 데이터의 외부 노출 차단
📖 Split learning
💡 idea
- 2018년 MIT에서 제시한 분할학습은 클라이언트가 모델의 앞부분을 학습하고 서버가 뒷부분을 학습함
- 이러한 방법은 각 학습의 가중치가 반영되기가 어렵다는 문제가 있음
- 따라서 선행 연구된 다양한 분할 학습 과정 형태들을 연구에 맞게 연합 학습과 분할 학습의 하이브리드 방식으로 재구성함
🛠️ process
- 각 클라이언트들이 로컬 환경에서 각자의 데이터로 절단 레이어까지 모델을 훈련
- 가중치와 데이터 결합 키를 서버로 전송
- 서버에서는 획득한 가중치와 결합한 데이터를 사용해 나머지 레이어를 훈련시켜 순전파 수행
- 서버에서 최종 레이어의 그래디언트 생성 및 절단 레이어까지 역전파 수행
- 절단 레이어에서 그래디언트를 상대 클라이언트로 전달해 나머지 역전파 수행
👍🏻 benefits
- 각 학습의 가중치가 모두 반영됨
- 데이터 보안을 유지하며 협력적인 학습이 가능
📝 학습 및 예측 결과
- 모델의 학습에는 신용카드 연체 예측 데이터와 건강보험 관심도 예측 데이터를 사용
- 데이터의 특성을 고려하여 구성된 딥러닝 모델을 통해 예측 수행
✏️ 예측 성능 평가 지표
Data | Accuracy | Precision | Recall | F1 Score | |
Credit card deliquency prediction data |
Original Data | 0.49 | 0.16 | 0.33 | 0.22 |
SEC processed Data | 0.50 | 0.44 | 0.39 | 0.35 | |
STC processed Data | 0.51 | 0.32 | 0.38 | 0.31 | |
Health insurance interest prediction data |
Original Data | 0.68 | 0.40 | 0.00 | 0.00 |
SEC processed Data | 0.76 | 0.58 | 0.76 | 0.66 | |
STC processed Data | 0.76 | 0.60 | 0.71 | 0.65 |
✅ 결과
- SEC 프로세스 및 STC 프로세스를 통해 결합한 데이터 → 결합 전 단일 데이터에 비해 예측 정확도 향상
- STC 프로세스를 통해 결합한 데이터를 학습한 경우 → 예측 데이터를 직접 확인한 결과, 예측 데이터가 하나의 값에 편향
- SEC 프로세스를 통해 결합한 데이터를 학습한 경우 → 예측 데이터를 직접 확인한 결과, 예측 데이터가 골고루 분포
🔍 해석
- 결합 전 단일 데이터 → 데이터의 갯수 뿐 아니라 feature 갯수가 부족
- STC 프로세스를 통해 결합한 데이터 → 같은 그룹의 데이터에는 동일한 데이터가 결합
- SEC 프로세스를 통해 결합한 데이터 → 같은 그룹의 데이터라도 서로 다른 데이터가 결합
✏️ SHAP 분석
🔍 해석
- 결합한 데이터들의 SHAP value 확인 → 상위 20개의 중요 변수를 시각화
- 기존 데이터의 변수와 더불어 결합된 데이터의 변수가 나타남 → 결합된 데이터가 예측에 중요한 요소로 쓰임
👉🏻 예측 성능 향상에 데이터 결합이 영향을 미쳤음을 시사
😎 결론 및 시사점
✅ 결론
- 결합 전 단일 데이터에 비해 SEC 프로세스 및 STC 프로세스를 통해 결합된 데이터를 학습한 경우 예측 정확도가 향상
- 두 가지 결합 방법론 중 SEC 프로세스를 통해 결합된 데이터를 학습한 경우의 예측이 정확하였음
✅ 시사점
- SEC 프로세스를 통한 데이터 결합을 바탕으로 개인정보 유출 문제 해결이 가능
- SEC 프로세스는 다양한 산업 간 데이터 결합에 활용이 가능
👉🏻 개인정보 유출 문제에 자유로운 데이터 결합을 바탕으로 다양한 부가가치 창출이 가능
👉🏻 실시간으로 안전한 데이터 결합이 가능하므로, 고도화된 크로스 도메인 추천 시스템, 개인화 서비스 등의 개발에 활용될 수 있음