📝 SEC 프로세스를 통한 이종 산업 간 데이터 결합 문제 해결

2024. 5. 31. 19:34· Projects
목차
  1. ⭐️ 프로젝트 개요
  2. 💡 Motivation
  3. 1. 데이터 결합을 통한 빅데이터 구축의 중요성 증대
  4. 2. 데이터 결합으로 인한 개인정보 유출 문제의 심각성
  5. 3. 관련 선행 연구
  6. ⚙️ STC(STatistical Data Combination) 프로세스
  7. 💡 idea
  8. 🛠️ process
  9. 👍🏻 benefits
  10. ⚙️ SEC(SEquential Data Combination) 프로세스
  11. 💡 idea
  12. 🛠️ process
  13. 👍🏻 benefits
  14. 📖 Federated learning
  15. 💡 idea
  16. 🛠️ process
  17. 👍🏻 benefits
  18. 📖 Split learning
  19. 💡 idea
  20. 🛠️ process
  21. 👍🏻 benefits
  22. 📝 학습 및 예측 결과
  23. ✏️ 예측 성능 평가 지표
  24. ✅ 결과
  25. 🔍 해석
  26. ✏️ SHAP 분석
  27. 🔍 해석
  28. 😎 결론 및 시사점
  29. ✅ 결론
  30. ✅ 시사점

⭐️ 프로젝트 개요

- 기간 : 2024.03.05 ~ 2024.05.20
- 프로젝트 성과 : 한국데이터정보과학회 춘계학술대회 참가(포스터 부문), KCI 논문 투고(on review)


💡 Motivation

1. 데이터 결합을 통한 빅데이터 구축의 중요성 증대

  • 2023년 스위스 국제경영개발원(IMD)이 발표한 세계 디지털 경쟁력 평가 순위 👉🏻 한국은 6위를 기록 (전년 대비 2단계 상승)
    • 특히 평가 분야 중 미래 준비도 분야에서 전체 1위를 기록
    • 빅데이터 및 분석기술 활용 항목이 해당 분야에 포함
    • 한국의 빅데이터 및 분석기술 활용 능력이 매우 높은 수준으로 평가 받았다 볼 수 있음
  • 2023년 과학기술정보통신부에서 데이터 결합을 통한 빅데이터 구축의 기대효과 발표
    • 여러 항목들에 대한 기대효과 발표를 통해 빅데이터 구축의 산업적 효과 및 국민﹒기업 편익에 대한 기대를 드러냄
  • 빅데이터 활용을 위한 정부적 차원의 노력
    • 금융위원회의 이종산업간 데이터 결합 활성화를 위한 제도 개선(2022)
    • 데이터 통합 지원 센터와 공공 데이터 활용 지원 센터를 통한 국가 데이터 정책 추진 및 데이터 구축﹒분석﹒활용 지원

2. 데이터 결합으로 인한 개인정보 유출 문제의 심각성

  • Apple의 'The Continued Threat to Personal Data : Key Factors Behind the 2023 Increase'
    • 지난 2년간 전 세계에서 26억 건의 개인정보가 유출
    • 최근까지 국내에서 지속적으로 발생하는 기업 단위의 개인정보 유출

👉🏻 이러한 문제들과 더불어 기업들의 직접적인 데이터 공유에 대한 냉소적인 태도로 인해 데이터의 직접적인 공유는 사실상 불가

 

3. 관련 선행 연구

  • 최근 기업간 데이터 결합은 결합키 관리 기관, 결합 전문 기관의 별도 기관을 거쳐서 진행되고 있음
  • 이에 따라 실시간 데이터 결합은 불가능하며, 데이터 결합에 시간과 비용이 많이 소요되는 단점 존재
  • 데이터 결합에 관해 진행되고 있는 연구들은 대부분 법정책적 연구나 특정 분야에 국한되어 진행됨

🤔 개인정보 유출 문제로부터 안전하면서도, 실시간으로 데이터를 결합할 수 있는 직접적인 데이터 결합 방법은 없을까?


⚙️ STC(STatistical Data Combination) 프로세스

💡 idea

  • 결합 대상 데이터의 그룹별 통계값을 구해 기준 데이터와 결합하는 프로세스

🛠️ process

  1. 고유정보(성별, 나이)를 기준으로 각 데이터를 그룹화
  2. 결합 대상 데이터의 각 그룹별로 데이터 특성에 맞는 통계값 생성 (ex: 최빈값, 평균, 중앙값..)
  3. 기준 데이터의 각 그룹별로 결합 대상 데이터에서 생성한 동일 그룹의 통계 데이터 결합

👍🏻 benefits

  • 데이터를 그룹화하여 집계한 통계값 사용 → 이상치의 영향이 감소
  • 최소한의 고유정보를 기준으로 그룹화 → 주체가 특정될 위험 감소

⚙️ SEC(SEquential Data Combination) 프로세스

💡 idea

  • 동일 그룹 데이터들에 대해 순차적인 일대일 결합을 수행하는 프로세스

🛠️ process

  1. 고유정보(성별, 나이)를 기준으로 각 데이터를 그룹화
  2. 동일한 그룹의 데이터들에 대해 순차적인 일대일 결합 수행
  3. 결합 대상 데이터가 적은 경우, 데이터의 첫번째 인덱스로 돌아가 이를 반복

👍🏻 benefits

  • 데이터 손실이 없는 결합 방식
  • 최소한의 고유정보를 기준으로 그룹화 → 주체가 특정될 위험 감소

📖 Federated learning

💡 idea

  • 2016년 Jakub Konečný에 의해 제시된 아이디어

🛠️ process

  1. 각 클라이언트들이 로컬 환경에서 각자의 데이터로 학습시킨 모델의 개별 가중치를 업데이트
  2. 해당 업데이트를 중앙 서버로 전달하여 집계
  3. 전달된 업데이트를 바탕으로 서버에서 통합 업데이트 진행

👍🏻 benefits

  • 데이터의 탈중앙화
  • 데이터의 외부 노출 차단

📖 Split learning

💡 idea

  • 2018년 MIT에서 제시한 분할학습은 클라이언트가 모델의 앞부분을 학습하고 서버가 뒷부분을 학습함
  • 이러한 방법은 각 학습의 가중치가 반영되기가 어렵다는 문제가 있음
  • 따라서 선행 연구된 다양한 분할 학습 과정 형태들을 연구에 맞게 연합 학습과 분할 학습의 하이브리드 방식으로 재구성함

🛠️ process

  1. 각 클라이언트들이 로컬 환경에서 각자의 데이터로 절단 레이어까지 모델을 훈련
  2. 가중치와 데이터 결합 키를 서버로 전송
  3. 서버에서는 획득한 가중치와 결합한 데이터를 사용해 나머지 레이어를 훈련시켜 순전파 수행
  4. 서버에서 최종 레이어의 그래디언트 생성 및 절단 레이어까지 역전파 수행
  5. 절단 레이어에서 그래디언트를 상대 클라이언트로 전달해 나머지 역전파 수행

👍🏻 benefits

  • 각 학습의 가중치가 모두 반영됨
  • 데이터 보안을 유지하며 협력적인 학습이 가능

📝 학습 및 예측 결과

  • 모델의 학습에는 신용카드 연체 예측 데이터와 건강보험 관심도 예측 데이터를 사용
  • 데이터의 특성을 고려하여 구성된 딥러닝 모델을 통해 예측 수행

✏️ 예측 성능 평가 지표

Data Accuracy Precision Recall F1 Score
Credit card deliquency
prediction data
Original Data 0.49 0.16 0.33 0.22
SEC processed Data 0.50 0.44 0.39 0.35
STC processed Data 0.51 0.32 0.38 0.31
Health insurance interest
prediction data
Original Data 0.68 0.40 0.00 0.00
SEC processed Data 0.76 0.58 0.76 0.66
STC processed Data 0.76 0.60 0.71 0.65

✅ 결과

  • SEC 프로세스 및 STC 프로세스를 통해 결합한 데이터 → 결합 전 단일 데이터에 비해 예측 정확도 향상
  • STC 프로세스를 통해 결합한 데이터를 학습한 경우 → 예측 데이터를 직접 확인한 결과, 예측 데이터가 하나의 값에 편향
  • SEC 프로세스를 통해 결합한 데이터를 학습한 경우 → 예측 데이터를 직접 확인한 결과, 예측 데이터가 골고루 분포

🔍 해석

  • 결합 전 단일 데이터 → 데이터의 갯수 뿐 아니라 feature 갯수가 부족
  • STC 프로세스를 통해 결합한 데이터 → 같은 그룹의 데이터에는 동일한 데이터가 결합
  • SEC 프로세스를 통해 결합한 데이터 → 같은 그룹의 데이터라도 서로 다른 데이터가 결합

✏️ SHAP 분석

SHAP 분석 결과

🔍 해석

  • 결합한 데이터들의 SHAP value 확인 → 상위 20개의 중요 변수를 시각화
  • 기존 데이터의 변수와 더불어 결합된 데이터의 변수가 나타남 → 결합된 데이터가 예측에 중요한 요소로 쓰임

👉🏻 예측 성능 향상에 데이터 결합이 영향을 미쳤음을 시사


😎 결론 및 시사점

✅ 결론

  • 결합 전 단일 데이터에 비해 SEC 프로세스 및 STC 프로세스를 통해 결합된 데이터를 학습한 경우 예측 정확도가 향상
  • 두 가지 결합 방법론 중 SEC 프로세스를 통해 결합된 데이터를 학습한 경우의 예측이 정확하였음

✅ 시사점

  • SEC 프로세스를 통한 데이터 결합을 바탕으로 개인정보 유출 문제 해결이 가능
  • SEC 프로세스는 다양한 산업 간 데이터 결합에 활용이 가능

👉🏻 개인정보 유출 문제에 자유로운 데이터 결합을 바탕으로 다양한 부가가치 창출이 가능   
👉🏻 실시간으로 안전한 데이터 결합이 가능하므로, 고도화된 크로스 도메인 추천 시스템, 개인화 서비스 등의 개발에 활용될 수 있음

저작자표시 비영리 변경금지 (새창열림)
  1. ⭐️ 프로젝트 개요
  2. 💡 Motivation
  3. 1. 데이터 결합을 통한 빅데이터 구축의 중요성 증대
  4. 2. 데이터 결합으로 인한 개인정보 유출 문제의 심각성
  5. 3. 관련 선행 연구
  6. ⚙️ STC(STatistical Data Combination) 프로세스
  7. 💡 idea
  8. 🛠️ process
  9. 👍🏻 benefits
  10. ⚙️ SEC(SEquential Data Combination) 프로세스
  11. 💡 idea
  12. 🛠️ process
  13. 👍🏻 benefits
  14. 📖 Federated learning
  15. 💡 idea
  16. 🛠️ process
  17. 👍🏻 benefits
  18. 📖 Split learning
  19. 💡 idea
  20. 🛠️ process
  21. 👍🏻 benefits
  22. 📝 학습 및 예측 결과
  23. ✏️ 예측 성능 평가 지표
  24. ✅ 결과
  25. 🔍 해석
  26. ✏️ SHAP 분석
  27. 🔍 해석
  28. 😎 결론 및 시사점
  29. ✅ 결론
  30. ✅ 시사점
'Projects' 카테고리의 다른 글
  • [DA 프로젝트] 메이플스토리 육성 컨텐츠 방향 제안(캐릭터 레벨 데이터를 바탕으로)
zzzini
zzzini
종착지는 어디인지 모르지만
zzzini
나의 표류일지
zzzini
전체
오늘
어제
  • 분류 전체보기 (308)
    • ASAC 빅데이터 분석가 4기 (44)
      • Python기초 (6)
      • SQL (3)
      • Matplotlib & Seaborn (2)
      • Data Handling (6)
      • Web Crawling (3)
      • Machine Learning (9)
      • Deep Learning (10)
      • 데이터 분석 (1)
      • 기타 (2)
      • 수학 (2)
    • 코딩 테스트 준비 (168)
      • 5정한 (132)
      • 카카오 (14)
      • PCCP & PCCE (3)
      • 프로그래머스 (19)
    • 자격증 (35)
      • AWS CLF-C02 (18)
      • AWS SAA-C03 (1)
      • Tableau Desktop Specialist (5)
      • Tableau Certified Data Anal.. (11)
    • 독서 (17)
    • Tech (24)
      • Tableau (11)
      • AI (4)
      • Flask (1)
      • Node.js (2)
      • Cloud Computing (2)
      • Git & GitHub (1)
      • Notion API (1)
      • Linux (2)
    • Projects (2)
    • 알고리즘 공부 (6)
    • 🎵 (11)

블로그 메뉴

  • 글 쓰기
  • 홈
  • 방명록

공지사항

hELLO · Designed By 정상우.v4.2.1
zzzini
📝 SEC 프로세스를 통한 이종 산업 간 데이터 결합 문제 해결
상단으로

티스토리툴바

단축키

내 블로그

내 블로그 - 관리자 홈 전환
Q
Q
새 글 쓰기
W
W

블로그 게시글

글 수정 (권한 있는 경우)
E
E
댓글 영역으로 이동
C
C

모든 영역

이 페이지의 URL 복사
S
S
맨 위로 이동
T
T
티스토리 홈 이동
H
H
단축키 안내
Shift + /
⇧ + /

* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.