본문 바로가기

보안 이야기

개인정보 비식별화, 적용 방법은?


최근 다양한 데이터를 활용한 신 산업과 기술이 나날이 발전하면서

개인정보 활용도 크게 늘어나고 있는데요,

이런 환경으로 인해 개인정보 대량 유출로 인한 피해를 

우려하는 목소리도 점차 커지고 있습니다. 


이에 개인정보를 보호하면서 쉽게 사용할 수 있는

개인정보 비식별화 조치 방법이 주목 받고 있는데요


개인정보 비식별화 조치 과정, 제거 방법 등

개인정보 관리자라면 반드시 알아야 할 개인정보 비식별화 정보

소프트캠프가 자세히 알려드리겠습니다^^




개인정보 비식별화란?


 

빅데이터, IoT 등 융합기술의 발전으로

데이터 이용 수요와 활용가치가 크게 늘어나면서

개인정보 침해 위험은 앞으로 더욱 증가할 것으로 예상되고 있습니다. 


때문에 사생활 침해 방지를 위한 안전장치 마련과

산업적으로 활용할 수 있는 방법 중 하나가

바로 '개인정보 비식별화인데요!


 ▲ 개인정보 비식별화란?


 개인정보의 일부 또는 전부를 삭제/대체 하거나 다른 정보와 쉽게 결합하지 못하도록 하여 

 특정 개인을 알아볼 수 없도록 하는 일련의 조치를 말합니다.

참고 : 개인정보보호 종합포털


개인정보 비식별화 조치를 하면

개인정보 침해가능성을 최소화 하면서

빅데이터 활용 시 안전하게 개인정보를 이용할 수 있는데요,


국내에서는 가이드라인을 발표하거나 관련 법률 개정안의 발의되고 있으며

미국, 유럽연 등 주요 선진국도 개인정보 비식별화 정책을 추진 하는 등

전 세계적으로 개인정보 비식별화를 추진하기 위한 움직임이 빠르게 진행되고 있습니다. 




개인정보 비식별화 조치방법

 

 

Step 1. 사전 검토

개인정보에 해당하는지 여부를 검토 후,

개인정보가 아닌 것이 명백한 경우 법적 규제 없이 자유롭게 활용할 수 있습니다. 


Step 2. 비식별 조치

정보집합물(데이터 셋)에서 개인을 식별할 수 있는 요소를

전부 또는 일부 삭제 하거나 대체하는 등의 방법을 활용하여 개인을 알아볼 수 없도록 조치합니다.


Step 3. 적정성 평가

다른 정보와 쉽게 결합하여 개인을 식별할 수 있는지를 「비식별 조치 적정성 평가단」을 통해 평가합니다.


Step 4. 사후관리

비식별 정보 안전조치, 재식별 가능성 모니터링 등

비식별 정보 활용 과정에서 재식별 방지를 위해 필요한 조치를 수행합니다.


 ▲ 재식별화란?


 비식별화된 정보가 다른 정보와의 연계(매칭) 등을 통해 특정 개인을 알아볼 수 있는 개인정보 입니다.




개인정보 비식별화 적용방법


 

▲ 가명처리 

- 개인정보 중 주요 식별요소를 다른 값으로 대체하여 개인식별을 어렵게 하는 방법입니다.

예시) 홍길동, 35세, 서울 거주, 한국대 재학 → 임꺽정, 30대 서울 거주, 국제대 재학


 
 ① 휴리스틱 가명화(Heuristic Pseudonymization)

  - 식별자에 해당하는 값들을 몇 가지 정해진 규칙으로 대체하거나 사람의 판단에 따라 가공하여 

    자세한 개인정보를 숨기는 방법 입니다. 

    예시) 성명을 홍길동, 임꺽정 등 몇몇 일반화 된 이름으로 대체하여 표기하거나 

             소속기관명을 화성, 금성 등으로 대체하는 등 사전에 규칙을 정하여 수행


  - 식별자의 분포를 고려하거나 수집된 자료의 사전 분석을 하지 않고 모든 데이터를 동일한 방법으로 가공하기 때문에       사용자가 쉽게 이해하고 활용 가능합니다.


  - 활용할 수 있는 대체 변수에 한계가 있으며, 다른 값으로 대체하는 일정한 규칙이 노출되는 취약점이 있습니다. 

    따라서 규칙 수립 시 개인을 쉽게 식별할 수 없도록 세심한 고려가 필요 합니다.  


  - 적용 가능 정보 : 성명, 사용자 ID, 소속(직장)명, 기관번호, 주소, 신용등급, 휴대전화번호, 우편번호, 이메일 주소 등


 ② 암호화(Encryption)

  - 정보 가공 시 일정한 규칙의 알고리즘을 적용하여 암호화 함으로써 개인정보를 대체하는 방법으로,

    통상적으로 다시 복호가 가능하도록 복호화 키를 가지고 있어서 이에 대한 보안 방법도 필요합니다.

 

  - 일방향 암호화(one-way encryption 또는 hash)를 사용하는 경우는 이론상 복호화가 원천적으로 불가능 하지만 

    개인정보의 식별성을 완전히 제거하는 것으로, 양방향 암호화에 비해 더욱 안정하고 효과적인 비식별 기술에 

    해당합니다.  


  - 적용 가능 정보 : 주민등록번호, 여권번호, 의료보험번호, 외국인등록번호, 사용자 ID, 신용카드번호, 생체 정보 등


 ③ 교환 방법(Swapping)

  - 기존의 데이터베이스의 레코드를 사전에 정해진 외부의 변수(항목)값과 연계하여 교환하는 방법 입니다. 

  

  - 적용 가능 정보 : 사용자 ID, 요양기관번호, 기관번호, 나이, 성별, 신체정보(신장, 혈액형 등), 소득, 

                             휴대전화번호, 주소 등




▲ 총계처리 또는 평균값으로 대체 

- 데이터의 총합 값을 보임으로서 개별 데이터의 값을 보이지 않도록 하는 방법입니다.

예시) 임꺽정 180cm, 홍길동 170cm, 이콩쥐 160cm, 김팥쥐150cm → 물리학과 학생 키 합 : 660cm, 평균 키 165cm


 

  총계처리(Aggregation)

  - 데이터 정체 또는 부분을 집계(총합, 평균 등)하는 방법입니다.

    예시) 집단에 소속된 전체 인원의 평균 나이 값을 구한 후 각 개인의 나이값을 평균 나이값(대푯값)으로 대체하거나 

          해당 집단 소득의 전체 평균값을 각 개인의 소득값으로 대체


  - 적용 가능 정보 : 나이, 신장, 소득, 카드사용액, 유동인구, 사용자수, 제품 재고량, 판매량 등


 ② 부분총계(Micro Aggregation)

  - 데이터 셋 내 일정부분 레코드만 총계 처리하는 방법입니다. 

    즉, 다른 데이터 값에 비하여 오차 범위가 큰 항목을 통계값(평균 등)으로 변환하는 방법입니다.

    예시) 다양한 연령대의 소득 분포에 있어서 40대의 소득 분포 편차가 다른 연령대에 비하여 매우 크거나

          특정 소득 구성원을 포함하고 있을 경우, 40대의 소득만 선별하여 평균값을 구한 후 40대에 해당하는 

          각 개인의 소득값을 해당 평균 값으로 대체 


  - 적용 가능 정보 : 나이, 신장, 소득, 카드사용액 등


 ③ 라운딩(Rounding)

  - 집계 처리된 값에 대하여 라운딩(올림, 내림, 사사오입) 기준을 적용하여 최종 집계 처리하는 방법으로 

    일반적으로 세세한 정보보다는 전체 통계정보가 필요한 경우 많이 사용합니다.

    예시) 23세, 41세, 57세, 26세, 33세 등 각 나이값을 20대, 30대, 40대, 50대 등 각 대표 연령대로 표기하거나

            3,576,000원, 4,210,000원 등의 소득값을 일부 절삭하여 3백만원, 4백만원 등으로 집계 처리하는 방식


  - 적용 가능 정보 : 나이, 신장, 소득, 카드지출액, 유동인구, 사용자 수 등


 ④ 재배열(Rearrangement)

  - 기존 정보값은 유지하면서 개인이 식별되지 않도록 데이터를 재배열 하는 방법으로, 

    개인의 정보를 타인의 정보와 뒤섞어서 전체 정보에 대한 손상 없이 특정 정보가 해당 개인과 연결되지 않도록 하는 

    방법 입니다. 




▲ 데이터 값(가치) 삭제

- 데이터 셋에 구성된 값 중에 필요 없는 값 또는 개인식별에 중요한 값을 삭제하는 방법입니다.

예시) 홍길동, 35세, 서울 거주, 한국대 졸업 → 35세, 서울 거주

예시) 주민등록번호 901206-1234567 → 90년대 생, 남자

예시) 개인과 관련된 날짜 정보(자격 취득일자, 합격일 등)는 연 단위로 처리

예시) 연예인, 정치인 등의 가족 정보, 판례 및 보도 등에 따라 공개되어 있는 사건과 관련되어 있음을 알 수 있는 정보 


 

 ① 식별자 삭제

  - 원본 데이터에서 식별자를 단순 삭제하는 방법 입니다.

   예시) 성명, 생년월일이 나열되어 있는 경우 분석 목적에 따라 생년월일을 생년으로 대체 가능하다면 월일 값은 삭제


  - 적용 가능 정보 : 성명, 전화번호, 계좌번호, 카드번호, 요양기관번호, 이메일 주소 등


 ② 식별자 부분삭제

  - 식별자 전체를 삭제하는 방식이 아니라, 해당 식별자의 일부를 삭제하는 방법 입니다.

    예시) 상세 주소의 경우 부분 삭제를 통하여 대표지역으로 표현 

  

  - 수치 또는 텍스트 데이터 등에도 폭넓게 활용 가능 합니다.


  - 적용 가능 정보 : 주소, 위치정보, 전화번호, 계좌번호 등


 ③ 레코드 삭제

  - 다른 정보와 뚜렷하게 구별되는 레코드 전체를 삭제하는 방법 입니다. 

    예시) 소득이 다른 사람에 비하여 뚜렷이 구별되는 값을 가진 정보는 해당 정보 전체를 삭제


  - 이 방법은 통계분석에 있어서 전체 평균에 비하여 오차범위를 벗어나는 자료를 제거할 때에도 사용 가능


  - 적용 가능 정보 : 키, 소득, 질병, 카드지출액 등 


 ④ 식별요소 전부삭제

  - 식별자뿐만 아니라 잠재적으로 식별 가능한 속성자까지 전부 삭제하여 프라이버시 침해 위협을 줄이는 방법 입니다.


  - 연예인·정치인 등의 가족정보, 판례 및 보도 등에 따라 공개되어 있는 사건과 관련되어 있음을 알 수 있는 정보 등 

    잠재적 식별자까지 사전에 삭제함으로써 연관성 있는 정보의 식별 및 결합을 예방할 수 있습니다. 


  - 개인정보 유출 가능성을 최대한 줄일 수 있지만 데이터 활용에 필요한 정보까지 사전에 모두 없어지기 때문에

    데이터의 유용성이 낮아지는 문제가 발생할 수 있습니다.


  - 적용 가능 정보 : 나이, 소득, 키, 몸무게 등 개별적으로는 단순한 정보이지만 

                      분석 목적에 따라 추후 개인 식별이 가능성이 있다고 판단되는 정보  




▲ 범주화

- 데이터의 값을 범주에 값으로 변환하여 명확한 값을 감추는 방법 입니다. 

예시) 홍길동, 35세 → 홍씨, 30~40세


 

 ① 감추기 

  - 명확한 값을 숨기기 위하여 데이터의 평균 또는 범주값으로 변환하는 방식 입니다. 


  - 단, 특수한 성질을 지닌 단체 데이터의 평균이나 범주값은 그 집단에 속한 개인의 정보를 쉽게 추론할 수 있습니다. 


 ② 랜덤 라운딩

  - 수치 데이터를 임의의 수 기준으로 올림 또는 내림 하는 기법 입니다. 

    예시) 나이, 우편번호 등과 같은 수치 정보로 주어진 식별자는 일의 자리, 십의 자리 등 

          뒷자리 수를 숨기고 앞자리 수만 나타내는 방법 (나이 : 42세, 45세 → 40대로 표현)


  - 적용 가능 정보 : 나이, 소득, 카드지출액, 우편번호, 유동인구, 사용자 등 


 ③ 범위 방법

  - 수치 데이터를 임의의 수 기준의 범위로 설정하는 기법으로, 해당 값의 범위 또는 구간으로 표현 합니다. 

    예시) 소득 3,300만원을 소득 3,000만원~4,000만원으로 대체 표기 


  - 적용 가능 정보 : 서비스 이용 등급, 처방정보, 위치정보, 유동인구, 사용자 수 분석 시간/기간 등


 ④ 제어 라운딩

  - '랜덤 라운딩' 방법에서 어떠한 특정값을 변경할 경우 행과 열의 합이 일치하지 않는 단점 해결을 위해 

    행과 열이 맞지 않는 것을 제어하여 일치시키는 기법 입니다. 


  - 현재 컴퓨터 프로그램으로 구현하기 어렵고 복잡한 통계표에는 적용하기 어려우며 

    해결할 수 있는 방법이 존재하지 않을 수 있어 아직 현장에서는 잘 사용하지 않습니다. 


  - 적용 가능 정보 : 나이, 소득, 키, 카드지출액, 위치정보 등 




▲ 데이터 마스킹

- 공개된 정보 등과 결합하여 개인을 식별하는데 기여할 확률이 높은 주요 개인 식별자를 보이지 않도록 처리하여 

  인을 식별하지 못하도록 하는 방법 입니다. 

예시) 홍길동, 35세, 서울 거주, 한국대 재학 → 홍**, 35세, 서울 거주, **대학 재학


 

 ① 임의 잡음 추가 

  - 개인 식별이 가능한 정보에 임의의 숫자 등 잡음을 추가(더하기 또는 곱하기)하는 방법 입니다. 

    예시) 실제 생년월일에 6개월의 잡음을 추가할 경우, 원래의 생년원일 데이터에 1일부터 최대 6개월의 날짜가 

             추가되어 기존의 자료와 오차가 날 수 있도록 적용

  

  - 지정된 평균과 분산의 범위 내에서 잡음이 추가되므로 원 자료의 유용성을 해치지 않으나,

    잡음값은 데이터 값과는 무관하기 때문에 유효한 데이터로 활용하기 곤란 합니다. 


  - 적용 가능 정보 : 사용자 ID, 성명, 생년월일, 키, 나이, 병명 코드, 전화번호, 주소 등


 ② 공백(blank)과 대체(impute)

  - 특정 항목의 일부 또는 정부를 공백 또는 대체문자(‘ * ’, ‘ _ ’ 등이나 전각 기호)로 바꾸는 기법

    예시) 생년월일 ‘1999-09-09’ ⇒ ‘19 - - ’ 또는 ‘19**-**-**’


  - 적용 가능 정보 : 성명, 생년월일, 전화번호, 주소, 사용자 ID 등 


 


참고 : 개인정보보호 종합포털 내 개인정보 비식별 조치 가이드라인, 개인정보 비식별화 리플렛