왜 SAP 데이터의 정합성 확보와 익명화는 단순한 문제가 아닌가

Labs_Coloured_blocks
 


데이터 프라이버시는 많은 관심을 받고 있는 주제이며, 조직은 개인의 데이터 프라이버시 권리를 보호하기 위한 규제를 어떻게 준수할 것인지 고려해야 합니다. 유럽에서는 GDPR이 데이터 프라이버시 규제를 위한 새로운 기준으로 도입되었으며, 전 세계적으로도 남아프리카공화국의 POPI Act, 브라질의 LGPD, 미국 캘리포니아주의 CCPA 등 많은 국가와 지역에서 데이터 프라이버시를 반영한 법규를 업데이트하고 있습니다. 이 블로그를 읽고 계시다면, 이미 귀사 내 데이터 보안 요구사항을 검토하고 있으며 일부 우려 사항을 해결하기 위한 솔루션 도입을 시작하셨을 가능성이 큽니다. 오늘은 SAP® 시스템 환경을 중심으로, EPI-USE Labs에서 다수의 데이터 프라이버시 프로젝트를 수행하며 쌓은 경험을 공유하고자 합니다.

데이터 프라이버시는 많은 관심을 받고 있는 주제이며, 조직은 개인의 데이터 프라이버시 권리를 보호하기 위한 규제를 어떻게 준수할 것인지 고려해야 합니다. 유럽에서는 GDPR이 데이터 프라이버시 규제를 위한 새로운 기준으로 도입되었으며, 전 세계적으로도 남아프리카공화국의 POPI Act, 브라질의 LGPD, 미국 캘리포니아주의 CCPA 등 많은 국가와 지역에서 데이터 프라이버시를 반영한 법규를 업데이트하고 있습니다.

이 블로그를 읽고 계시다면, 이미 귀사 내 데이터 보안 요구사항을 검토하고 있으며 일부 우려 사항을 해결하기 위한 솔루션 도입을 시작하셨을 가능성이 큽니다. 오늘은 SAP® 시스템 환경을 중심으로, EPI-USE Labs에서 다수의 데이터 프라이버시 프로젝트를 수행하며 쌓은 경험을 공유하고자 합니다.

일반적으로 데이터 프라이버시 요구사항을 논의할 때는 세 가지 뚜렷한 관점이 존재합니다.

  • 테스트 매니저와 프로덕트 오너의 관점에서는, 운영 환경의 특성과 100% 완벽하지 않은 요소까지 포함한 ‘실제와 유사한’ 데이터를 기반으로 프로세스를 테스트하는 것이 최우선 과제입니다.

  • 데이터 보호 조직의 관점에서는, 개인식별정보(PII)가 운영 시스템 외부에 존재해서는 안 된다는 점이 가장 중요합니다.

  • IT 및 인프라 팀의 관점에서는, 비운영 환경에 미치는 영향을 최소화하면서 복사되고 스크램블된 데이터를 빠르고 효율적으로 제공하는 것이 핵심입니다.

이처럼 서로 상충하는 세 가지 관점은 안전하면서도 활용 가능한 개발·운영 환경을 제공하는 데 있어 명확한 도전 과제를 만들어냅니다. 본 포스트에서는 테스트 매니저가 기대하는 운영 환경과 유사한 데이터를 제공하는 과정에서 발생하는 어려움을 살펴보고자 합니다.

다음의 두 가지 데이터 시나리오를 살펴보겠습니다.

다음의 두 가지 데이터 시나리오를 살펴보겠습니다.

시나리오 1

스페인에서 근무하며 구매 부서에 소속된 한 임직원의 세금 번호를 예로 들어보겠습니다. 임직원 데이터는 개인식별정보를 논할 때 가장 일반적으로 고려되는 영역입니다. 민감 데이터가 저장되는 표준 SAP 프로세스를 설명하기 위해, 임직원 오브젝트 내 데이터 관계를 보여주는 하이레벨 다이어그램을 예로 들 수 있습니다.

Why_SAP_Data

표준 SAP 데이터 모델에는 수백 개의 민감 데이터 필드가 존재할 수 있습니다. 여기에 더해, 오랜 기간 동안 이루어진 커스터마이징으로 인해 데이터의 추가 복사본이 저장된 경우도 많습니다. 이러한 데이터는 최초 입력 시 모두 사람에 의해 입력되며, 그 과정에서 인적 오류의 위험을 내포합니다. 시간이 지나면서 수정 작업, 정제 프로그램, 비즈니스 사용자의 수작업 보정 등이 반복되며 데이터 간 정합성이 크게 어긋났을 가능성도 높습니다.

시스템이 통합되고 연결되어 있다는 점은 강점이지만, 데이터 프라이버시 준수를 위해 데이터를 마스킹하거나 스크램블하려 할 경우에는 오히려 복잡성을 증가시키는 요인이 되기도 합니다.

 

시나리오 2

스페인과 포르투갈의 VAT 세금 번호를 마스킹해 달라는 고객 요청 사례입니다. 이 시나리오에서의 비즈니스 규칙은 매우 단순합니다. KNA1 테이블의 STCEG 필드는 해당 고객의 국가 코드와 STCD1 필드를 결합한 값이어야 합니다.

KUNNR LAND1 STCD1 - KNA1 STCD2 - KNA1 STCEG - KNA1
0000000001 ES A12345678 - ESA12345678

 

이 데이터의 변동성을 이해하기 위해 분석을 수행했습니다. 해당 분석은 데이터 익명화 이전 상태에서 이 규칙의 길이와 일관성을 살펴보는 것이었습니다. 그 결과 다음과 같은 사실을 확인했습니다.

  • 스페인 내에서만 서로 다른 6가지 세금 번호 길이가 존재

  • 원본과 일치하지 않는 데이터가 전체의 10%

  • 필드 값이 비어 있는 사례가 추가로 20%

  • 정합성 규칙은 있으나 고객이 기대한 방식과 다른 경우가 25%

  • 다른 국가가 추가되고 CRM과의 시스템 간 통합까지 고려할 경우, 1,000가지가 넘는 서로 다른 정합성 시나리오가 존재

결과적으로, 고객이 ‘이상적인 상태’ 또는 가장 전통적인 매핑으로 정의한 요구사항에 부합하는 데이터는 전체의 35%에 불과했습니다.

그렇다면 이러한 결과는 어떤 영향을 미칠까요?

보안 요구사항을 충족하면서 실제 운영 데이터와 유사한 데이터를 효율적으로 제공해야 한다는 초기의 세 가지 우선순위로 돌아가 보면, 데이터가 어떻게 연결되어 있는지, 그리고 데이터 품질이 시스템 내에서 어떤 역할을 하는지를 이해하는 것이 필수적입니다.

  • 첫 번째 사례에서는, 명확하게 드러나는 임직원 인포타입 데이터만을 처리할 경우 상당량의 연관된 민감 데이터가 익명화되지 않은 채로 남게 된다는 점을 확인할 수 있습니다.

  • 두 번째 사례에서는, 단 두 개의 세금 필드만 설정하는 데에도 1,163가지 시나리오를 처리하기 위한 로직이 필요했습니다. 이러한 비교와 판단을 수행하는 데 필요한 실행 시간은 시스템 리프레시 및 스크램블링에 허용되는 다운타임을 크게 초과하게 됩니다.

EPI-USE Labs는 고객과 함께 SAP 시스템 내 데이터를 분석하고, 데이터에서 발생할 수 있는 문제 지점을 사전에 예측합니다. 또한 각 프로세스 오너가 최적의 결과를 얻을 수 있도록 다양한 해결 방안을 제공합니다.

비운영 환경에서의 보안을 목적으로 SAP 데이터 분석을 다룬 웨비나(영문)도 참고해 보시기 바랍니다. 해당 웨비나에서는 데이터 프라이버시 워크숍과 분석 과정에서 활용하는 일부 소프트웨어도 함께 시연합니다.

 

James Watson

James는 EPI-USE Labs의 데이터 개인정보보호 및 SAP IS-* 솔루션 부문 글로벌 비즈니스 라인을 담당하며, 이러한 복잡한 요구 사항을 위해 Data Sync Manager(DSM)를 사용하는 주요 고객을 지원하고 있습니다. 20년 이상의 경력을 보유한 James는 개발, Basis, 테스트/역량 센터와 리더십 팀 간의 가교 역할을 하며, 데이터 개인정보보호 준수를 위한 조언과 가이드를 제공합니다.

이전의 홈페이지 맨 위로 돌아가기

태그:

추천: