공유

데이터 정리란?

데이터 정리 또는 데이터 스크러빙은 데이터베이스에서 부정확한 데이터나 레코드를 감지하고 수정하거나 제거하는 프로세스입니다. 또한 형식이 잘못되었거나 중복된 데이터 또는 레코드를 수정 및 제거하는 작업도 포함됩니다. 이 과정에서 제거된 데이터를 "더티 데이터"라고 합니다. 데이터 정리는 데이터 품질을 유지하기 위한 필수 작업입니다. 광범위한 데이터 세트 또는 자산을 보유한 대규모 조직은 일반적으로 자동화된 도구와 알고리즘을 사용하여 이러한 레코드를 식별하고 일반적인 오류(예: 고객 레코드에서 누락된 우편번호)를 수정합니다.

테라데이타의 견해: 가장 강력한 빅 데이터 환경에는 데이터 품질이 규모에 맞게 유지되고 모든 유형의 사용자가 데이터 세트에 대한 높은 신뢰도를 유지할 수 있도록 엄격한 데이터 정리 도구와 프로세스를 갖추고 있습니다.