데이터 프리퍼레이션¶
데이터 프리퍼레이션은 파일, 테이블 등의 데이터셋을 분석에 용이한 형태로 정제하기 위한 변형 룰들을 생성하여, 그 결과를 HDFS, Hive 등으로 저장하는 툴입니다.
Metatron Discovery 데이터 프리퍼레이션의 장점
사용자는 위와 같이 GUI를 통해 Step-by-Step으로 변형 룰을 생성해낼 수 있습니다. 매 Step의 변형 결과가 데이터 분포도와 함께 메모리에 저장되기 때문에, 사용자는 이전 스텝 결과를 마우스 클릭만으로 쉽게 확인할 수 있을 뿐 아니라, 마치 텍스트 편집기를 쓰는 것처럼 undo, redo 등의 동작도 간단히 실행할 수 있습니다.
이러한 특징을 기반으로 데이터 프리퍼레이션 툴에서는 다음과 같은 장점을 활용할 수 있습니다.
프로그래밍이나 데이터 처리에 익숙하지 않아도 작업자가 원하는 형태의 결과를 얻을 수 있습니다.
보통 변형 룰 하나를 추가하려면 프로그래밍을 하거나 최소한 SQL문을 작성해야하지만, 데이터 프리퍼레이션 GUI를 통한 탐색적 변형을 활용하면 몇 번의 마우스 클릭이나 타이핑만으로 간편하게 변형 룰을 만들어내어 시간을 크게 절약할 수 있습니다.
기본적으로 수반되는 데이터 변형들은 자동으로 수행합니다. 예를 들어, 명백히 숫자로 보이는 컬럼에 대해 알아서 형변환 룰을 적용해줍니다. 이것은 언제나 undo 또는 룰 삭제가 용이하기 때문에 가능한 것입니다.
다양한 형태의 데이터를 결합하여 원하는 형태로 바꿔놓을 수 있습니다(예: 기준 파일 + 팩트 테이블).
만들어 놓은 데이터 정제 결과를 다른 사람들과 공유함으로써, 물리적인 데이터를 주고 받는 부담을 줄여줍니다.
실제 데이터는 지우고 그것을 만드는 방법만 유지함으로써, 저장 공간을 아끼고 ILM (Information Life Cycle)을 줄일 수 있습니다. 다시 필요할 때 실제 데이터를 만들어내는 데에 부담이 줄어들기 때문입니다.
Metatron Discovery 데이터 프리퍼레이션의 구조
위 그림과 같이 데이터 프리퍼레이션은 정제할 대상 데이터를 참조하는 데이터셋, 지정된 데이터셋의 변형 룰들을 정의하는 데이터플로우, 그리고 그러한 룰들에 의해 변형된 결과물을 출력하는 데이터 스냅샷으로 구성됩니다.