데이터플로우 관리하기¶
데이터플로우는 데이터셋을 처리하는 단위입니다. 한 데이터플로우는 다수의 데이터셋들을 가져와 연관지어서 변형을 가할 수 있습니다. 다시 말해, 어떤 데이터셋이 변형 룰을 가지려면 반드시 한 데이터플로우에 속해야 하며, 그 안의 다른 데이터셋들과 join, union 등의 관계를 가질 수 있습니다.
아래와 같이 데이터플로우 상세 화면에서는 해당 데이터플로우에 속한 모든 데이터셋과 이들 간의 의존 관계, 그리고 각 데이터셋에 적용된 변형 룰들을 보여줍니다.
아래 각 하위 단원에서는 이러한 데이터플로우를 정의하기 위해 데이터셋을 추가하고, 변형 룰들을 편집하고, 변형 결과물을 데이터 스냅샷으로 출력하는 과정을 살펴봅니다.
데이터플로우 메뉴는 메인 화면 좌측 패널에서 MANAGEMENT > 데이터 프리퍼레이션 > 데이터플로우를 통해 진입할 수 있습니다.
- 데이터셋 추가하기
 - 룰 편집
 - 룰의 종류
 - 함수 목록
- length
 - if
 - isnull
 - isnan
 - upper
 - lower
 - trim
 - ltrim
 - rtrim
 - substring
 - concat
 - concat_ws
 - year
 - month
 - day
 - hour
 - minute
 - second
 - millisecond
 - now
 - add_time
 - sum
 - avg
 - max
 - min
 - count
 - math.abs
 - math.acos
 - math.asin
 - math.atan
 - math.cbrt
 - math.ceil
 - math.cos
 - math.cosh
 - math.exp
 - math.expm1
 - math.getExponent
 - math.round
 - math.signum
 - math.sin
 - math.sinh
 - math.sqrt
 - math.tan
 - math.tanh
 - time_diff
 - timestamp
 - row_number
 - rolling_sum
 - rolling_avg
 - lag
 - lead
 - ismismatched
 - contains
 - startswith
 - endswith
 
 - 데이터 스냅샷 만들기
 
