데이터플로우 관리하기¶
데이터플로우는 데이터셋을 처리하는 단위입니다. 한 데이터플로우는 다수의 데이터셋들을 가져와 연관지어서 변형을 가할 수 있습니다. 다시 말해, 어떤 데이터셋이 변형 룰을 가지려면 반드시 한 데이터플로우에 속해야 하며, 그 안의 다른 데이터셋들과 join, union 등의 관계를 가질 수 있습니다.
아래와 같이 데이터플로우 상세 화면에서는 해당 데이터플로우에 속한 모든 데이터셋과 이들 간의 의존 관계, 그리고 각 데이터셋에 적용된 변형 룰들을 보여줍니다.
아래 각 하위 단원에서는 이러한 데이터플로우를 정의하기 위해 데이터셋을 추가하고, 변형 룰들을 편집하고, 변형 결과물을 데이터 스냅샷으로 출력하는 과정을 살펴봅니다.
데이터플로우 메뉴는 메인 화면 좌측 패널에서 MANAGEMENT > 데이터 프리퍼레이션 > 데이터플로우를 통해 진입할 수 있습니다.
- 데이터셋 추가하기
- 룰 편집
- 룰의 종류
- 함수 목록
- length
- if
- isnull
- isnan
- upper
- lower
- trim
- ltrim
- rtrim
- substring
- concat
- concat_ws
- year
- month
- day
- hour
- minute
- second
- millisecond
- now
- add_time
- sum
- avg
- max
- min
- count
- math.abs
- math.acos
- math.asin
- math.atan
- math.cbrt
- math.ceil
- math.cos
- math.cosh
- math.exp
- math.expm1
- math.getExponent
- math.round
- math.signum
- math.sin
- math.sinh
- math.sqrt
- math.tan
- math.tanh
- time_diff
- timestamp
- row_number
- rolling_sum
- rolling_avg
- lag
- lead
- ismismatched
- contains
- startswith
- endswith
- 데이터 스냅샷 만들기