반응형 delay1 spark 연산의 특징 분산 데이터의 스파크 연산 -트랜스포메이션과 액션 트랜스포메이션(Transformation) 트랜스포메이션은 이미 불변성의 특징을 가진 원본 데이터를 수정하지 않고 하나의 스파크 데이터 프레임을 새로운 데이터 프레임으로 변형함. ex) select()나 filter() 같은 연산은 원본 데이터 프레임을 수정하지 않으며, 대신 새로운 데이터 프레임으로 연산 결과를 만들어 되돌려 줌. 모든 트랜스포메이션은 뒤늦게 평가가 됨. 다시 말해보면 그 결과는 즉시 계산 되는게 아니라 리니지라 불리는 형태로 기록됨. 기록된 리니지는 실행 계획에서 후반쯤에 스파크가 확실한 트랜스포메이션들끼리 재배열하거나 합치거나 해서 더 효율적으로 실행할 수 있도록 최적화 함. 지연평가 지연 평가는 액션이 실행되는 시점이나 데이터에 실.. 2024. 1. 20. 이전 1 다음 반응형