잡동사니

반응형

질문

우리는 약 60M 행으로 구성된 약 90GB의 파일 일일 파일을받는 프로젝트를 진행 중입니다. 문제는 새로운 데이터뿐만 아니라 변경되지 않은 데이터의 기록을 포함하는 전체 파일 (90GB)을 매일 전송한다는 것입니다.

이제 새로운 삽입, 삭제 및 업데이트 만 분할하여 파일을 분리하고로드하는 것이 우리의 임무입니다. 이것을 어떻게 효율적으로 할 수 있습니까?

사용 도구 : 비용 효율적이고 우수한 성능을 제공하는 경우 Datastage 및 AWS (can be used). Snowflake에 데이터를로드 할 최종 대상입니다.


답변1

tbh는 플랫 파일에서 병합하는 것처럼 들립니다.

https://support.snowflake.net/s/article/how-to-perform-a-mergeupsert-from-a-flat-file-staged-on-s3

테이블에 실제 레코드가 아닌 작업이있는 경우이 작업을 수행하기 전에 테이블에서 최신 타임 스탬프를 선택하고 병합이 완료된 후 해당 타임 스탬프 이후 모든 작업을 적용합니다.



 

 

 

 

출처 : https://stackoverflow.com/questions/63048348/increment-logic-to-split-insert-update-delete-from-full-file

반응형

이 글을 공유합시다

facebook twitter googleplus kakaoTalk kakaostory naver band