질문

우리는 약 60M 행으로 구성된 약 90GB의 파일 일일 파일을받는 프로젝트를 진행 중입니다. 문제는 새로운 데이터뿐만 아니라 변경되지 않은 데이터의 기록을 포함하는 전체 파일 (90GB)을 매일 전송한다는 것입니다.

이제 새로운 삽입, 삭제 및 업데이트 만 분할하여 파일을 분리하고로드하는 것이 우리의 임무입니다. 이것을 어떻게 효율적으로 할 수 있습니까?

사용 도구 : 비용 효율적이고 우수한 성능을 제공하는 경우 Datastage 및 AWS (can be used). Snowflake에 데이터를로드 할 최종 대상입니다.

답변1

tbh는 플랫 파일에서 병합하는 것처럼 들립니다.

테이블에 실제 레코드가 아닌 작업이있는 경우이 작업을 수행하기 전에 테이블에서 최신 타임 스탬프를 선택하고 병합이 완료된 후 해당 타임 스탬프 이후 모든 작업을 적용합니다.