데이터레이크(Data Lake)란?

데이터레이크(Data Lake)란?

JW 0 1186

데이터 레이크는 대규모의 다양한 원시 데이터 세트를 기본 형식으로 저장하는 데이터 리포지토리 유형입니다.

데이터 레이크를 사용하면 정제되지 않은 데이터를 있으며, 데이터에 대해 전체적인 대규모 리포지토리를 엔터프라이즈 환경에서 데이터 관리 전략으로 보편화할 있습니다.

 

원시 데이터는 특정 목적을 위해 처리되지 않은 데이터 말합니다.

데이터 레이크에 있는 데이터는 쿼리되기 전까지는 정의되지 않습니다. 데이터 과학자들은 보다 고도화된 분석 툴이나 예측 모델링을 사용하여 원시 데이터에 액세스할 있습니다.

 

데이터 레이크를 사용하면 모든 데이터가 보존되며스토리지에 저장하기 전에 제거되거나 필터링되지 않습니다.

데이터는 얼마 바로 분석에 사용될 수도 있고 전혀 사용되지 않을 수도 있습니다. 또한 데이터가 다양한 목적으로 여러 사용될 수도 있지만, 특정 목적으로 정제되어 여러 방식으로 재활용하기 어려운 경우도 있습니다.

 

데이터 레이크라는 용어는 Pentaho CTO(최고 기술 책임자) James Dixon 처음으로 소개했습니다.

이러한 유형의 데이터 리포지토리를 레이크라고 부르는 이유는 필터링되거나 패키지화되지 않은 수역과 같은 자연 상태의 데이터 풀을 저장하기 때문입니다. 데이터는 여러 소스에서 레이크로 흐르며 원래 형식으로 저장됩니다.

 

데이터 레이크에 있는 데이터는 분석을 위해 필요할 변환되며, 이러한 경우 스키마가 적용되어 데이터 분석이 가능해집니다.

이는읽기 스키마(schema on read)”라고 불리는데, 데이터가 사용 준비 상태가 때까지 원시 상태로 보관되기 때문입니다.

 

사용자는 데이터 레이크에서 데이터를 다른 시스템으로 이동시킬 필요 없이 원하는 방식으로 데이터에 액세스하여 이를 탐색할 있습니다.

다른 플랫폼이나 다른 유형의 데이터 리포지토리에서 분석 리포트를 정기적으로 가져오는 대신 상황에 따라 인사이트 보고를 데이터 레이크에서 얻습니다. 그러나 사용자는 스키마 자동화를 적용하여 필요한 경우 리포트를 복제할 있습니다.

 

해당 데이터를 사용하고 이에 액세스할 있도록 거버넌스를 통해 데이터 레이크를 지속적으로 유지 관리해야 합니다.

제대로 유지관리하지 않으면 데이터 관리가 어렵고 비용이 많이 들며 쓸모없는 액세스 불가능한 정크가 위험이 있습니다. 이처럼 사용자가 액세스할 없는 데이터 레이크를 "데이터 (data swamp)"이라고 합니다.

0 Comments