클라우드 Elasticsearch

Elasticsearch는 Apache Lucene( 아파치 루씬 ) 기반의 Java 오픈소스 분산 검색 엔진입니다.

Elasticsearch를 통해 루씬 라이브러리를 단독으로 사용할 수 있게 되었으며, 방대한 양의 데이터를 신속하게, 거의 실시간( NRT, Near Real Time )으로 저장, 검색, 분석할 수 있습니다.

Elasticsearch는 검색을 위해 단독으로 사용되기도 하며, ELK( Elasticsearch / Logstatsh / Kibana )스택으로 사용되기도 합니다.

ELK 스택이란 다음과 같습니다.

Logstash
다양한 소스( DB, csv파일 등 )의 로그 또는 트랜잭션 데이터를 수집, 집계, 파싱하여 Elasticsearch로 전달
Elasticsearch
Logstash로부터 받은 데이터를 검색 및 집계를 하여 필요한 관심 있는 정보를 획득
Kibana
Elasticsearch의 빠른 검색을 통해 데이터를 시각화 및 모니터링

1) 클러스터( cluseter )

클러스터란 Elasticsearch에서 가장 큰 시스템 단위를 의미하며, 최소 하나 이상의 노드로 이루어진 노드들의 집합입니다.

서로 다른 클러스터는 데이터의 접근, 교환을 할 수 없는 독립적인 시스템으로 유지되며,

여러 대의 서버가 하나의 클러스터를 구성할 수 있고, 한 서버에 여러 개의 클러스터가 존재할수도 있습니다.

2) 노드( node )

Elasticsearch를 구성하는 하나의 단위 프로세스를 의미합니다.

그 역할에 따라 Master-eligible, Data, Ingest, Tribe 노드로 구분할 수 있습니다.

아래는 각 노드들에 대한 설명인데, 제가 Elasticsearch에 대한 깊이가 없어서 공식 문서의 설명들을 정리만 해보았습니다.

클러스터를 제어하는 마스터로 선택할 수 있는 노드를 말합니다.

여기서 master 노드가 하는 역할은 다음과 같습니다.

인덱스 생성, 삭제
클러스더 노드들의 추적, 관리
데이터 입력 시 어느 샤드에 할당할 것인지

Data node

데이터와 관련된 CRUD 작업과 관련있는 노드입니다.

이 노드는 CPU, 메모리 등 자원을 많이 소모하므로 모니터링이 필요하며, master 노드와 분리되는 것이 좋습니다.

Ingest node

데이터를 변환하는 등 사전 처리 파이프라인을 실행하는 역할을 합니다.

Coordination only node

data node와 master-eligible node의 일을 대신하는 이 노드는 대규모 클러스터에서 큰 이점이 있습니다.

즉 로드밸런서와 비슷한 역할을 한다고 보시면 됩니다.

3) 인덱스( index ) / 샤드( Shard ) / 복제( Replica )

Elasticsearch에서 index는 RDBMS에서 index와 대응하는 개념입니다.

또한 shard와 replica는 Elasticsearch에만 존재하는 개념이 아니라, 분산 데이터베이스 시스템에도 존재하는 개념입니다.

샤딩( sharding )은 데이터를 분산해서 저장하는 방법을 의미합니다.

즉, Elasticsearch에서 스케일 아웃을 위해 index를 여러 shard로 쪼갠 것입니다.

기본적으로 1개가 존재하며, 검색 성능 향상을 위해 클러스터의 샤드 갯수를 조정하는 튜닝을 하기도 합니다.