<aside> 💡 Q. 반복적인 데이터 파이프라인을 효과적으로 배포하고 관리하는 방법으로는 무엇이 있을까?
<aside> 💡 kafka connect
: kafka connect는 카프카 공식 오픈소스에 포함된 툴 중 하나로 데이터 파이프라인 생성 시 반복 작업을 줄이고 효율적인 전송을 이루기 위한 애플리케이션.
</aside>
Kafka connect
는 대표적으로 다음과 같은 5가지 특징을 가지고 있다.
데이터 중심 파이프라인
: 카프카 커넥트를 이용해 카프카로 데이터를 보내거나, 카프카로 데이터를 가져옴
유연성과 확장성
: 커넥트는 테스트를 위한 단독 모드(standalone mode)와 대규모 운영 환경을 위한 분산 모드(distributed mode)를 제공
재사용성과 기능 확장
: 커넥트는 기존 커넥터를 활용할 수도 있고 운영 환경에서의 요구사항에 맞춰 확장이 가능
편리한 운영과 관리
: 카프카 커넥트가 제공하는 REST API로 빠르고 간단하게 커넥트 운영 가능
장애 및 복구
: 카프카 커넥트를 분산 모드로 실행하면 워커 노드의 장애 상황에도 메타데이터를 백업함으로써 대응 가능하며 고가용성 보장