Azure Services: Data Factory란 무엇인가?

Azure Data Factory 알아 보기

무엇을 위한 서비스인가?

Azure Data Factory는 기업이 다양한 데이터 소스를 쉽게 결합할 수 있게 해주는 완전 관리형 서비스입니다. 이 서비스는 90개 이상의 다른 데이터 소스 연결을 위한 준비된 연결 도구(Connector)를 제공하며, 별도의 추가 비용 없이 이러한 도구들을 사용할 수 있습니다.

이를 통해 데이터 원본을 하나의 시스템으로 합치는 작업을 시각적으로 수행할 수 있습니다.

개발자는 프로그래밍 없이도 데이터를 추출하고, 변환한 후 저장하는 작업(ETL) 또는 데이터를 추출하여 저장한 후 변환하는 작업(ELT)을 쉽게 설정할 수 있습니다. 이렇게 통합된 데이터는 Azure Synapse Analytics로 이동하여 데이터를 분석하고 비즈니스에 중요한 통찰력을 얻을 수 있습니다.

어떤 경우에 사용하는가?

게임 회사가 클라우드에서 생성된 게임 로그 데이터를 분석하여 고객 선호도, 인구 통계, 사용 행태를 이해하고자 한다면, 이 로그 데이터와 회사의 기타 데이터를 결합해야 합니다. 예를 들어, 온-프레미스 데이터 저장소에 있는 고객 정보, 게임 정보, 마케팅 캠페인 데이터를 클라우드의 게임 로그 데이터와 합쳐서 분석하는 경우가 있을 수 있습니다.

Azure Data Factory는 이런 과정을 자동화하여 매일 정해진 시간에 실행하고, Blob 저장소에 파일이 들어오면 자동으로 작업을 시작하도록 설정할 수 있습니다.

어떤 방식으로 동작하는가?

Data Factory 작동 원리 및 이점 소개

  1. 연겿 및 수집: 다양한 데이터 소스를 중앙 데이터 저장소로 쉽게 이동시킬 수 있으며, 이 과정에서 복잡하고 비용이 많이 드는 사용자 지정 데이터 이동 솔루션을 구축할 필요가 없어집니다.
  2. 변환 및 보강: 복잡한 코딩 없이도 데이터 변환을 할 수 있고, 코드를 작성하길 선호하는 개발자는 Azure의 다양한 컴퓨팅 서비스를 이용해 변환 작업을 실행할 수 있습니다.
  3. CI/CD 및 배포: 개발자는 이를 통해 ETL 프로세스를 단계적으로 개발하고, 테스트를 거쳐 제품을 출시할 수 있습니다. 데이터가 준비되면, Azure Data Warehouse, Azure SQL Database, Azure Cosmos DB와 같은 저장소나 분석 도구로 데이터를 옮겨 비즈니스 사용자가 사용할 수 있게 됩니다.
  4. 모니터링: 개발자는 작업이 예정대로 진행되고 있는지, 성공과 실패의 비율은 어떤지를 파악할 수 있습니다. Azure Monitor, API, PowerShell, Azure Monitor 로그, 그리고 Azure Portal의 상태 패널을 사용하여 파이프라인의 상태를 확인하고 관리할 수 있습니다.

Data Factory 최상위 개념

Azure 구독에는 하나 이상의 Azure Data Factory 인스턴스(또는 데이터 팩토리)가 있을 수 있습니다.

Azure Data Factory는 다음 주요 구성 요소로 구성됩니다.

  1. 파이프라인
  2. 활동
  3. 데이터 세트
  4. 연결된 서비스
  5. 데이터 흐름
  6. Integration Runtimes