데이터 패브릭이란?
데이터 패브릭은 클라우드와 온프레미스 데이터 엔드포인트 간의 연결 조직 역할을 하는 통합된 데이터 통합 및 관리 계층입니다. 데이터 패브릭의 목적은 모든 데이터를 통합하고 일관된 분산 액세스를 지원하며, 사용자를 위해 모든 범위에서 검색, 통합, 오케스트레이션 및 거버넌스 기능을 가능하게 하여 독립 실행형 사일로를 제거하는 것입니다.
애널리틱스 에코시스템이 거의 정의상 분산되어 있기 때문에 데이터 패브릭은 특히 중요합니다. 이는 클라우드 트렌드의 역할이 큽니다. 조직은 데이터 웨어하우스 기반 비즈니스 인텔리전스 플랫폼 및 Hadoop 기반 데이터 레이크와 같이 다양한 위치에 데이터를 분산하고 있습니다. 데이터 패브릭은 일관되고 안정적이며 유연한 쿼리를 통해 모든 곳에 걸쳐 데이터 소스를 데이터 소비자에게 연결하는 스레드 역할을 합니다.
데이터 패브릭은 또한 고도로 자동화되어 있으며 대량/일괄 처리 및 데이터 가상화 접근 방식과 같은 기존 데이터 통합 및 제공 방식을 결합할 수 있습니다. 이는 자동으로 구성, 관리 및 조정되는 것처럼 오케스트레이션도 가능합니다. 데이터 패브릭 개념을 개척한 Gartner는 최신 데이터 패브릭도 다음과 같은 최신 기술 및 관행을 통합해야 한다고 주장합니다:
- 메타데이터 활성화 및 능동적 관리를 포함하는 임베디드 인공 지능(AI) 및 머신 러닝(ML).
- 새로운 노드를 더 쉽게 구체화하고 자연어 처리와 같은 사용 사례를 지원하는 시맨틱 지식 그래프.
- 자동화된 테스트, 모니터링 및 통계적 프로세스 제어와 같은 관행을 통해 애널리틱스 주기를 단축하는 애자일 방식의 방법론인 DataOps.
완전한 데이터 패브릭을 구성할 수 있는 일체형 데이터 패브릭 소프트웨어는 없습니다. 대신 각 기업은 구축 및 구매한 인프라를 결합하여 특정 요구 사항을 충족하는 데이터 패브릭을 생성해야 합니다.
데이터 패브릭의 5가지 필수 기능
데이터 패브릭을 연결할 때 기업은 다음 기능을 확인해야 합니다:
1. 어디서나 일관된 쿼리
데이터 패브릭은 궁극적으로 데이터 과학자와 같은 최종 사용자가 어디서든 쿼리를 시작할 수 있도록 상호 연결되는 이기종 시스템의 근본적인 복잡성을 추상화해야 합니다. 언제 어디서나 이러한 편리함을 누릴 수 있는 것이 데이터 패브릭의 근본적인 이점입니다. 사용자는 Hadoop 데이터 레이크 또는 데이터 웨어하우스에서 시작할 수 있지만 상황에 관계없이 필요한 쿼리를 완료하기 위해 병렬로 작동하는 양방향 데이터 액세스 및 고품질 커넥터를 사용할 수 있어야 합니다.
2. 지속적인 데이터 검색, 통합 및 카탈로그 작성
데이터 패브릭 아키텍처의 고유한 자동화를 통해 모든 소스에서 데이터를 능동적으로 찾은 다음 해당 소스를 중요한 관계를 노출하는 지식 그래프에 통합할 수 있습니다. 데이터 카탈로그는 데이터 레이크, 데이터 웨어하우스 또는 기타 디자인 패턴에 있든 상관없이 사용자가 원하는 것을 검색하는 데 도움이 되는 메타데이터와 검색 도구를 결합하기 때문에 데이터 패브릭의 중요한 구성 요소이기도 합니다.
3. 민주화된 셀프 서비스
클라우드 인프라와 마찬가지로 데이터 패브릭 아키텍처는 안전한 셀프 서비스 인터페이스를 통해 사용자의 액세스를 간소화하는 것이 목적입니다. 기업의 데이터 패브릭 사용에 대한 최근 보고서에서 Forrester는 이 셀프 서비스를 가능하게 하는 두 가지 중요한 요소를 강조했습니다:
- 검색 및 분류에서 수집 및 변환에 이르기까지 위에서 언급한 기능을 자동화하는 AI 및 ML.
- 매우 복잡한 데이터 패브릭 아키텍처도 쉽게 배포할 수 있는 제로코드 및 로우코드 배포 옵션.
전반적으로 셀프 서비스를 통해 비즈니스 사용자는 데이터 준비 워크플로를 제어할 수 있습니다. 샌드박스 환경 내에서 작업이 가능하며 모든 소스의 데이터에 액세스하고 선호하는 도구를 사용하여 데이터를 조작하고 프로덕션 환경으로 보낼 수도 있습니다.
4. 수동 및 활성 메타데이터 간 변환
Gartner는 이 기능을 데이터 패브릭 개념의 기초로 강조했습니다.
수동 메타데이터는 정적입니다. 일반적으로 설계 단계에서 생성되고 데이터 스키마 및 비즈니스 정의와 같은 항목의 문서로 유지 관리됩니다. 활성 메타데이터는 동적이며 액세스 빈도 및 데이터 품질과 같은 매개변수에 변화하는 통찰력을 제공합니다.
데이터 패브릭 내에서 AI 및 ML은 메타데이터를 지속적으로 분석한 다음 사용자가 이해하기 쉬운 그래프 모델을 구축하여 수동 메타데이터를 활성 메타데이터로 변환합니다. 그런 다음 이러한 AI 및 ML 알고리즘은 이 분석 결과를 사용하여 엔터프라이즈 에코시스템에서 데이터를 자동으로 관리하는 방법을 최적화합니다. 이런 방식을 통해 활성 메타데이터는 데이터를 준비하고 탐색할 때 수동 작업의 필요성을 줄이는 데 도움이 됩니다.
5. 확장성 및 유연성
리터럴 패브릭과 마찬가지로 데이터 패브릭은 변경 사항을 수용할 수 있을 만큼 충분히 유연해야 하며, 데이터 액세스를 방해하는 장벽이 되어서는 안 됩니다. 이 목표를 달성하기 위해 중요한 기능은 다음과 같습니다:
- 병렬 및 클러스터 인식 데이터 전송
- 자동 데이터 형식 변환 및 유형 관리
- 플랫폼별/플랫폼 고유 기능을 사용하는 기능
- 플랫폼 전반에 걸친 정책 기반 보안
- 로컬 및 원격 시스템의 로깅 및 모니터링
- 최적의 워크로드 성능을 위한 푸시다운 처리
데이터 패브릭의 가장 큰 이점은 무엇인가요?
데이터에 대한 일관된 분산 액세스를 통해 사용 편의성이 향상된다는 것이 데이터 패브릭의 주요 이점이며, 이것은 세 가지 하위 이점으로 나눌 수 있습니다:
1. 품질 저하없이 데이터 전송 가속화
데이터 패브릭 기술은 데이터 검색 및 수집에서 전달 및 소비에 소요되는 시간을 단축합니다. 또한 활성 메타데이터를 사용하여 엔터프라이즈 데이터를 통합 및 관리하는 AI 및 ML 알고리즘을 통해 데이터 품질을 지속적으로 개선합니다.
2. 셀프 서비스 소비 및 협업
데이터 패브릭 솔루션을 사용하면 비즈니스 및 기술 사용자 모두 원하는 것을 빠르고 일관되게 찾을 수 있습니다. 이는 조직에서 급증하는 데이터 소스와 사일로, 빅 데이터 사용 사례를 처리하는 요즘 매우 중요합니다. 데이터 패브릭은 따라하기 쉬운 스레드로 모든 것을 연결합니다.
3. 자동화된 통합, 관리 및 데이터 거버넌스
데이터 패브릭 아키텍처는 고도로 자동화되어 있기 때문에 데이터 소스 통합 및 데이터 품질 분석과 같이 한때 상당한 수작업이 필요했던 작업을 수행할 수 있습니다. 자동화로 인해 시간을 절약하고 오류 및 규정 준수 문제의 위험을 줄일 수 있습니다.
데이터 패브릭의 가능성 수용
테라데이타의 고속 병렬 데이터 패브릭 시스템인 테라데이타 QueryGrid는 데이터에 기업이 필요로 하는 일종의 확장성, 유연성, 통합, 포괄적인 관리 및 철저한 거버넌스를 제공합니다. 사용자는 멀티 클라우드, 하이브리드 클라우드 또는 온프레미스 환경에서 선택한 도구를 사용하여 데이터에 액세스하고 작업할 수 있습니다.
데이터 패브릭 연결을 시작하는 방법에 대해 자세히 알아보려면, QueryGrid가 테라데이타 Vantage 및 Starburst Enterprise Presto와 함께 작동하여 어떻게 분석 환경을 현대화하고 통찰력을 가속화하는지 아래 웨비나에서 확인하세요.
데이터 패브릭 웨비나 보기