Subscribe to the Teradata Blog

Get the latest industry news, technology trends, and data science insights each week.



I consent that Teradata Corporation, as provider of this website, may occasionally send me Teradata Marketing Communications emails with information regarding products, data analytics, and event and webinar invitations. I understand that I may unsubscribe at any time by following the unsubscribe link at the bottom of any email I receive.

Your privacy is important. Your personal information will be collected, stored, and processed in accordance with the Teradata Global Privacy Policy.

데이터 메시에 대한 13가지 생각

데이터 메시에 대한 13가지 생각
저는 Zhamak Dehghani가 처음 구체화한 데이터 메시 개념에 대해 동료나 고객들과 정말 많은 논의를 하는데, 너무 그럴 일이 많아서 현재 소수의 동료들과 함께 본격적으로 그에 관한 백서를 작성 중입니다. 백서는 여러 차례 검토와 피드백이 필요한 만큼 엄청난 노력이 필요한 작업입니다. 그래서 저는 백서 작업을 진행하는 동안 이 기회를 통해 데이터 메시에 우리가 그렇게 열광하는 이유에 관해 여러분과 몇 가지 핵심적인 생각을 공유해 보려고 합니다.

#1 애널리틱스 솔루션을 설계하고 구축하는 것은 최소 세 가지 이유에서 힘든 작업입니다. 첫째, 요구사항이 모호하고 유동적인 경우가 많기 떄문입니다. 둘째, 이러한 솔루션들은 현재 비즈니스 문제와 무관한 프로세스 및 목적으로 생성되었을 수 있는 데이터의 목적 변경에 기반하기 때문입니다. 셋째, 분석 인사이트를 비즈니스 프로세스에 반영하려면 복잡한 트레이드오프를 파악하고, 이해하고, 평가해야 하기 때문입니다.

#2 이러한 이유로 성공적인 데이터 및 애널리틱스 플랫폼은 (지금뿐 아니라 항상 그래왔다는 의견도 있습니다) 점증적으로, 여러 단계에 걸쳐 구축합니다. 그것이 바로 성공적인 데이터 기반 조직이 실제 요구사항에 부합되는 데이터 제품의 신속한 제공에 중점을 두는 이유입니다. 

#3 데이터 실무자들은 애자일(Agile) 소프트웨어 개발 방식을 채택하는 데 상대적으로 오랜 시간이 걸렸지만 일단 채택이 되어 자동화 툴 및 DevOps 프로세스와 결합이 이루어진 경우 데이터 제품의 출시 기간이 10배 단축되는 경우가 많았습니다. 이것이 테라데이터가 DataOps 프레임워크와 툴링을 개발하게 된 동기입니다.

#4 우리는 데이터 메시 개념과 DDD(Domain-Driven Design, 도메인 기반 설계) 원칙에 따라 큰 문제 공간(데이터 플랫폼의 개발)을 애자일 개발 방식과 "피자 2판" 개발 팀을 이용해 추적 가능한 일단의 작은 문제들로 나누는 지능형 분해 접근법과 프레임워크를 적용합니다. 

#5 DDD의 근본 원칙은 경계 설정 맥락(bounded context)의 개념, 즉, 영역들 간에 상호 관계를 명확하게 정의해야 한다는 것입니다. "데이터는 데이터를 사랑"하고 여러 기능 및 영역 경계를 넘나들며 결합해야 하는 경우가 많기 때문에 이러한 상호 관계가 개별 데이터 제품 "설계에 반영" 되도록 하는 가벼운 거버넌스 및 데이터 관리 프로세스가 반드시 필요합니다. 여러 다른 영역 간에 데이터를 믿을 수 있고 정확한 방법으로 결합 및 비교하려면 반드시 필요한 기본 키(Primary Key) / 외래 키(Foreign Key) 관계는 데이터와 데이터 제품이 발견 및 재사용 가능하게 만드는 적절한 비즈니스, 기술 및 운영 메타 데이터와 마찬가지로 이 과정에서 결정적인 중요성을 갖습니다.

#6 교차 기능 데이터 제품의 구현을 지원하기 위해 엔터프라이즈 영역을 생성하는 것이 적절한 경우가 많으며, 상호 운용성이 기저 데이터 제품의 설계에 반영된 경우 이러한 교차 기능 데이터 제품은 더 우수하고, 더 저렴하고, 더 신속하게 구축할 수 있습니다.

#7 “가볍다"는 것은 매우 중요한 수식어입니다. 과도한 엔지니어링이나 과도한 모델링은 데이터 제품 개발 속도를 크게 늦출 수 있습니다.  특히 어느 데이터가 자주 공유 및 비교될지 확실치 않은 경우(MVP 데이터 제품 개발 중에는 그런 경우가 자주 발생합니다)  테라데이터의 LIMA 프레임워크 같은 “가벼운 통합" 접근법이 선호되는 경우가 많습니다.  “이중 모드(Bi-modal)” 애널리틱스“데이터 랩(Data Labs)”도 여기서 중요한 역할을 합니다.

#8 기술 부채는 디지털 혁신 이니셔티브를 가로막는 주요 장애물입니다. 데이터 제품의 재사용 여부는 기술 부채의 감소에서 핵심적인 역할을 합니다. 대부분의 데이터는 정리와 정제 과정을 거치기 전까지는 거의 가치가 없습니다. 그렇게 하는 것이 가능하고 실용적인 경우 같은 데이터에 기본적으로 같은 변환을 반복해서 적용하기 위해 중복적인 데이터 변환 절차들로 이루어진 "파이프라인 밀림"을 구성하기 보다는 이 과정을 단 한 차례만 실행하는 것이 바람직합니다. 정말 많은 조직들이 머신러닝 이니셔티브를 지원하기 위해 기능 저장소(Feature Stores)를 활용하는 방향으로 옮겨가고 있는 것이 바로 그런 이유 때문입니다.

#9 평론가들 중에는 데이터 메시 개념에서 가장 중요한 부분이 컨테이너화된 인프라를 신속하게 프로비저닝하는 능력이라고 주장하는 경우가 있습니다. 이 말은 한 마디로 말해 틀린 말입니다.  인프라의 프로비저닝은 심지어 클라우드 배포 모델을 통해 그 과정이 더 간소화되고 더 신속해지기 전에도 "텐트에서 가장 긴 폴대", 즉 가장 중요한 요소가 아니었습니다. 텐트에서 가장 긴 폴대는 데이터를 정제하고 체계적으로 정렬시켜 신뢰할 수 있는 방식으로 공유 및 비교할 수 있게 만드는 작업입니다.  한 최근 사례(상당히 기초적인 코로나 지표를 두고 씨름했던 교훈적인 이야기)를 보면 이 과정이 단일 영역이라는 단순한 맥락 안에서도 얼마나 복잡할 수 있는지(그리고 그 결과가 얼마나 부정적일 수 있는지) 알 수 있습니다.

#10 복잡한 데이터 제품의 개발을 연합한다고 해서 자동적으로 그 배포의 연합이 이루어지는 것은 아닙니다. 실제로 데이터 메시 솔루션을 배포하는 조직에서는 다양한 배포 옵션을 사용할 수 있습니다. 이러한 여러 가지 전략은 근본적으로 다른 엔지니어링 차원의 트레이드오프와 연관되기 때문에 조직에서는 이러한 선택의 프레임을 올바로 설정하고 의도를 올바로 반영한 의사결정을 내리는 것이 중요합니다. 보통 데이터 메시 배포 전략에는 (1) 스키마 코로케이션, (2) 스키마 연결, (3) 스키마 격리 등 세 가지가 있습니다. 이 세 가지 선택은 상호 배타적이지 않으며, 앞으로도 대부분의 실제 구현에서 이 세 가지 접근 방식들의 일정한 조합을 사용하게 될 것입니다. 

#11 저가형의 경우에도 Global 3,000 조직이 보유한 데이터 플랫폼은 보통 50개 이상의 분석 애플리케이션을 지원하고 연간 10억 건 이상의 쿼리를 실행하며, 향후 10년간 쿼리량은 최대 100배 증가할 것으로 예상됩니다. 많은 엔터프라이즈 분석 워크로드가 복잡한 스테이트풀 처리, 지속적으로 변화하는 데이터에 대한 반복적 실행, 그리고 임무수행에 필수적인 비즈니스 프로세스에 대한 임베디드 배포 등을 특징으로 합니다. 또한, 멀티코어 CPU의 성능 향상 속도는 네트워크 및 스토리지 하위 시스템의 성능 향상 속도를 계속해서 능가하고 있습니다. 이러한 이유로 스키마 코로케이션과 스키마 연결 전략이 앞으로도 계속 여러 다양한 시나리오에서 중요한 성과, 확장성 및 TCO 이점을 제공할 것으로 예상됩니다. 스키마 연결 전략에서는 테라데이터의 쿼리그리드(QueryGrid) 기술 같은 고성능의 확장형 데이터 패브릭 사용을 가정한다는 점을 참고하십시오.

#12 우리가 데이터 메시 개념에 열광하는 이유는 이 개념이 데이터 플랫폼과 복잡한 데이터 제품의 신속한 개발에서 지능형 분해 접근법을 중요하게 고려하기 때문입니다. 데이터 메시 기반 아키텍처의 구현과 관련해 우리가 권장하는 접근법은 각 영역별로 별도의 스키마를 생성하라는 것입니다. 데이터 관리와 데이터 모델링, 스키마 내용 추가는 구성 대상인 구체적인 영역에 관해 비즈니스 지식을 갖추고 있는 전문가의 책임 사항입니다. 이러한 접근 방식은 모든 엔터프라이즈 데이터를 하나로 통합하는 중앙 집중식 단일 스키마를 구현하려고 시도할 경우 그에 따라 발생하는 병목 현상을 막아줍니다. 영역 지향적인 (그리고 적절한 부분에서 의미론적으로 연결된) 스키마는 엔터프라이즈 내에서 비즈니스 중점 영역에 부합되는 데이터 제품 컬렉션을 제공합니다.

#13 대부분의 대기업들은 이미 여러 지역에 걸쳐 다중 CSP(Cloud Service Provider, 클라우드 서비스 제공업체)를 이용하고 있고 점차 늘어나는 추세를 보이고 있습니다. 따라서 연결형 데이터웨어하우스(Connected Data Warehouse)는 대규모 데이터 메시 구현의 기본이 됩니다. 특정 CSP, 특정 지역 내, 단일 확장형 데이터베이스 내에서 특정 비즈니스 영역에 정렬된 다중 스키마 코로케이션을 실행하는 경우 구현 측면의 민첩함과 실행 측면의 고성능이라는 두 가지 장점을 모두 취할 수 있습니다.

이 주제에 관한 자세한 내용은 곧 본격적인 백서에서 공개됩니다.
Portrait of Martin Willcox

(Author):
Martin Willcox

Martin leads Teradata’s EMEA technology pre-sales function and organisation and is jointly responsible for driving sales and consumption of Teradata solutions and services throughout Europe, the Middle East and Africa. Prior to taking up his current appointment, Martin ran Teradata’s Global Data Foundation practice and led efforts to modernise Teradata’s delivery methodology and associated tool-sets. In this position, Martin also led Teradata’s International Practices organisation and was charged with supporting the delivery of the full suite of consulting engagements delivered by Teradata Consulting – from Data Integration and Management to Data Science, via Business Intelligence, Cognitive Design and Software Development.

Martin was formerly responsible for leading Teradata’s Big Data Centre of Excellence – a team of data scientists, technologists and architecture consultants charged with supporting Field teams in enabling Teradata customers to realise value from their Analytic data assets. In this role Martin was also responsible for articulating to prospective customers, analysts and media organisations outside of the Americas Teradata’s Big Data strategy. During his tenure in this position, Martin was listed in dataIQ’s “Big Data 100” as one of the most influential people in UK data- driven business in 2016. His Strata (UK) 2016 keynote can be found at: www.oreilly.com/ideas/the-internet-of-things-its-the-sensor-data-stupid; a selection of his Teradata Voice Forbes blogs can be found online here; and more recently, Martin co-authored a series of blogs on Data Science and Machine Learning – see, for example, Discovery, Truth and Utility: Defining ‘Data Science’.

Martin holds a BSc (Hons) in Physics & Astronomy from the University of Sheffield and a Postgraduate Certificate in Computing for Commerce and Industry from the Open University. He is married with three children and is a solo glider pilot, supporter of Sheffield Wednesday Football Club, very amateur photographer – and an even more amateur guitarist.

View all posts by Martin Willcox

Teradata Vantage를 통해 복잡한 데이터와 분석을 해답으로 전환하십시오.

Contact us