Subscribe to the Teradata Blog

Get the latest industry news, technology trends, and data science insights each week.



I consent that Teradata Corporation, as provider of this website, may occasionally send me Teradata Marketing Communications emails with information regarding products, data analytics, and event and webinar invitations. I understand that I may unsubscribe at any time by following the unsubscribe link at the bottom of any email I receive.

Your privacy is important. Your personal information will be collected, stored, and processed in accordance with the Teradata Global Privacy Policy.

같은 실수 반복하지 않기

같은 실수 반복하지 않기
뒤늦게 인지하는 것은 대단한 일입니다. 돌이켜보면, 하둡 기반 데이터 레이크에 대한 약속은 항상 지키기 어려웠습니다. 방대한 양의 원시 데이터를 수집하고 필요할 때 데이터를 분석하기 위해 읽기 전용 스키마를 적용하는 것은 더 빠르고 더 광범위한 분석을 지원하고자 하는 우리에게 매력적이었습니다. 통찰력을 제공하는 무결점 데이터 레이크에 대한 비전은 단지 신기루에 불과하다는 것을 알게 되었습니다. 모든 데이터 레이크에 데이터가 가득한 것은 아니며 모든 기술과 마찬가지로 하둡 스택에도 최적의 지점이 있습니다. 그러나 많은 조직은 데이터 레이크를 심층적으로 조사하여 가치 있는 데이터를 찾는 것이 점점 더 어려워지고 있으며 헌신적인 데이터 사이언티스트를 제외하고는 기술, 시간 또는 의지가 있는 사람이 거의 없다고 판단하고 있습니다.

저는 데이터 레이크 사용의 날에 열린 업계 행사에서 스키마 없는 데이터 관리의 즐거움에 대해 설명했던 것을 생생하게 기억합니다. 그 날 행사장 뒤편에 있던 30대 남성이 목을 가다듬고 손을 들더니 그가 일했던 수십억 달러 규모의 다국적 온라인 여행사의 얼마나 많은 현업 직원이 봇 트래픽을 위한 필터링되지 않은 원시 웹 로그 데이터를 이해할 수 있는지 정중히 물었습니다. 제가 기억하는 바로는 그의 추측은 웹사이트 엔지니어링 그룹에 속한 다섯 명 정도였습니다.

이는 레이크 부대가 해결하려고 했던 문제가 실존하지 않는다는 것이 아닙니다. 데이터 볼륨, 속도 및 다양성은 빠르게 증가했으며, 여전히 증가하고 있습니다. 조직은 (a) 다양한 사용 사례의 다양한 요구에 따라, (b) 비용 효율적으로, (c) 태양에 수소 연료가 고갈되기 전에 이를 수집, 정제, 이용 및 활용할 수 있어야 합니다. 구조화된 데이터의 관리 및 통합에 대한 기존의 폭포식 접근 방식은 상당한 가치를 창출하지만 상당한 노력, 비용 및 시간이 필요합니다. 그 결과 단순히 비즈니스와 IT 간의 갈등이 아니라 비즈니스와 "애플리케이션 IT" 및 "데이터 IT" 또는 CDO간의 최소 3방향의 갈등이었습니다.

저는 '팀 빅 데이터'의 유료 회원이 자신이 구축한 상당히 기본적인 온라인 리포팅 애플리케이션에 대해 설명하고 있는 와중 다른 업계 컨퍼런스에 청중으로 참여했습니다. 그 분이 6명의 개발자로 구성된 팀과 함께 앱을 개발하는 데 12개월 밖에 걸리지 않았습니다! 그에게 필요한 모든 데이터는 이미 회사의 데이터 웨어하우스에 있었지만 그의 첫 번째 조치는 해당 데이터를 모두 데이터 레이크로 복사한 다음 하둡 에코시스템의 성능과 동시성 한계를 극복하기 위해 장애물을 뛰어 넘는 것이었습니다. 저는 데이터를 그대로 놓고, 좋은 DBA와 두 명의 우수한 애플리케이션 개발자만 있다면 몇 주 만에 동일한 애플리케이션을 구축할 수 있다고 생각합니다!

일부 데이터 레이크는 데이터 사이언티스트에게 최상의 R&D 환경을 제공하여 강력하고 일관되며 재사용 가능한 규칙 처리 및 데이터 구조를 생성해야 하는 필요성에 구애 받지 않고 다양한 데이터를 수집하고 실험을 수행할 수 있도록 했습니다. 그러나 많은 조직에서는 비즈니스 성장을 위해 이와 같은 통찰력을 어떻게 사용할 것인지에 대한 명확한 전략이나 계획 없이 소수의 사용자 대상 그룹의 요구를 충족시키기 위해 수천만 달러를 소비했습니다. 생산으로 이어지는 명확한 경로가 없다면 대부분의 R&D 레이크는 지속적인 무관심에 빠지게 됩니다

데이터 및 분석은 비용을 절감하고 고객 만족도를 높이거나 새로운 성장을 주도하여 성과를 향상하기 위해 사용될 때만 가치가 돋보입니다. 오늘날 경제적 불확실성의 시대에 가장 중요한 것은 가치 실현 시간과 민첩성입니다. 제가 아는 최적의 방법은 불필요한 작업을 없애고 나머지 작업을 최대한 자동화하는 것입니다. 데이터 제품을 재사용하는 것은 궁극적인 "불필요 업무 제거" 활동이며 이를 통해 조직이 성공적으로 실험 및 테스트에서 프로덕션 및 대규모 예측 분석 배포로 빠르게 이동했는지 알 수 있습니다.

데이터 및 분석이 클라우드로 마이그레이션됨에 따라 데이터 관리에 대해 자유방임적인 접근 방식을 계속 유지하는 조직은 클라우드 오브젝트 스토어(Cloud Object Store) 기반 데이터 레이크를 사용하여 다시 한번 실패할 가능성이 높습니다. 클라우드 오브젝트 스토리지를 적절하게 사용하면 대규모 아키텍쳐 단순화를 가능하게 하여 한때 하둡이 열망했던 "엔터프라이즈 데이터 운영 체제"가 될 가능성이 있습니다.

저는 앞으로 몇 주 간에 걸쳐 복잡한 엔드투엔드 비즈니스 프로세스의 최적화 빠른 이동을 지원하는 클라우드 생태계의 이점을 활용하여 클라우드 분석 아키텍쳐 를 구축하는 테라데이타 접근법을 공유할 것입니다. 클라우드를 단순하게 장소로 생각하는 것이 아니라 보다 광범위하게 액세스하고 활용할 수 있고 더 나은 데이터 제품의 배포를 지원하는 새로운 컴퓨팅 패러다임으로 인식하는 방법에 대한 지속적인 관심 부탁드립니다.
Portrait of Martin Willcox

(Author):
Martin Willcox

Martin leads Teradata’s EMEA technology pre-sales function and organisation and is jointly responsible for driving sales and consumption of Teradata solutions and services throughout Europe, the Middle East and Africa. Prior to taking up his current appointment, Martin ran Teradata’s Global Data Foundation practice and led efforts to modernise Teradata’s delivery methodology and associated tool-sets. In this position, Martin also led Teradata’s International Practices organisation and was charged with supporting the delivery of the full suite of consulting engagements delivered by Teradata Consulting – from Data Integration and Management to Data Science, via Business Intelligence, Cognitive Design and Software Development.

Martin was formerly responsible for leading Teradata’s Big Data Centre of Excellence – a team of data scientists, technologists and architecture consultants charged with supporting Field teams in enabling Teradata customers to realise value from their Analytic data assets. In this role Martin was also responsible for articulating to prospective customers, analysts and media organisations outside of the Americas Teradata’s Big Data strategy. During his tenure in this position, Martin was listed in dataIQ’s “Big Data 100” as one of the most influential people in UK data- driven business in 2016. His Strata (UK) 2016 keynote can be found at: www.oreilly.com/ideas/the-internet-of-things-its-the-sensor-data-stupid; a selection of his Teradata Voice Forbes blogs can be found online here; and more recently, Martin co-authored a series of blogs on Data Science and Machine Learning – see, for example, Discovery, Truth and Utility: Defining ‘Data Science’.

Martin holds a BSc (Hons) in Physics & Astronomy from the University of Sheffield and a Postgraduate Certificate in Computing for Commerce and Industry from the Open University. He is married with three children and is a solo glider pilot, supporter of Sheffield Wednesday Football Club, very amateur photographer – and an even more amateur guitarist.

View all posts by Martin Willcox

Teradata Vantage를 통해 복잡한 데이터와 분석을 해답으로 전환하십시오.

Contact us