자동차 부문이 변화함에 따라 소프트웨어는 제품의 전기기계적 요소만큼 중요해지고 있습니다. 마찬가지로, 비즈니스 프로세스를 디지털화하고 공급망 전체에 인더스트리 4.0 기술을 배포하는 것은 비즈니스를 혁신하는 데 있어 데이터 제품이 소프트웨어 패키지만큼 중요해지고 있다는 것을 의미합니다. 자동차 산업이 변화의 속도에 발맞추기 위해 민첩성을 갖추고 혁신하기 위해 분투함에 따라 애널리틱스 및 머신 러닝과 같은 데이터 제품을 자동차 비즈니스에 통합해야 하는 압력이 가중되고 있습니다. 그러나 이 블로그에서 살펴본 디지털 스레드를 제공하기 위해, 애널리틱스는 수천 개의 데이터 제품을 생성할 수 있는 효율적이고 효과적인 '데이터 팩토리'로 산업화되어야 합니다.
데이터 팩토리는 소스 데이터의 비즈니스 가치를 활용하기 위한 효율적이고 안정적인 프로세스로 생각할 수 있습니다. 이는 발견되지 않은 통찰력을 얻기 위해 데이터를 수집하는 능력뿐만 아니라, 데이터 제품을 일관되고 효율적으로 구축하는 능력을 의미합니다. 데이터 팩토리는 콜 센터 또는 기계 운영자부터 최고 경영진에 이르기까지 조직의 모든 수준에서 사용되며 매일 의사 결정을 내리는 데 중요한 역할을 합니다.
Enterprise Feature Store 소개
반복 가능하고 간소화된 프로세스와 공통 기능의 재사용은 데이터 팩토리의 핵심 개념입니다. 데이터 과학자가 비즈니스 전체에서 데이터에 액세스할 수 있게 되면, 그 다음 단계는 해당 데이터를 효율적으로 사용하여 엔터프라이즈 규모에서 실질적인 문제를 해결할 수 있도록 지원하는 것입니다. 개별 디지털 스레드는 부서 또는 기능 내에서 가치를 추가할 수 있지만, 실제 상승 효과는 개별 스레드를 구성하는 데이터가 재사용되고, 결합 및 확장됨에 따라 발생합니다. Enterprise Feature Store는 데이터 재사용의 토대가 됩니다.
Enterprise Feature Store는 대규모로 데이터 제품을 배포하는 것에 대한 근본적인 문제를 해결하기 위해 탄생했습니다. 데이터 제품 작업의 80%는 데이터를 찾고, 정리하고, 통합하여 애널리틱스 데이터 세트를 형성하는 데이터 랭글링에 소요됩니다. 실제로 데이터 제품을 만들고 배포하는 데 남은 시간은 20%에 불과하므로 데이터 과학자와 분석가의 재능이 낭비되고 있습니다.
Enterprise Feature Store의 본질은 검증된 유틸리티로 사전 준비된 데이터 세트에 대해 선별되고 관리되는 리포지토리입니다. 이러한 '기능'은 데이터 과학자가 예측 애널리틱스 모델을 구축 및 테스트할 때 생성되지만 다음 모델로 넘어갈 때 종종 삭제되거나 잊혀집니다. Enterprise Feature Store는 유용성이 입증된 변환된 데이터를 저장하고 분류하여 조직 전체의 다른 데이터 과학자가 다음 프로젝트에서 재사용할 수 있도록 합니다. 모든 새 모델을 처음부터 만드는 대신 재사용을 주도하고 반복성 및 효율성 향상을 촉진합니다.
단계별 구축
Enterprise Feature Store는 모델 및 단계별로 설계되는 것이 가장 좋습니다. 여러분이 데이터 과학자로서 제조공장의 한 측면을 분석하여 품질 문제의 근본 원인을 이해하기 위한 예측 모델을 작성해야 한다고 상상해 보십시오. 온도, 진동, 주기에 관한 데이터를 특정 머신에서 수집할 것입니다. 그리고 이를 공정에 사용되는 원자재 공급망 데이터와, HR의 근무교대 패턴 데이터 및 시간과 온도 등과 같은 환경 데이터와 결합합니다. 이러한 각 데이터 세트는 데이터 의미와 컨텍스트가 모두 명확하도록 선별해야 합니다. 이러한 명확성을 통해 데이터는 신뢰할 수 있고 감사 가능하며 의미 있는 방식으로 결합될 수 있습니다.
Enterprise Feature Store는 이 모든 노력을 카탈로그화하여 다른 사람들이 사용할 수 있도록 합니다. 따라서 다음에 데이터 과학자가 해당 머신의 데이터를 사용해야 할 때는 이미 존재하는 템플릿을 사용하면 됩니다. 과학자들은 다른 결과를 예측하기 위해 새로운 기능을 생성할 수 있으며, 이러한 기능도 저장됩니다. 이러한 방식으로 각 프로젝트는 고품질 데이터 및 애널리틱스 모델의 포괄적인 라이브러리에 기여합니다. 프로덕션에 적용되지 않는 프로젝트라도 정리된 데이터 세트 또는 문서화된 모델의 형태로 기여할 수 있습니다.
테스트 및 검증
이 접근 방식으로 인한 효율성은 분명합니다. 그러나 점점 더 복잡하고 가치 있는 모델이 여러 소스의 데이터와 연결됨에 따라 이러한 저장된 변환은 확실성, 안전 및 거버넌스에도 중요합니다.
모델을 만드는 데이터 과학자는 비즈니스의 모든 영역의 전문가가 될 수 없습니다. 잘 구성되고 테스트된, 입증된 기능은 올바르게 통합되고 사용되도록 보장하는 표준 메타 데이터를 생성하는 동시에, 전문 데이터 세트에 대한 민주적인 액세스를 제공할 수 있습니다. 단위 및 샘플 주기가 시작한 기능에 ‘내장’되었다는 정보를 토대로 데이터 과학자는 온도 센서의 데이터로 모델을 구축할 수 있습니다.
데이터 개인정보 보호규정이 적용되는 중요한 데이터의 경우, Enterprise Feature Store는 데이터 거버넌스 책임에 크게 기여합니다. 올바른 확장 기능을 통해 더 적은 수의 데이터 사본이 저장되므로 감독 및 적극적인 관리가 많이 필요하지 않습니다. 또한 잘 문서화된 애널리틱스 모델은 데이터가 사용되는 방법과 위치, 그리고 누가 데이터에 액세스할 수 있는지에 대한 질문에 답하는 데 도움이 됩니다.
데이터 제품의 테스트 및 검증도 개선됩니다. 데이터 과학 모델에는 엔지니어가 차량용 소프트웨어와 하드웨어를 만들 때와 같은 수준의 엄격한 기준을 적용해야 합니다. 또한 새로운 모델을 프로덕션에 더 빠르고 효율적으로 통합할 수 있도록 연속적인 개발 주기를 통해 개선 및 확장할 수 있습니다.
데이터 팩토리
자동차 산업은 소비자에게 아름답고 효율적이며 안전한 제품을 제공하기 위해 복잡하지만 잘 관리된 에코시스템을 발전시켜 왔습니다. 이제 데이터 기반 비즈니스 프로세스에 적합하고 통찰력 있고 안전하며 적응력 있는 데이터 제품을 효율적으로 제공해야 합니다. 데이터 과학자가 끊임없이 새로운 모델에 대한 기능을 재창조하기보다는 가치를 제공하는 데 집중할 수 있는, 견고하고 탄력적이지만 민첩한 '데이터 팩토리'에 대한 투자가 필요합니다.
이전의 발전과 마찬가지로 이것은 빨리 변화되지 않을 것입니다. 이 시리즈의
이전 블로그에서 언급했듯이 필요한 데이터 팩토리 기반을 구축하는 데는 시간이 걸립니다. 또한 가치를 제공하는 각 프로젝트에서 기존 데이터 기반과 기능 저장소를 활용하고 확장하는 노력은 계속되어야 합니다.
Enterprise Feature Store는 데이터 제품 팩토리의 핵심입니다. 이 기능 저장소를 생성하고 큐레이팅하면 데이터 과학자에게 리소스, 도구 및 공간을 제공하여 자동차 비즈니스 전반에서 애널리틱스 사용을 빠르게 가속화하는 동시에 데이터 제품 생산의 효율성, 민첩성 및 감사 가능성을 향상시킵니다. 이를 통해, 빠르게 진화하는 자동차 및 모빌리티 에코시스템에서 혁신을 가속화할 수 있는 민첩성을 제공합니다.