Subscribe to the Teradata Blog

Get the latest industry news, technology trends, and data science insights each week.



I consent that Teradata Corporation, as provider of this website, may occasionally send me Teradata Marketing Communications emails with information regarding products, data analytics, and event and webinar invitations. I understand that I may unsubscribe at any time by following the unsubscribe link at the bottom of any email I receive.

Your privacy is important. Your personal information will be collected, stored, and processed in accordance with the Teradata Global Privacy Policy.

몇 밀리초의 차이가 클라우드에서 애널리틱스의 성능을 망칠 수 있을까?

몇 밀리초의 차이가 클라우드에서 애널리틱스의 성능을 망칠 수 있을까?
1밀리초(ms) 내에 어떤 일이 가능할지 생각해 본 적 있으세요? 집파리는 3ms에, 꿀벌은 5ms에 날개를 펄럭일 수 있습니다. 하지만 인간은 눈 한 번 깜짝하는 데 300ms가 걸립니다. 밀리초는 1초의 1/1000에 불과하기 때문에 대수롭지 않게 여겨질 수 있습니다. 하지만 단 몇 밀리초 때문에 클라우드 통신 성능이 완전히 엉망이 될 수 있습니다.

이전 블로그 게시물에서 클라우드 아키텍처를 개발할 때 지리적 측면을 고려해야 한다고 말씀드린 적이 있습니다. 가장 큰 이유는 네트워크 지연과 그러한 지연이 클라우드 WAN(광역통신망)에 미치는 성능 저해 효과 때문이었습니다. 그 게시글에서 저는 그 이유를 설명하지 않고 지연 문제에 대한 해결책으로 바로 건너뛰었습니다. 그런데 그 이유를 알면 WAN 성능 전문가가 될 수 있기 때문에 그 이유를 아는 것이 중요하다고 생각합니다.

저는 3년 넘게 테라데이터 고객들이 Vantage 시스템을 클라우드로 마이그레이션하는 것을 돕는 일을 하고 있는데, WAN의 성능이 항상 큰 문제입니다. 저는 전자공학 학위를 가지고 있고 1980년대에 WAN 네트워크 장비 설계 업무를 했지만 항상 클라우드 WAN 성능 문제를 진단하는 것이 불편하게 느껴졌습니다. 저는 항상 사내의 네트워크 전문가에게 달려가 도움을 청하곤 했습니다. 저의 네트워크 스킬이 녹슬기는 했지만 아무리 인터넷으로 조사를 해봐도 제가 필요로 하는 전체 그림을 얻을 수는 없었습니다. 사내 네트워크 전문가와 거의 일면 동안 얘기해 본 후에야 마침내 그렇게 해답을 찾기 힘들던 문제가 얼마나 단순한 것이었는지 이해할 수 있었습니다. 여기서 제 목표는 그러한 인사이트를 바탕으로 여러분을 클라우드 WAN 통신의 마스터로 만들어 줄 간단한 설명을 제시하는 것입니다.

설명은 앱의 관점에서는 신뢰할 수 있는 데이터 전송을 해야 한다는 필요가 존재한다는 사실에서 출발합니다. 그림 1에서 보듯이, 신뢰할 수 있는 전송은 데이터 패킷 Ack(acknowledgements)를 사용하는 네트워크 프로토콜을 통해 달성됩니다. 발송자는 데이터 패킷을 보낸 다음, 수신자로부터 전송이 성공적임을 나타내는 Ack가 오기를 기다립니다. 발신자는 수신자의 Ack를 기다리는 동안 총 왕복 시간을 유휴 상태로 있게 됩니다. 대부분의 WAN이 그렇듯이 네트워크 지연 시간이 긴 경우 단일 데이터 스트림의 네트워크 성능을 망치는 것은 바로 이 유휴 시간입니다.

 
Picture1.png
그림 1 데이터 패킷 Ack를 통한 신뢰할 수 있는 데이터 전송

WAN 성능을 이해하는 데 있어 중요한 것은 애플리케이션 데이터 전송에는 네트워크 계층과 애플리케이션 계층이라는 2개 세트의 Ack가 있다는 것을 이해하는 것입니다. 네트워크 계층은 대부분 TCP/IP이며 모두 알다시피 인터넷을 실행하는 프로토콜입니다. WAN 최적화에 대해 인터넷 검색을 해보면 거의 네트워크 계층과 TCP/IP에 대한 얘기 밖에 없습니다. 이러한 사이트들은 TCP/IP가 어떻게 윈도윙 기법을 사용하며, 이 기법이 불완전하기는 하지만 WAN 지연 문제를 중화한다는 사실을 알려준다는 면에서 유용합니다. 우리는 이러한 윈도윙 기능 때문에 네트워크 계층이 최적화되어 있다고 가정하고 지연 문제에서 이러한 Ack은 무시해 버립니다.

두 번째 Ack 세트는 애플리케이션 계층에서 발생합니다. 여기서는 ODBC, JDBC 또는 TCP/IP에서 실행되는 네이티브 데이터베이스 프로토콜 같은 프로토콜에 대해 얘기하는 것입니다. 제가 인터넷으로 검색해 봤지만 이러한 Ack이나 이러한 Ack이 WAN 통신에 미치는 영향에 대한 정보는 별로 찾을 수 없었습니다. 알고 보니 이런 프로토콜에는 윈도윙 기법이 없으며, 따라서 WAN 지연 문제에 매우 취약하다는 것이 확인되었습니다.

그럼 제가 WAN 성능 문제를 마침내 이해할 수 있게 도와준 그래프와 함께 몇 가지 예를 살펴보도록 하겠습니다. LAN(근거리통신망)의 경우 지연 시간은 보통 1ms 미만입니다. 따라서 데이터 Ack에 대한 대기 시간은 데이터 전송 시 걸리는 시간에 비해 미미하며, 따라서 네트워크에서 유휴 시간이 거이 없습니다(그림 2). 따라서 단일 데이터 스트림에서 LAN의 처리량은 네트워크 대역폭에 가깝습니다.

 
Picture1-(1).png
그림 2: 지연 시간이 1ms인 대용량 파일 전송     
   
Picture1-(2).png
그림 3: 지연 시간이 35ms인 대용량 파일 전송

하지만 지연 시간이 일반적인 WAN의 지연 시간이 35ms로 늘어나면 어떻게 될까요? 그림 3을 보면 유휴 시간이 크게 늘었고, 따라서 이 단일 데이터 스트림에 대한 네트워크 처리량이 급격하게 줄었습니다. 많은 사람들이 대역폭을 늘리면 이 문제를 해결할 수 있다고 생각하지만 사실 그렇지 않습니다. 대역폭을 늘린다고 해서 지연 문제가 해결되지는 않습니다. WAN에서 유휴 시간을 채우는 주된 방법은 여러 데이터 스트림을 추가로 병렬 전송하는 것입니다. 그림 3을 보면 다중 스트림이 어떻게 유휴 시간을 채울지 쉽게 알 수 있습니다.

따라서 클라우드 WAN 지연 시간이 눈 깜짝하는 것보다 더 빠르더라도 그로 인해 성능 문제가 생길 수 있습니다. 따라서 WAN으로 대량의 데이터를 전송할 때는 반드시 병렬 데이터 스트림을 지원하는 애플리케이션을 사용해야 합니다. Vantage는 병렬 데이터 스트림을 사용해 데이터를 전송하는 여러 가지 방법을 지원하는 만큼 클라우드 컴퓨팅에 이상적입니다.

Portrait of W. Scott Wearn

(Author):
W. Scott Wearn

Scott has 30+ years of experience in the information technology field, with 25+ years at Teradata. Scott has held many positions at Teradata including Professional Services Partner, Architectural Consultant, Data Warehouse consultant, Solution Architect (supporting Teradata clients) and is currently an Ecosystem Architect. Scott recently ran a Cloud Architecture Practice which helped customers migrate their Teradata solutions to the cloud.
  View all posts by W. Scott Wearn

Teradata Vantage를 통해 복잡한 데이터와 분석을 해답으로 전환하십시오.

Contact us