AI 데이터센터 환경에서 초고밀도 400 및 800Giga 네트워크 탐색
2025년 10월 6일 / 일반, 설치 및 테스트, 모범 사례
인공 지능(AI)은 데이터 센터를 빠르게 변화시키고 있습니다. ChatGPT 같은 대형 언어 모델(LLM) 교육부터 개인화된 콘텐츠 및 예측 분석 제공에 이르기까지 하이퍼스케일러, 클라우드 제공업체 및 대기업들은 가속화된 병렬 처리를 활용하여 AI의 잠재력을 실현하는 고성능 컴퓨팅(HPC) 네트워크를 구축하고 있습니다. 이러한 AI 네트워크가 어떻게 전개되는지, 그리고 그로 인한 케이블 테스트 문제는 무엇인지 살펴보겠습니다.
|
|
AI 네트워킹의 두 가지 측면: 백엔드 및 프런트엔드
데이터 센터의 AI는 두 가지 독특한 네트워킹 접근 방식에 의존합니다. 집중 훈련을 위한 백엔드와 실제 추론을 위한 프론트엔드입니다. 훈련 동안에 AI 모델은 AI 클러스터 또는 GPU 패브릭에서 상호 연결된 고성능 GPU(그래픽 처리 장치) 전반의 대규모 데이터 세트를 분석하여 패턴을 인식하고 예측하며 결론을 도출하는 방법을 학습합니다. 이 연산적으로 까다로운 프로세스를 위해서는 효율적인 모델 훈련과 더 빠른 인사이트를 위해 GPU 간에 고대역폭, 저지연 데이터 전송이 필요합니다.
AI 모델이 학습되면 추론이 실제로 실행될 때 사용자 쿼리에 응답하고 새로운 정보에서 결론을 이끌어냅니다. 이 프로세스는 연산 집약도가 상당히 낮습니다. 개 품종을 위한 식별 앱을 생각해보십시오. 훈련은 AI 모델이 수만 개의 레이블이 있는 이미지를 분석하여 개 품종을 인식하도록 학습하는 반면, 추론은 여러분이 전송하는 개에 대한 새 이미지를 식별하는 것입니다.
AI 클러스터 내의 연산 집약적 훈련은 신속한 GPU 데이터 전송 및 처리를 용이하게 하도록 설계된 전용 폐쇄형 환경인 백엔드 데이터 센터 네트워크에서 이루어집니다. 반면 프론트엔드 네트워크는 추론을 위해 AI 시스템을 외부 세계에 연결하여 다른 범용 데이터 센터 워크로드(예: 웹 호스팅, 이메일 및 스토리지)와 함께 사용자 요청을 처리합니다. 이 두 네트워크는 함께 작동하여 데이터 전송, 스토리지 및 사용자 상호 작용을 관리합니다.
프론트엔드 및 백엔드 네트워크 아키텍처에는 몇 가지 차이점이 있습니다.
- • 프론트엔드 네트워크는 서비스 공급자 경계, 스위치 계층, 스토리지 장치 및 기본 CPU 기반 서버를 위한 다양한 기능 영역을 통합하는 기존의 3계층 또는 리프 스파인 이더넷 아키텍처를 사용합니다. 여기서 스위치 간 연결은 일반적으로 단일 모드 또는 다중 모드 광케이블을 이용한 다중 광케이블 MPO 연결로 100~400Giga를 지원하며, 스위치-서버 링크는 이중 다중 모드 광케이블을 통해 25~100Giga를 지원하는 경향이 있습니다.
- • 백엔드 네트워크는 거의 전적으로 리프-스파인 아키텍처를 사용합니다. 여기서 리프 스위치(때로는 레일 스위치라고도 함)는 클러스터 내에서 고대역폭, 저지연 GPU 상호 연결을 제공하고 스파인 스위치는 여러 클러스터 간에 연결을 제공합니다. 오늘날 백엔드의 스위치 간 연결은 주로 800Giga이며, 16-광케이블 MPO 커넥터(100Gb/s에서 전송하는 8 광케이블 및 수신하는 8 광케이블)가 필요합니다. 일부 하이퍼스케일러 및 대규모 클라우드 서비스 공급자는 이미 2개의 16-광케이블 MPO 커넥터를 사용하여 백엔드에서 1.6 테라비트 스위치 연결로 전환하고 있습니다.
백엔드 네트워크의 GPU는 일반적으로 400Giga의 속도로 연결되며, 8-광케이블 MPO(100Gb/s에서 전송하는 4 광케이블 및 수신하는 4 광케이블)가 필요하며 일부 GPU 연결은 800Giga로 전환됩니다. 이더넷이 지배적인 프론트엔드 네트워크와 달리 백엔드의 GPU 상호 연결은 지연 시간을 줄이기 위해 RDMA(Remote Direct Memory Access) 기술을 사용하는 InfiniBand 프로토콜을 자주 활용합니다. RoCE(RDMA over converged Ethernet)는 두 프로토콜의 장점을 모두 결합한 새로운 대안입니다.
지연 시간을 최소화하기 위해 GPU는 종종 리프 스위치에 직접 연결되어 구조화된 케이블링(상호 연결 및 교차 연결)을 사용하여 장비 연결을 관리할 필요가 없습니다. 이러한 직접 연결은 사전 종단 처리된 MPO 광케이블 어셈블리 또는 직접 연결 트윈액스 또는 광학 어셈블리를 사용합니다. 단일 AI 클러스터에는 CPU보다 최대 10배 더 많은 전력을 소비하는 수백 개의 GPU가 포함될 수 있습니다. 이로 인해 열 발생이 훨씬 높아지므로 데이터 센터는 이러한 클러스터 환경을 위해 액체 냉각과 같은 고급 냉각 기술에 투자해야 합니다.
|
|
데이터센터에서 AI 인프라 테스트의 과제
백엔드 AI 클러스터에서 400Giga 이상의 속도로 수백 개의 GPU를 상호 연결하면 데이터 센터에서 광케이블 밀도가 매우 높아지며, 이는 테스트 및 문제 해결과 관련하여 몇 가지 고유한 문제를 제시합니다.
-
광케이블 종단면 오염 검사는 성능을 저하시키는 신호 손실 및 반사를 방지하는 데 중요하지만 초고밀도 환경에서 포트를 검사하는 것은 어려울 수 있습니다. Fluke Networks FI-3000 FiberInspector™ Ultra 카메라는 밀집된 환경에서 가시성을 위한 PortBright™ 조명과 개별 광케이블 종단면 또는 전체 MPO 어레이를 검사하기 위한 간편한 확대/축소를 포함하여 광케이블 종단면을 즉시 라이브로 볼 수 있는 AutoFocus/AutoCentering을 갖춘 솔루션을 제공합니다. FI-3000 FiberInspector Ultra 카메라는 MMC용 옵션 팁 및 12~32 광케이블용 키리스 MPO APC 팁과 함께 12-광케이블 및 24-광케이블 UPC/APC MPO 종단면 검사를 위한 팁이 기본으로 제공됩니다.
검사 결과 MPO 또는 MMC 인터페이스를 청소해야 하는 경우, Fluke Networks는 Quick Clean™ 클리너를 사용하여 벌크헤드 MPO/MTP 및 MMC 커넥터 종단면과 다양한 듀플렉스 커넥터에서 오염 물질을 효과적으로 제거합니다.
|
Fluke Networks FI-3000 FiberInspector™ Ultra 카메라 및 Quick Clean™ MPO/MTP 및 MMC 클리너는 AI 클러스터와 같은 고밀도 데이터 센터 환경에서 광케이블 종단면을 검사하고 청소하는 데 이상적입니다. |
- 백엔드 네트워크의 고속 400Giga 이더넷 또는 InfiniBand 광케이블 링크에 대한 삽입 손실 테스트는 모든 광케이블을 동시에 스캔하고 전체 링크에 대한 손실 결과를 표시할 수 있는 Fluke Networks MultiFiber™ Pro MPO 테스터와 같은 온보드 MPO 커넥터가 있는 테스터를 사용하여 수행해야 합니다. MultiFiber Pro 테스터는 또한 MPO 링크의 극성이 올바른지 테스트합니다. 이는 각 전송 광케이블이 수신 광케이블과 정확히 대응되는지 확인하는 데 필수적입니다. 800Giga 링크에 사용되는 16-광케이블 MPO를 테스트하려면 현재 Y 브레이크아웃 케이블(16-광케이블 MPO 커넥터에서 2개의 8-광케이블 MTP/MPO)이 필요합니다. 각각의 8-광케이블 다리를 테스트하고, 결과를 조합하여 전체 링크 손실을 결정합니다.
- MDC 및 SN-MT 듀플렉스 커넥터 및 기존 커넥터 밀도보다 몇 배 높은 밀도를 제공하는 MMC 어레이 커넥터와 같은 매우 작은 폼 팩터(VSFF) 파이버 커넥터가 고밀도 AI 클러스터에서 보편화되고 있습니다. Fluke Networks는 현재 MDC 커넥터에 대해 업계에서 권장하는 1점퍼 참조를 제공하며, 다른 VSFF 커넥터 유형이 더 널리 채택됨에 따라 유사한 방법을 개발할 것입니다. 그때까지는 3점퍼 참조 방법으로 테스트를 수행할 수 있습니다. Fluke 기술 지원 센터(TAC)는 새로운 VSFF 커넥터 테스트에 대한 지침을 제공할 수 있습니다.
|
Fluke Networks FiberLert™ 라이브 광케이블 탐지기는 QSFP 트랜시버 포트에서 활성 광케이블 신호를 감지합니다. |
- AI 네트워크에 문제가 있는 경우 QSFP 트랜시버 문제 해결이 필요한 경우가 많습니다. 다중 모드 또는 단일 모드 트랜시버 포트에서 Fluke Networks의 FiberLert™ 라이브 광케이블 탐지기를 사용하여 광케이블 활동과 연결을 빠르고 안전하게 확인할 수 있습니다. 작은 크기 때문에 고밀도 스위치 포트에 쉽게 액세스할 수 있습니다. 보다 심층적인 문제 해결이 필요한 경우, Fluke Networks OptiFiber™ Pro OTDR은 특정 이벤트(커넥터, 단선, 꺾임 등)의 신호 손실 및 반사율을 정확히 찾아 측정할 수 있습니다.
AI를 데이터 센터에 통합하면 네트워크 케이블링 아키텍처가 지속적으로 크게 발전할 것이며, 그 결과 밀도가 높아짐에 따라 데이터 센터 운영자에게 지속적인 문제가 발생할 것입니다. 업계가 AI 기능의 한계를 계속 확장함에 따라 강력하고 효율적인 테스트 및 문제 해결 솔루션은 이러한 400Giga+ 네트워크에서 안정성과 성능을 보장하는 데 매우 중요합니다.
지속적 학습 유지
- • 당사의 전자 책 다운로드: 오늘날 데이터 센터를 위한 광케이블 테스트 모범 사례
- • VSFF 커넥터 핵심 정보
- • 다중 광케이블 푸시 온(MPO) 커넥터에 대해 알아보기
- • 더욱 간편해진 광케이블 종단면 검사: IEC 61300-3-35 주요 변경사항
- • 당사의 광케이블 테스터, 도구 및 문제 해결 안내서 확인하기






