김상열
ERNIE 4.5는 총 10개 이상의 변형 모델군으로 구성되어 있으며, 텍스트와 이미지를 통합적으로 이해하는 멀티모달 Mixture-of-Experts(MoE) 구조를 채택했다. 가장 큰 모델은 4,240억 파라미터를 자랑하며, 문서 기반 질의응답, 차트 해석, 심층적인 비전 인식 등에서 GPT-4.5·Gemini 2.5 Pro 대비 우위 성능을 보여준다. 또한 Apache 2.0 오픈소스로 공개돼 누구나 상업적 적용이 가능하다.
바이두 ERNIE 4.5-VL(비전-언어) 모델은 복합 시각-언어 추론 능력이 핵심이다. 복잡한 수학 시각 추론, 차트·도면 해석, 영상 이벤트 인식, 바운딩박스 기반 시각 grounding 등에서 산업용 AI로 강점이 두드러진다. 실제로 중국 IT·제조·금융업 등이 ERNIE를 활용해 자동화·검수·문서관리 등 현장 프로세스를 혁신하고 있다.
하이브리드 병렬 처리, FP8 혼합 정밀도 훈련, 저비트 추론, MoE 구조 등으로 훈련 효율성과 경량화도 동시에 실현했다. 경량 모델·실전 배포용 툴킷 FastDeploy·AI 훈련툴킷 ERNIEKit 등 실무 적용 생태계도 적극 확장 중이다. 한국 등 글로벌 시장 진출도 본격화됐다.
바이두의 ERNIE 시리즈는 단순 기술 시연을 넘어, 산업 현장 맞춤형 AI로서 “실효적 혁신”을 선도하고 있다. 오픈소스 공개, 산업 특화 기능, 강력한 멀티모달 벤치마크 성과로 글로벌 AI 시장 지형에 도전장을 내밀고 있다.