AI 성능평가 ‘사이아레나’ …오픈AI(OpenAI) 최신 모델 ‘O3’ 최우수

앨런인공지능연구소 홈페이지 캡쳐

최근 글로벌 인공지능(AI) 업계에서 과학적 문제 해결 역량이 핵심 성능 지표로 떠오르면서, AI 모델을 평가하는 방식에도 변화의 바람이 불고 있다. 특히 미국 시애틀에 본사를 둔 앨런인공지능연구소(Ai2)가 공개한 평가 플랫폼 ‘사이아레나(SciArena)’가 관련 업계의 주목을 받고 있다.

사이아레나는 다양한 인공지능 모델에 동일한 과학 질문을 제시하고, 모델이 생성한 답변을 사용자가 비교·평가하는 방식으로 운영된다. 현재는 100명이 넘는 실제 연구자가 직접 질문을 던지고 평가 투표에도 참여하고 있어, 객관성과 실효성이 높은 평가 시스템으로 평가된다.

이 플랫폼의 주요 특징은 클라우드소싱 방식이다. 연구자가 제시한 질문에 대해 두 개의 모델이 각각 답변을 제공하면, 이를 비교한 뒤 어느 쪽이 더 타당한지 투표로 결정하는 구조다. 이 방식은 기존의 벤치마크 테스트나 정량 평가로는 확인하기 어려운 ‘문맥 이해력’과 ‘과학적 추론 능력’을 가늠할 수 있다는 점에서 차별화된다.

최근 이 플랫폼을 통해 진행된 대규모 성능 평가에서, 오픈AI(OpenAI)의 최신 인공지능 모델인 ‘O3’가 두각을 나타냈다. 연구소에 따르면 1만3천 건이 넘는 투표 결과에서 O3는 자연과학, 의료, 공학, 인문사회 등 모든 분야에서 고르게 높은 평가를 받았다.

AI 모델 간 경쟁도 눈길을 끈다. 중국의 딥시크(DeepSeek)에서 개발한 DeepSeek-R1은 자연과학과 공학 분야에서 상위권을 기록했으며, 구글의 Gemini 2.5 Pro, 앤트로픽의 Claude 4 Opus 등도 특정 분야에서 강세를 보였다. 분야별로 성능 편차가 뚜렷하게 나타났다는 점은 각 모델이 어떤 데이터에 최적화되어 있는지, 혹은 어떤 철학으로 설계되었는지를 간접적으로 보여주는 대목이다.

업계에서는 이러한 평가 플랫폼이 향후 산업 전반에 걸쳐 AI 활용 전략을 세우는 데 참고 지표가 될 것으로 보고 있다. 예컨대, 바이오 헬스 분야에서는 의료 분야에서 높은 평가를 받은 모델을, 공공 정책 분야에서는 사회과학 해석에 강점을 보이는 모델을 선택적으로 도입하는 식의 접근이 가능하다.

다만 전문가들은 인공지능이 생성한 콘텐츠를 무비판적으로 수용하기보다는, 사용자가 비판적으로 검토하고 교차 검증하는 태도가 병행되어야 한다고 강조한다. 오스트레일리아국립대학교의 라훌 쇼메 교수는 “AI가 제시하는 답변이 논문이나 기존 연구와 상충할 수 있다는 점을 경계해야 한다”며 “생성형 AI는 보조 수단일 뿐, 본질적인 연구 능력을 대체할 수는 없다”고 지적했다.

사이아레나는 현재 일반에도 무료로 공개돼 있으며, 누구나 과학 관련 질문을 입력하고 AI의 답변을 비교해볼 수 있다. 기업이나 연구기관에서도 이 플랫폼을 활용해 내부 교육 자료나 보고서 작성 시 검토 도구로 삼는 사례가 늘고 있다.

AI 기술이 산업 경쟁력의 핵심으로 부상하면서, ‘어떤 모델이 더 똑똑한가’보다는 ‘어떤 목적에 더 적합한가’에 대한 질문이 중요해지고 있다. 앞으로 사이아레나와 같은 플랫폼이 글로벌 AI 기술 생태계에서 새로운 평가 기준으로 자리 잡을 수 있을지 주목된다.

#한국경영자신문 #경영 #경영자 #사업 #비즈니스 #스타트업 #창업 #중소기업 #소상공인 #자영업자 #벤처 #ceo #kceonews #뉴스 #정보 #인터넷신문 #AI

한국경영자신문 정세이 편집국장 kceonews_jungsei@naver.com

정세이 편집국장의 기사 더보기

전체 메뉴

AI 성능평가 ‘사이아레나’ …오픈AI(OpenAI) 최신 모델 ‘O3’ 최우수