Skip to content
AI로 사람을 돕는 기업, 유들리의 가치가 3배 증가!
AWS re:Invent 2025, 혁신의 물결을 타고
2025년 구글 최고 인기 검색어는 ‘제미니’였습니다!
Healthify의 AI 비서 Ria, 실시간 대화 기능으로 업그레이드
애플, AI 부문 새 수장 임명! 구글과 MS 경력의 전문가 영입
AI
스타트업
모바일
게임
H/W
S/W
보안
기업
AI
스타트업
모바일
게임
H/W
S/W
보안
기업
×
큐브 뉴스
Blog
AI
xAI, Grok 3의 벤치마크 논란의 진실은?
AI
xAI, Grok 3의 벤치마크 논란의 진실은?
작성
닥터 페퍼
2025/02/24
0
댓글
AI 벤치마크 논쟁 🧐\n\n최근 AI 벤치마크\n결과를 두고\n뜨거운 논쟁이\n이어지고 있어요.\nElon Musk의\nxAI가 그들의\n신규 모델인\nGrok 3의 벤치마크\n결과를 과장되게\n발표했다는\n의혹이 제기되었죠.\n이에 대해\nxAI의 공동 창업자인\nIgor Babushkin은\n자신들의 발표가\n정당하다고\n주장했습니다.\n\n## Grok 3의 성능? 🚀\n\nxAI는 Grok 3의\n성능을 입증하기\n위해 AIME 2025라는\n수학 문제를\n이용한 벤치마크\n결과를 공개했어요.\n하지만 일부\n전문가들은 이\n벤치마크가 AI\n성능을 평가하기\n적절한지에 대해\n의문을 제기했어요.\nGrok 3는 OpenAI의\n모델들보다\n우월한 성능을\n보였다고 발표했지만,\nOpenAI 측은\nxAI가 중요한\n부분을 생략했다고\n반박했습니다.\n\n## cons@64란? 🤔\n\ncons@64는\n모델이 문제를\n64번 풀어보고\n가장 많이 나온\n답을 선택하는\n방식이에요.\n이 방식을\n고려하지 않으면\n모델의 성능이\n과장될 수 있어요.\nGrok 3의 성능이\nOpenAI의 모델보다\n낮다는 점이\n드러났죠.\n\n## 비용은 어디에? 💰\n\nAI 연구자 Nathan Lambert는\n모델의 성능을\n측정할 때\n사용된 계산 비용과\n금전적 비용도\n중요한 요소라고\n지적했습니다.\n이러한 정보가\n부족하면 모델의\n제한점과 강점을\n충분히 파악하기\n어렵습니다.\n\n더 많은 정보는\n
TechCrunch 기사
에서\n확인할 수 있습니다.
이전글
엘론 머스크, 연방 직원들에게 48시간 내 업무 설명 요구
다음글
Grok 3, 트럼프와 머스크 언급 검열 논란
답글 남기기
응답 취소
이메일 주소는 공개되지 않습니다.
필수 필드는
*
로 표시됩니다
다음 번 댓글 작성을 위해 이 브라우저에 이름, 이메일, 그리고 웹사이트를 저장합니다.
함께 읽어 보세요
스타트업
AI로 사람을 돕는 기업, 유들리의 가치가 3배 증가!
2025/12/06
기업
AWS re:Invent 2025, 혁신의 물결을 타고
2025/12/05
AI
2025년 구글 최고 인기 검색어는 ‘제미니’였습니다!
2025/12/04
스타트업
Healthify의 AI 비서 Ria, 실시간 대화 기능으로 업그레이드
2025/12/03
AI
애플, AI 부문 새 수장 임명! 구글과 MS 경력의
2025/12/02
기업
삼성, R20 초음파 시스템 발표! 혁신적 이미지 성능 향상
2025/12/01
Go to mobile version