LLM이 푼 2026 수능을 보고 든 생각

AI 시대에 수능이 측정하는 능력은 더욱 중요해집니다. LLM에 의존하는 것이 아니라, AI가 내놓는 답을 평가하고 적절한 질문을 던지는 인간 고유의 역량을 개발해야 합니다. 2026 수능 AI 결과가 주는 진짜 의미에 대해 글을 적어봤습니다.

LLM이 푼 2026 수능을 보고 든 생각
Photo by Aerps.com / Unsplash
GitHub - hehee9/2026-CSAT: 2026 대입 수능 시험 LLM 풀이 결과 모음
2026 대입 수능 시험 LLM 풀이 결과 모음. Contribute to hehee9/2026-CSAT development by creating an account on GitHub.

최근 2026 수능이 치뤄졌다. 이후 몇일 뒤 여러 LLM 모델들이 수능을 풀어 채점된 결과를 가지고 바이럴이 많이 이뤄졌다. 댓글의 반응으로는 "AI가 빠르게 발전한다" "미래가 기대된다" 라는 긍정적인 반응도 있었지만, "이제 수능으로 학생을 평가하는건 끝이 났다" "이젠 AI가 모든 직업을 대체할것이다"라는 부정적인 반응도 있었다. 나는 꽤나 긍정적으로 이 결과를 봤는데, 왜 긍정적인지 그리고 부정적인 반응을 보인 분들에게 드리고 싶은 이야기들을 적어볼까 한다.

국어 과목 고득점의 의미

거의 최초로 Gemini 3.0이 국어 과목에 만점을 기록했다. 여태까지 수능 영어의 경우에는 항상 고득점을 기록한것과 별개로 국어 과목은 LLM에게 꽤나 취약했었다. 애초에 해외 기업이 만드는 모델 특성상 데이터 자체가 영어로 되어있다 보니 이는 당연한 결과였다. 근데 이게 이번 Gemini 모델로 깨지게 된 것이다.

이는 특히나 한국인한태 도움이 될만한 결과인게, 이제 한국어를 영어로 번역해서 프롬프팅하는 것보다 직접 한국어로 물어봐도 충분히 도움되는 답변이 나온다는 증거가 될 것 같다. 아직 내가 Gemini 3.0을 평가할만큼 많이 사용하진 않았지만, 현재 워낙 업계에서도 충격적인 모델이라는 평이 많다보니, 한번 이 모델을 깊게 써봐야될 것 같다. 이 부분이 내가 이번 결과로 꽤나 긍정적이게 느낀 큰 원인이긴 하다.

그럼 LLM이 수능을 잘 푸니 수능은 잘못된 시험인가?

내가 보기엔 아니라고 본다. 이 질문를 보면서 근본적인 질문이 떠올랐다: "수능은 정확히 무엇을 측정하는 시험인가?"

수능은 단순히 지식의 양을 측정하는 게 아니다. 제한된 시간 내에 복잡한 지문을 읽고, 함정을 피하면서, 여러 정보를 종합해서 정답을 찾아내는 능력을 본다. 이건 단순한 패턴 매칭이나 통계적 학습과는 다른 종류의 지능이다. LLM이 상대적으로 어려워하는 영역들을 보면,

  • 긴 지문에서 숨겨진 함의를 파악하기 (국어 비문학)
  • 복잡한 조건이 여러 개 얽힌 수학 문제
  • 다이어그램이나 그래프에서 관계성 파악하기

이런 부분들은 인간의 "상황 이해 능력"이나 "맥락 파악 능력"과 밀접한 관련이 있다. 수능은 그런 능력을 평가하는 것이고, 현재 LLM 모델들은 그런 능력을 잘 하는 것 뿐이다.

그렇다고 LLM이 이런 능력을 잘한다고 해서 미래의 수학(修學) 능력과 관련이 없다고 볼 수 있을까? 오히려 그 반대다. LLM이 수능 문제를 잘 푼다는 사실은, 수능이 평가하는 그 능력들 : 복잡한 조건 처리, 맥락 파악, 숨겨진 함의 추론이 실제로 중요한 인지적 역량임을 역설적으로 증명한다. 이런 것들은 모두 대학이나 실제 학문 활동에서 요구되는 "복잡한 맥락 속에서 핵심을 포착하는 능력"과 직결된다. 논문을 읽을 때, 실험 데이터를 해석할 때, 여러 이론을 종합해 새로운 가설을 세울 때, 모두 수능이 측정하고자 했던 바로 그 능력이 필요하다.

다만 중요한 것은, LLM이 이런 능력을 보여준다고 해서 우리가 그것에 의존해야 한다는 뜻은 아니라는 점이다. 오히려 LLM 도움 없이도 스스로 이런 맥락을 파악하고, 복잡한 문제를 독자적으로 해결해낼 수 있는 능력을 기르는 것이야말로 코어 학습의 목표가 되어야 한다.


people sitting on chair in front of computer
Photo by Dom Fou / Unsplash

이번 LLM의 수능 성과에 대한 내 생각은 두가지로 요약할 수 있을 것 같다. 첫째, AI 기술이 복잡한 언어 이해와 추론 능력에서 놀라운 발전을 이뤘고, 한국어에서 특히 발전적이였다는 것이다. 둘째, 그렇기에 수능이 측정하고자 했던 그 능력인 맥락 파악, 복잡한 조건 처리, 그리고 비판적 사고가 실제로 매우 가치 있는 역량이라는 것. 만약 수능이 단순 암기나 무의미한 패턴 매칭만을 요구하는 시험이었다면, LLM이 이를 정복하는 게 그리 놀라운 일도 아니었을 것이다.

앞으로 우리가 가져야 할 자세는 명확하다. LLM을 두려워하거나 "이제 공부는 필요없다"는 극단적인 생각을 가지는게 아니라, 이 도구들을 어떻게 활용하면서도 우리 자신의 사고 능력을 더 단련할 수 있을지 고민해야 한다. 수능이 측정하는 그 능력들은 AI 시대에도, 어쩌면 AI 시대이기에 더욱, 필수적인 역량이 될 것이다. 왜냐하면 결국 AI가 내놓는 답을 평가하고, 적절한 질문을 던지고, 그 결과를 실제 문제 해결에 적용하는 건 여전히 인간의 몫이기 때문이다. 그런 의미에서 이번 결과는 끝이 아니라 새로운 시작점이라고 보는 게 맞을 것 같다.