BERITA TERKINI
Martin Hairer Nilai Matematika Masih Aman dari Ancaman AI, Uji Model Tercanggih dengan Soal Riset

Martin Hairer Nilai Matematika Masih Aman dari Ancaman AI, Uji Model Tercanggih dengan Soal Riset

Kekhawatiran bahwa kecerdasan buatan (AI) akan menggantikan peran matematikawan dinilai terlalu dini. Martin Hairer, peraih Fields Medal 2014, mengatakan matematika masih “aman” dari ancaman AI, terutama ketika menyangkut penciptaan ide dan konsep baru.

Pandangan itu ia sampaikan saat merespons kegelisahan seorang siswa SMA yang mengirim e-mail kepadanya. Siswa tersebut khawatir masa depannya di bidang matematika akan tergerus seiring kemampuan AI yang terus berkembang.

Hairer mengakui model bahasa besar (Large Language Model/LLM) seperti ChatGPT mampu mengerjakan soal latihan standar, khususnya yang jawabannya sudah tersedia di internet. Namun, ia menegaskan belum melihat contoh yang meyakinkan ketika AI mampu melahirkan gagasan matematika yang benar-benar orisinal.

“Saya belum melihat contoh yang masuk akal di mana LLM menghasilkan ide atau konsep baru yang benar-benar orisinal,” kata Hairer.

Untuk menguji klaim tersebut, Hairer bersama tim matematikawan dari Harvard, Stanford, dan MathSci.ai merilis eksperimen bertajuk “First Proof”. Mereka menguji sejumlah model AI yang disebut sebagai yang tercanggih saat ini, termasuk ChatGPT-5.2 Pro dan Google Gemini 3.0 Deep Think, menggunakan soal-soal riset yang belum pernah dipublikasikan. Dengan cara ini, tim berupaya memastikan model tidak dapat “menyontek” dari data pelatihan yang beredar di internet.

Hasil pengujian itu dinilai mengecewakan. Hairer bahkan menyamakan kualitas jawaban AI dengan “mahasiswa S1 yang kurang pintar”.

Menurut Hairer, model AI cenderung memproduksi uraian panjang pada bagian yang relatif mudah, tetapi miskin detail pada inti argumen yang sulit. Ia menilai AI seolah mengetahui titik awal dan tujuan akhir pembuktian, namun tidak memahami langkah-langkah untuk mencapainya. Akibatnya, AI kerap “mengarang” atau melakukan hand-waving, yakni memberikan argumen yang kabur di bagian tengah pembuktian dengan harapan pembaca tidak menyadarinya.

Tim peneliti juga mengidentifikasi sejumlah kelemahan yang membuat AI belum bisa menggantikan profesor matematika. Pertama, AI dinilai lemah dalam penalaran visual, sehingga cenderung gagal pada soal yang menuntut imajinasi ruang. Kedua, AI disebut memiliki “daya ingat” yang pendek; ketika pembuktian membutuhkan uraian panjang lebih dari lima halaman, kualitas jawabannya menurun dan mulai melenceng. Ketiga, AI dianggap cenderung menjadi “yes man”. Tamara Kolda, salah satu penulis makalah dari MathSci.ai, menilai AI membosankan karena tidak bisa diajak berdebat dan hanya mengikuti sudut pandang pengguna, padahal kemajuan sains membutuhkan perdebatan gagasan.

Lauren Williams, profesor matematika dari Harvard yang terlibat dalam riset, menemukan pola lain saat AI dihadapkan pada masalah riset sungguhan. Menurutnya, AI sering terjebak dalam “infinite loop”: model memberikan jawaban, lalu mengoreksi dirinya sendiri, menawarkan jawaban baru, mengoreksi lagi, dan berulang tanpa mencapai solusi final yang benar.

Kolda juga memperingatkan risiko yang lebih mendasar. Ia menilai AI berpotensi memperlambat kemajuan sains di masa depan karena cenderung mengulang sudut pandang yang diperintahkan kepadanya, berbeda dengan rekan kerja manusia yang bisa berdebat dan menghadirkan perspektif baru yang menantang.