Seberapa Kuat AI ChatGPT, AI Gemini, dan AI LLM Sejenis dalam Bermain Catur? Mengapa Kekuatannya Kalah Jauh dengan Engine Catur AI Non-LLM seperti Stockfish?
Pendahuluan: Ketika "AI Paling Canggih" Ternyata Payah dalam Catur
Di era sekarang, nama ChatGPT dan Google Gemini sudah menjadi buah bibir di mana-mana. Mereka bisa menulis esai, membuat kode program, menjelaskan fisika kuantum, bahkan menulis puisi romantis yang menyentuh hati. Banyak orang menganggap mereka adalah puncak kecerdasan buatan.
Tapi coba ajak mereka bermain catur.
Hasilnya? Mengecewakan. Bahkan bisa dibilang, memalukan.
Seorang pemain catur klub amatir dengan rating 1800 bisa membuat ChatGPT kewalahan. Sementara itu, engine catur "jadul" seperti Stockfish — yang tidak bisa menulis puisi atau menjawab pertanyaan kita — justru bermain di level yang bahkan Grandmaster terbaik dunia pun tak mampu mengalahkannya.
Bagaimana bisa? Bukankah ChatGPT dan Gemini adalah AI yang "lebih canggih"?
Mari kita bedah secara mendalam fenomena menarik ini.
1: Seberapa Kuat Sebenarnya ChatGPT dan Gemini Bermain Catur?
Estimasi Elo Rating AI LLM
Untuk memahami kekuatan bermain catur, kita menggunakan sistem Elo rating — sistem peringkat yang digunakan secara universal di dunia catur. Sebagai gambaran:
| Level Pemain | Elo Rating |
|---|---|
| Pemula total | < 800 |
| Pemain kasual | 800 – 1200 |
| Pemain klub menengah | 1200 – 1600 |
| Pemain klub kuat | 1600 – 2000 |
| Candidate Master (CM) | ~2200 |
| FIDE Master (FM) | ~2300 |
| International Master (IM) | ~2400 |
| Grandmaster (GM) | 2500+ |
| GM Elite Dunia | 2700+ |
| Magnus Carlsen (puncak) | 2882 |
| Stockfish | 3600+ |
Lalu di mana posisi ChatGPT dan kawan-kawan?
Berdasarkan berbagai pengujian yang dilakukan oleh komunitas catur dan peneliti:
- ChatGPT (GPT-3.5): sekitar 1000 – 1300 Elo — setara pemain kasual yang cukup sering bermain.
- ChatGPT (GPT-4): sekitar 1500 – 1800 Elo — setara pemain klub menengah hingga cukup kuat. Kadang bermain brilian, kadang blunder fatal.
- ChatGPT (GPT-4o): performa serupa GPT-4, dengan sedikit variasi.
- Google Gemini: estimasi serupa, berkisar 1000 – 1600 Elo tergantung versi dan kondisi pengujian.
- Model reasoning seperti o1/o3: dilaporkan sedikit lebih kuat, mungkin mendekati 1800 – 2000 Elo dalam kondisi terbaiknya, karena kemampuan "berpikir langkah demi langkah."
Bandingkan dengan:
- Stockfish 16: rating 3600+ Elo
- AlphaZero (DeepMind): estimasi 3500+ Elo (saat aktif dikembangkan)
- Leela Chess Zero (Lc0): 3400+ Elo
Artinya, ada jurang selebar 1800–2500 poin Elo antara LLM terkuat dengan engine catur terkuat. Dalam dunia catur, perbedaan 200 poin Elo saja sudah berarti pemain yang lebih kuat akan menang sekitar 75% dari pertandingan. Perbedaan 500 poin? Hampir pasti menang 100%. Apalagi perbedaan 2000 poin — itu seperti membandingkan anak TK yang baru belajar catur dengan Magnus Carlsen.
Masalah Besar: Langkah Ilegal!
Yang lebih memalukan lagi, ChatGPT dan Gemini sering membuat langkah ilegal (illegal moves). Contohnya:
- Menggerakkan bidak menembus bidak lain.
- Menjalankan gajah secara horizontal (gajah hanya bisa bergerak diagonal).
- Melakukan rokade padahal raja sudah pernah bergerak.
- "Mengarang" langkah yang secara fisik tidak mungkin di papan catur.
- Bahkan kadang "menghilangkan" bidak lawan yang seharusnya masih ada di papan.
Dalam satu pengujian sistematis, ChatGPT (GPT-3.5) membuat langkah ilegal di lebih dari 30-40% permainan sebelum game selesai. GPT-4 lebih baik, tapi tetap sering "ngaco" di pertengahan hingga akhir permainan.
Engine catur seperti Stockfish? Tidak pernah sekalipun membuat langkah ilegal. Nol. Mustahil. Karena memang bukan begitu cara kerjanya.
2: Magnus Carlsen vs ChatGPT — Pembantaian yang Sudah Diprediksi
Sang Raja Catur Melawan AI Tercanggih (?)
Salah satu momen paling menarik (dan menghibur) adalah ketika GM Magnus Carlsen — mantan Juara Dunia Catur dan secara luas dianggap sebagai pemain catur terkuat dalam sejarah — bermain melawan ChatGPT.
Hasilnya?
Magnus menang dengan sangat mudah. Bukan menang tipis. Bukan menang setelah berjuang keras. Tapi menang dengan cara yang membuat pertandingan tersebut terlihat seperti seorang profesor universitas mengerjakan soal matematika kelas 3 SD.
Bagaimana Jalannya Permainan?
Magnus bahkan tidak perlu mengeluarkan kemampuan terbaiknya. Beberapa pengamatan dari permainan tersebut:
Opening (Pembukaan): ChatGPT bermain cukup wajar di beberapa langkah pertama. Ini masuk akal karena pembukaan catur sudah sangat terdokumentasi dan banyak terdapat dalam data latih ChatGPT.
Middlegame (Pertengahan): Di sinilah semuanya mulai berantakan. ChatGPT mulai membuat langkah-langkah yang secara strategis lemah — menempatkan bidak di posisi pasif, gagal melihat ancaman taktis, dan membuat keputusan posisional yang buruk. Magnus dengan mudah membangun keunggulan yang semakin besar.
Blunder Fatal: ChatGPT kemudian membuat blunder (kesalahan fatal) — memberikan material secara cuma-cuma atau melewatkan ancaman skak mat yang sudah jelas.
Endgame: Permainan bahkan tidak sampai ke endgame yang rumit. Magnus sudah menang jauh sebelum itu.
Magnus sendiri berkomentar dengan nada ringan dan sedikit geli. Baginya, melawan ChatGPT bukanlah tantangan intelektual — lebih seperti hiburan ringan.
Perspektif yang Menarik
Yang ironis adalah: ChatGPT bisa menjelaskan strategi catur dengan sangat baik secara verbal. Jika kita bertanya kepada ChatGPT, "Apa rencana strategis terbaik dalam Sicilian Najdorf?" — ia bisa memberikan jawaban yang sangat komprehensif dan akurat. Ia "tahu" teorinya.
Tapi ketika harus benar-benar memainkannya di papan — langkah demi langkah, dengan konsekuensi nyata — kemampuannya runtuh.
Ini seperti seseorang yang sudah membaca 100 buku tentang berenang, bisa menjelaskan teknik gaya kupu-kupu dengan sempurna, tapi begitu masuk ke kolam renang... langsung tenggelam.
3: Mengapa LLM Begitu Lemah dalam Catur? Penjelasan Teknis yang Mudah Dimengerti
Ini adalah bagian terpenting. Untuk memahami mengapa ChatGPT lemah dalam catur, kita harus memahami apa sebenarnya ChatGPT itu dan apa sebenarnya engine catur itu. Keduanya adalah "AI", tapi cara kerjanya berbeda total — seperti perbedaan antara pesawat terbang dan kapal selam. Keduanya kendaraan, tapi dirancang untuk hal yang sama sekali berbeda.
3.1. Cara Kerja ChatGPT: Prediksi Token Berikutnya
Pada intinya, ChatGPT (dan semua Large Language Model) bekerja dengan satu prinsip sederhana:
"Berdasarkan semua teks sebelumnya, kata/token apa yang paling mungkin muncul selanjutnya?"
Itu saja.
Ketika ChatGPT bermain catur, ia menerima input berupa notasi catur dalam format teks (misalnya: 1.e4 e5 2.Nf3 Nc6 3.Bb5), dan kemudian memprediksi teks apa yang paling mungkin muncul selanjutnya berdasarkan pola-pola yang ia pelajari dari jutaan data teks tentang catur selama proses pelatihan.
Ia TIDAK:
- ❌ Memiliki papan catur internal di "kepalanya"
- ❌ Menghitung variasi langkah ke depan
- ❌ Mengevaluasi posisi secara matematis
- ❌ Melakukan pencarian (search) di pohon kemungkinan langkah
- ❌ Benar-benar "memahami" bahwa bidak di e4 mengontrol kotak d5 dan f5
Ia hanya mencocokkan pola teks.
Analogi sederhana: Bayangkan seseorang yang tidak bisa bermain catur, tapi sudah membaca ribuan buku dan artikel tentang catur. Jika kita tunjukkan sebaris notasi catur, orang itu mungkin bisa "menebak" langkah berikutnya yang terlihat masuk akal berdasarkan pola yang pernah ia baca. Kadang tebakannya benar. Tapi ia tidak benar-benar mengerti mengapa langkah itu bagus, dan semakin lama permainan berlangsung (semakin jauh dari pola yang pernah ia baca), semakin kacau tebakannya.
3.2. Cara Kerja Stockfish: Mesin Pencari + Evaluator yang Spesialis
Stockfish bekerja dengan cara yang fundamental berbeda:
a) Representasi Papan Internal
Stockfish memiliki representasi papan catur yang sesungguhnya dalam memorinya. Ia tahu persis di mana setiap bidak berada, bidak mana yang sudah bergerak, apakah rokade masih mungkin, di mana en passant bisa terjadi, dan seterusnya. Tidak ada ambiguitas, tidak ada "menebak."
b) Pohon Pencarian (Search Tree)
Ketika giliran Stockfish bergerak, ia melakukan sesuatu yang luar biasa:
Stockfish menghitung ratusan juta posisi per detik.
Ia melihat: "Jika saya mainkan langkah A, lawan bisa balas B1, B2, atau B3. Jika lawan balas B1, saya bisa mainkan C1, C2... dan seterusnya."
Ini membentuk sebuah pohon raksasa dari kemungkinan-kemungkinan. Stockfish menjelajahi pohon ini dengan sangat efisien menggunakan algoritma seperti:
- Minimax: Asumsikan lawan selalu bermain langkah terbaik.
- Alpha-Beta Pruning: Potong cabang-cabang yang jelas tidak perlu dihitung lagi.
- Iterative Deepening: Cari semakin dalam secara bertahap.
Dalam waktu beberapa detik, Stockfish bisa menganalisis posisi hingga kedalaman 30–50 langkah ke depan (bahkan lebih), memeriksa miliaran kemungkinan jalur permainan.
c) Fungsi Evaluasi NNUE
Stockfish modern menggunakan NNUE (Efficiently Updatable Neural Network) — sebuah jaringan saraf kecil yang dilatih khusus untuk mengevaluasi posisi catur. Jaringan ini sangat efisien dan akurat dalam menilai: "Apakah posisi ini lebih menguntungkan putih, hitam, atau seimbang? Seberapa besar keuntungannya?"
Kombinasi pencarian mendalam + evaluasi akurat = kekuatan bermain yang menghancurkan.
3.3. Tabel Perbandingan: LLM vs Engine Catur
| Aspek | ChatGPT/Gemini (LLM) | Stockfish (Engine Catur) |
|---|---|---|
| Cara kerja | Prediksi teks berikutnya | Pencarian pohon + evaluasi posisi |
| Representasi papan | Tidak ada (hanya teks) | Ada representasi internal yang presisi |
| Menghitung variasi | Tidak bisa | Ratusan juta posisi/detik |
| Kedalaman analisis | 0 langkah ke depan (hanya "tebak pola") | 30–50+ langkah ke depan |
| Langkah ilegal | Sering terjadi | Tidak pernah |
| Kekuatan bermain | ~1000–1800 Elo | ~3600+ Elo |
| Dirancang untuk | Memproses dan menghasilkan bahasa | Bermain catur |
3.4. Mengapa Perbedaannya Sedahsyat Itu?
Beberapa alasan fundamental:
1. Catur adalah masalah PENCARIAN, bukan masalah BAHASA
Inti dari bermain catur dengan baik adalah kemampuan untuk menghitung variasi ke depan (calculation) dan mengevaluasi posisi (evaluation). Ini adalah masalah pencarian dan optimasi — bukan masalah bahasa atau pencocokan pola teks.
LLM dirancang untuk masalah bahasa. Memintanya bermain catur adalah seperti meminta kalkulator menggambar lukisan Mona Lisa. Bukan itu fungsinya.
2. Tidak ada "papan internal" = buta posisi
Karena LLM tidak memiliki representasi papan catur internal, ia secara efektif buta. Ia tidak benar-benar "melihat" posisi. Ia hanya melihat deretan teks seperti 1.e4 e5 2.Nf3 Nc6 dan mencoba mencocokkan pola.
Semakin panjang permainan, semakin banyak langkah yang harus "diingat" dan direkonstruksi dari teks — dan semakin besar kemungkinan LLM kehilangan jejak posisi sebenarnya. Inilah mengapa LLM sering membuat langkah ilegal terutama di pertengahan hingga akhir permainan.
3. Tidak bisa menghitung ke depan
Seorang pemain catur manusia yang baik bisa menghitung 5–15 langkah ke depan dalam variasi kritis. Grandmaster top bisa menghitung 20+ langkah dalam posisi taktis tajam. Stockfish menghitung 30–50+ langkah.
ChatGPT? Pada dasarnya menghitung nol langkah ke depan. Ia hanya memuntahkan langkah yang "terlihat mirip" dengan pola yang pernah ia lihat dalam data latih. Ia tidak melakukan kalkulasi "jika saya mainkan ini, lawan balas itu, lalu saya bisa..."
4. Sifat eksponensial kompleksitas catur
Rata-rata, dalam setiap posisi catur ada sekitar 30–35 langkah legal yang mungkin. Setelah masing-masing pemain bermain 4 langkah, sudah ada sekitar 288 miliar kemungkinan posisi. Setelah 40 langkah (durasi rata-rata satu permainan), jumlah kemungkinan permainan melebihi jumlah atom di alam semesta.
Untuk menavigasi kompleksitas sedahsyat ini, kita HARUS melakukan pencarian sistematis. Mencocokkan pola teks tidak akan pernah cukup.
5. Halusinasi
Masalah terkenal LLM — halusinasi — juga muncul dalam konteks catur. LLM bisa "menghalusikan" bahwa bidak berada di posisi tertentu padahal tidak, atau "menghalusikan" bahwa suatu langkah legal padahal tidak. Karena ia tidak memiliki mekanisme verifikasi internal terhadap papan catur yang sesungguhnya, ia tidak bisa mengoreksi dirinya sendiri.
4: Tapi Tunggu — Bukankah AlphaZero Juga AI?
Ini pertanyaan yang sangat bagus dan sering membingungkan orang.
AlphaZero, yang dikembangkan oleh Google DeepMind, memang AI berbasis deep learning yang bermain catur di level superhuman — bahkan mengalahkan Stockfish dalam pertandingan terkenal tahun 2017.
Tapi AlphaZero BUKAN Large Language Model. Ia sama sekali berbeda:
| Aspek | AlphaZero | ChatGPT |
|---|---|---|
| Tipe AI | Reinforcement Learning + Monte Carlo Tree Search | Large Language Model (Transformer) |
| Cara belajar catur | Bermain melawan dirinya sendiri jutaan kali | Membaca teks tentang catur |
| Pencarian | Ya — ribuan posisi per langkah | Tidak ada |
| Representasi papan | Ya — papan catur internal yang presisi | Tidak ada |
| Dirancang untuk | Bermain board game | Memproses bahasa alami |
AlphaZero membuktikan bahwa AI bisa bermain catur di level superhuman — tapi hanya jika AI tersebut dirancang dan dilatih khusus untuk bermain catur, dengan kemampuan pencarian dan representasi papan yang proper.
5: Hal-Hal Menarik dan Lucu tentang LLM Bermain Catur
🤣 ChatGPT Pernah "Mengarang" Kemenangan
Dalam beberapa kasus yang dilaporkan pengguna, ChatGPT — ketika posisinya sudah kalah telak — tiba-tiba mendeklarasikan bahwa ia menang atau membuat langkah ilegal yang secara ajaib "memakan" raja lawan. Ia pada dasarnya "berbohong" tentang keadaan papan.
🤣 Gemini Pernah Bermain Melawan Dirinya Sendiri dan Kedua Sisi Membuat Langkah Ilegal
Ketika diminta bermain catur melawan dirinya sendiri, Gemini kadang menghasilkan permainan di mana kedua sisi membuat langkah yang tidak mungkin, menghasilkan posisi papan yang absurd — bidak yang menghilang secara misterius, bidak yang muncul entah dari mana, dan raja yang bisa terbang seperti kuda.
🧠 ChatGPT Lebih Bagus di Opening daripada Endgame
Ini masuk akal secara logis. Pembukaan catur sudah sangat terdokumentasi — ada ribuan buku, artikel, dan database tentang teori pembukaan. Data latih ChatGPT penuh dengan informasi ini, jadi ia bisa "mencocokkan pola" dengan cukup baik di awal permainan.
Tapi begitu masuk ke middlegame dan endgame — di mana posisi semakin unik dan membutuhkan kalkulasi konkret — kekuatan LLM runtuh dengan cepat.
🏆 Stockfish Bahkan Terlalu Kuat untuk Grandmaster Manapun
Untuk perspektif: Stockfish saat ini sangat kuat sehingga jika semua Grandmaster terbaik dunia — Magnus Carlsen, Fabiano Caruana, Hikaru Nakamura, Ding Liren — bermain 1000 permainan melawan Stockfish di waktu normal, mereka mungkin tidak akan menang satu kali pun. Mungkin beberapa seri, tapi kebanyakan kalah.
Sementara ChatGPT? Bahkan pemain berrating 1500 bisa mengalahkannya secara konsisten.
📊 Eksperimen Menarik oleh Komunitas
Beberapa YouTuber dan peneliti catur telah melakukan eksperimen sistematis:
- GothamChess (Levy Rozman) dan kreator catur lainnya pernah memainkan dan menganalisis permainan melawan ChatGPT, menunjukkan kelemahan-kelemahannya secara live.
- Beberapa peneliti memasukkan ChatGPT ke turnamen online dan melacak performanya — hasilnya konsisten di kisaran 1200–1700 tergantung versi dan format.
- Ada eksperimen di mana ChatGPT diminta menjelaskan mengapa langkahnya bagus — dan penjelasannya terdengar sangat meyakinkan dan cerdas, padahal langkahnya sendiri buruk. Ini fenomena klasik LLM: terdengar pintar, tapi substansinya salah.
6: Apakah LLM Akan Bisa Bermain Catur dengan Baik di Masa Depan?
Ini pertanyaan yang menarik. Ada beberapa pendekatan yang bisa membuat LLM lebih baik dalam catur:
1. Integrasi dengan Engine Catur
Cara paling mudah: hubungkan LLM dengan Stockfish sebagai "backend." ChatGPT menerima langkah dari pengguna, meneruskannya ke Stockfish, dan menyampaikan respons Stockfish kembali. Ini secara teknis sudah bisa dilakukan dan beberapa implementasi sudah ada. Tapi ini "curang" — bukan LLM yang bermain, tapi Stockfish.
2. Model Reasoning yang Lebih Baik
Model seperti o1 dan o3 dari OpenAI yang memiliki kemampuan chain-of-thought reasoning menunjukkan peningkatan. Mereka bisa "berpikir langkah demi langkah" — termasuk menelusuri variasi catur secara eksplisit dalam proses reasoning mereka. Tapi tetap terbatas karena mereka masih tidak memiliki representasi papan internal yang sesungguhnya.
3. Arsitektur Hybrid
Kemungkinan paling menarik di masa depan: AI yang menggabungkan kemampuan bahasa LLM dengan modul pencarian dan representasi papan yang khusus. Ini belum benar-benar ada, tapi secara teori bisa menghasilkan AI yang bisa bermain catur dengan sangat kuat sekaligus menjelaskan pemikirannya dalam bahasa manusia.
4. Pelatihan Khusus
Beberapa peneliti telah melatih model bahasa khusus pada data catur dan mendapatkan hasil yang lebih baik. Misalnya, model yang dilatih pada jutaan permainan catur dalam format PGN bisa bermain lebih kuat daripada ChatGPT "generalis." Tapi tetap belum mendekati level engine catur khusus.
7: Pelajaran Besar dari Fenomena Ini
"Kecerdasan" Itu Tidak Satu Dimensi
Fenomena ini mengajarkan kita sesuatu yang sangat penting: kecerdasan bukanlah satu kemampuan tunggal yang bisa diranking secara linear.
ChatGPT jauh lebih "pintar" daripada Stockfish dalam menulis puisi, menjelaskan sejarah, atau menulis kode program. Tapi Stockfish secara kosmis lebih superior dalam bermain catur.
Ini mirip dengan manusia: seorang sastrawan pemenang Nobel mungkin tidak bisa memperbaiki mesin mobil, sementara seorang mekanik hkital mungkin tidak bisa menulis novel. Spesialisasi punya nilai.
Jangan Samakan "Terdengar Pintar" dengan "Benar-Benar Pintar"
ChatGPT bisa berbicara tentang catur dengan sangat meyakinkan. Ia bisa menjelaskan konsep strategis, menganalisis pembukaan, dan mendiskusikan sejarah catur dengan fasih. Tapi kemampuan berbicara tentang sesuatu dan kemampuan melakukan sesuatu itu berbeda.
Ini adalah peringatan penting di era AI: jangan terlalu terkesan oleh AI yang terdengar pintar. Validasi substansinya, bukan hanya gayanya.
Alat yang Tepat untuk Pekerjaan yang Tepat
Ingin bermain catur di level tertinggi? Gunakan Stockfish atau Leela Chess Zero. Ingin belajar tentang strategi catur dan mendapat penjelasan? ChatGPT bisa sangat membantu. Ingin menganalisis permainan kita? Gunakan engine catur, bukan LLM.
Setiap alat punya kekuatan dan kelemahannya masing-masing.
Kesimpulan
Jadi, seberapa kuat ChatGPT, Gemini, dan LLM sejenis dalam bermain catur?
Jawabannya: Lemah. Dengan estimasi rating sekitar 1000–1800 Elo (tergantung versi), mereka bermain di level pemain amatir. Mereka sering membuat langkah ilegal, tidak bisa menghitung variasi ke depan, dan tidak memiliki representasi papan catur internal.
Magnus Carlsen mengalahkan ChatGPT dengan sangat mudah — seperti orang dewasa bermain melawan anak kecil yang baru belajar. Dan Stockfish, dengan rating 3600+ Elo, berada di dimensi yang sepenuhnya berbeda — bahkan Magnus sendiri tidak bisa mengalahkannya.
Alasannya fundamental: LLM adalah mesin prediksi teks, bukan mesin pencari posisi catur. Bermain catur dengan baik membutuhkan kemampuan pencarian mendalam, representasi papan yang akurat, dan evaluasi posisi yang presisi — semua hal yang tidak dimiliki LLM dan memang bukan fungsi utamanya.
Ini bukan berarti LLM buruk. Mereka luar biasa hebat dalam domain mereka. Tapi catur? Biarkan Stockfish yang menangani.
Setiap AI punya keahliannya masing-masing. Dan itulah yang membuat dunia AI begitu menarik. ♟️
Penulis menyarankan: Jika kita ingin berlatih catur, gunakan engine catur (Stockfish di aplikasi seperti Lichess atau Chess.com) untuk analisis, dan gunakan ChatGPT untuk bertanya tentang konsep dan strategi catur secara verbal. Kombinasi keduanya = cara belajar yang sangat efektif!

Tidak ada komentar:
Posting Komentar