Sebuah AI berjaya menipu dengan kemanusiaan terbaik yang ditawarkan setelah menemui eksploitasi dalam permainan arcade klasik Q * bert dan berlari dengannya.
Walaupun iterasi awal AI akan memainkan Q * bert dengan betul, pada suatu ketika dalam pembelajarannya bagaimana permainan ini berfungsi, ia menemukan eksploitasi yang memungkinkannya mengumpulkan poin gila. Secara semula jadi, seperti yang dilakukan oleh pemain memburu skor, ia mengulangi prosesnya sehingga dapat meningkatkan skornya dengan cara yang paling efektif.
Anda dapat melihat AI berfungsi mengelilingi platform dalam video di bawah. Pada mulanya, ia seolah-olah melompat tanpa tujuan di antara platform. Daripada melihat kemajuan permainan ke pusingan berikutnya, Q * bert terperangkap dalam gelung di mana semua platformnya mula berkelip - di sinilah AI kemudian dapat membuat kegilaan memperoleh markah besar.
BACA SETERUSNYA: Salah satu rekod permainan yang paling kontroversial akhirnya telah didiskreditkan
bagaimana melihat pelanggan anda berkedut
Bagaimana AI memenangi perang Q * bert
Menghancurkan rekod sepanjang masa untuk judul, AI memperoleh skor yang sangat tinggi berkat pemrograman algoritma strategi evolusi. Strategi evolusi (ES) berbeza dengan pembelajaran peneguhan (RL) biasa yang digunakan oleh AI tradisional kerana ia dilihat lebih berskala kerana pembelajaran generasinya.
Setiap gelung pembelajaran disebut sebagai generasi dan meneruskan tugasnya sehingga syarat yang ditetapkan dipenuhi (dalam kes ini, skor tinggi). Dengan setiap generasi berturut-turut, AI menyerap pengetahuan generasi sebelumnya dan oleh itu lebih baik dalam mencapai matlamat yang sama dan melaluinya. Teruskan, dan anda akan mendapat AI yang sama sekali tiada tandingannya. Itulah yang berlaku di sini dengan skor Q * bert.
Diterangkan dalam kertas , yang diterbitkan minggu lalu oleh penyelidik di University of Freiburg, Jerman, nampaknya bug itu bukan kuantiti yang diketahui. Sebenarnya, walaupun mereka tidak terlalu terkejut apabila menemui bug tersebut, sangat menarik untuk melihat bagaimana AI kemudian maju dan belajar memanfaatkannya setiap kali ia dimainkan untuk memaksimumkan potensi skornya.
BACA SETERUSNYA: Kepintaran buatan ini telah belajar menguasai Super Mario Bros
Untuk mencari bug, ejen harus belajar hampir menyelesaikan tahap pertama - ini tidak dilakukan sekaligus tetapi menggunakan banyak peningkatan kecil, para penyelidik menjelaskan kepada Daftar . Kami mengesyaki bahawa pada suatu ketika dalam latihan salah satu penyelesaian keturunan menghadapi bug dan mendapat skor yang jauh lebih baik dibandingkan dengan adik-beradiknya, yang seterusnya meningkatkan sumbangannya kepada kemas kini - beratnya adalah yang tertinggi dalam rata-rata tertimbang. Ini perlahan-lahan memindahkan penyelesaian ke ruang di mana semakin banyak keturunan mula menemui bug yang sama.
Kami tidak mengetahui keadaan tepat di mana bug itu muncul; ada kemungkinan ia hanya muncul jika ejen mengikuti corak yang kelihatan tidak optimum, [misalnya apabila ejen membuang masa, atau bahkan kehilangan nyawa]. Sekiranya demikian, sangat sukar bagi RL standard untuk mencari bug: jika anda menggunakan ganjaran tambahan, anda akan belajar strategi yang menghasilkan beberapa ganjaran dengan cepat, dan bukannya strategi belajar yang tidak menghasilkan banyak ganjaran untuk sementara waktu dan kemudian tiba-tiba menang besar.
Lihat berkaitan Juara Dragster, Todd Rogers baru sahaja kehilangan mahkotanya setelah 35 tahun Kecerdasan buatan ini telah belajar menguasai Super Mario Bros 1-2 selama 17 hari Tonton AI ini belajar memandu di GTA V di Twitch
Walau bagaimanapun, walaupun terdapat hasil yang luar biasa, para penyelidik tidak mengatakan bahawa ini adalah kes untuk memperjuangkan pembelajaran ES melalui RL. Sebenarnya, kedua-dua sistem mempunyai masalah sendiri dan gabungan kedua-duanya dilihat sebagai pilihan terbaik untuk terus maju.
Kaedah ES yang sama pada permainan Atari lain tidak mendatangkan hasil yang hampir sama. Sebaliknya, RL bertanggungjawab untuk memecahkan rekod ke kiri, kanan dan tengah, termasuk mengalahkan pemain GO terbaik di dunia. ES masih mempunyai tempatnya sendiri dalam hal-hal, dan sebenarnya bagaimana Nvidia melakukan banyak latihan AI kerana memerlukan lebih banyak kekuatan komputasi tetapi mencapai hasil yang lebih baik dalam jangka masa yang lebih lama.
Terlepas dari cara mana yang akan menjadi masa depan untuk pengembangan AI, sekurang-kurangnya bot ini menipu sistem tidak seburuk ini kini memalukan juara dunia permainan video .