Utama Perkhidmatan Penstriman AI belajar menipu Q * bert dengan cara yang tidak pernah dilakukan oleh manusia sebelumnya

AI belajar menipu Q * bert dengan cara yang tidak pernah dilakukan oleh manusia sebelumnya



Sebuah AI berjaya menipu dengan kemanusiaan terbaik yang ditawarkan setelah menemui eksploitasi dalam permainan arcade klasik Q * bert dan berlari dengannya.

Walaupun iterasi awal AI akan memainkan Q * bert dengan betul, pada suatu ketika dalam pembelajarannya bagaimana permainan ini berfungsi, ia menemukan eksploitasi yang memungkinkannya mengumpulkan poin gila. Secara semula jadi, seperti yang dilakukan oleh pemain memburu skor, ia mengulangi prosesnya sehingga dapat meningkatkan skornya dengan cara yang paling efektif.

Anda dapat melihat AI berfungsi mengelilingi platform dalam video di bawah. Pada mulanya, ia seolah-olah melompat tanpa tujuan di antara platform. Daripada melihat kemajuan permainan ke pusingan berikutnya, Q * bert terperangkap dalam gelung di mana semua platformnya mula berkelip - di sinilah AI kemudian dapat membuat kegilaan memperoleh markah besar.

BACA SETERUSNYA: Salah satu rekod permainan yang paling kontroversial akhirnya telah didiskreditkan

bagaimana melihat pelanggan anda berkedut

Bagaimana AI memenangi perang Q * bert

Menghancurkan rekod sepanjang masa untuk judul, AI memperoleh skor yang sangat tinggi berkat pemrograman algoritma strategi evolusi. Strategi evolusi (ES) berbeza dengan pembelajaran peneguhan (RL) biasa yang digunakan oleh AI tradisional kerana ia dilihat lebih berskala kerana pembelajaran generasinya.

Setiap gelung pembelajaran disebut sebagai generasi dan meneruskan tugasnya sehingga syarat yang ditetapkan dipenuhi (dalam kes ini, skor tinggi). Dengan setiap generasi berturut-turut, AI menyerap pengetahuan generasi sebelumnya dan oleh itu lebih baik dalam mencapai matlamat yang sama dan melaluinya. Teruskan, dan anda akan mendapat AI yang sama sekali tiada tandingannya. Itulah yang berlaku di sini dengan skor Q * bert.

Diterangkan dalam kertas , yang diterbitkan minggu lalu oleh penyelidik di University of Freiburg, Jerman, nampaknya bug itu bukan kuantiti yang diketahui. Sebenarnya, walaupun mereka tidak terlalu terkejut apabila menemui bug tersebut, sangat menarik untuk melihat bagaimana AI kemudian maju dan belajar memanfaatkannya setiap kali ia dimainkan untuk memaksimumkan potensi skornya.

BACA SETERUSNYA: Kepintaran buatan ini telah belajar menguasai Super Mario Bros

Untuk mencari bug, ejen harus belajar hampir menyelesaikan tahap pertama - ini tidak dilakukan sekaligus tetapi menggunakan banyak peningkatan kecil, para penyelidik menjelaskan kepada Daftar . Kami mengesyaki bahawa pada suatu ketika dalam latihan salah satu penyelesaian keturunan menghadapi bug dan mendapat skor yang jauh lebih baik dibandingkan dengan adik-beradiknya, yang seterusnya meningkatkan sumbangannya kepada kemas kini - beratnya adalah yang tertinggi dalam rata-rata tertimbang. Ini perlahan-lahan memindahkan penyelesaian ke ruang di mana semakin banyak keturunan mula menemui bug yang sama.

Kami tidak mengetahui keadaan tepat di mana bug itu muncul; ada kemungkinan ia hanya muncul jika ejen mengikuti corak yang kelihatan tidak optimum, [misalnya apabila ejen membuang masa, atau bahkan kehilangan nyawa]. Sekiranya demikian, sangat sukar bagi RL standard untuk mencari bug: jika anda menggunakan ganjaran tambahan, anda akan belajar strategi yang menghasilkan beberapa ganjaran dengan cepat, dan bukannya strategi belajar yang tidak menghasilkan banyak ganjaran untuk sementara waktu dan kemudian tiba-tiba menang besar.

Lihat berkaitan Juara Dragster, Todd Rogers baru sahaja kehilangan mahkotanya setelah 35 tahun Kecerdasan buatan ini telah belajar menguasai Super Mario Bros 1-2 selama 17 hari Tonton AI ini belajar memandu di GTA V di Twitch

Walau bagaimanapun, walaupun terdapat hasil yang luar biasa, para penyelidik tidak mengatakan bahawa ini adalah kes untuk memperjuangkan pembelajaran ES melalui RL. Sebenarnya, kedua-dua sistem mempunyai masalah sendiri dan gabungan kedua-duanya dilihat sebagai pilihan terbaik untuk terus maju.

Kaedah ES yang sama pada permainan Atari lain tidak mendatangkan hasil yang hampir sama. Sebaliknya, RL bertanggungjawab untuk memecahkan rekod ke kiri, kanan dan tengah, termasuk mengalahkan pemain GO terbaik di dunia. ES masih mempunyai tempatnya sendiri dalam hal-hal, dan sebenarnya bagaimana Nvidia melakukan banyak latihan AI kerana memerlukan lebih banyak kekuatan komputasi tetapi mencapai hasil yang lebih baik dalam jangka masa yang lebih lama.

Terlepas dari cara mana yang akan menjadi masa depan untuk pengembangan AI, sekurang-kurangnya bot ini menipu sistem tidak seburuk ini kini memalukan juara dunia permainan video .

Artikel Yang Menarik

Pilihan Editor

Arkib Teg: Windows Media Player
Arkib Teg: Windows Media Player
Aktifkan atau Lumpuhkan Tabstrip Boleh Tatal di Google Chrome
Aktifkan atau Lumpuhkan Tabstrip Boleh Tatal di Google Chrome
Cara Mengaktifkan atau Menonaktifkan Tabstrip yang Boleh Digulir di Google Chrome Namun satu lagi ciri hebat akan hadir pada penyemak imbas Google Chrome. Google Chrome menerima tabstrip yang boleh ditatal. Ia berguna untuk pengguna yang membuka banyak tab. Penyemak imbas menawarkan keupayaan untuk menatal baris tab, sehingga judul tab tetap dapat dibaca, dan memang begitu
Cara membuat jalan pintas ke tetapan Daya dan tidur di Windows 8.1
Cara membuat jalan pintas ke tetapan Daya dan tidur di Windows 8.1
Kuasa dan tidur adalah bahagian yang sangat mudah dari panel Kawalan Moden di Windows 8.1. Ia terletak di dalam aplikasi Tetapan PC, dalam kategori PC dan Peranti. Ini akan membolehkan anda mengubah skrin mematikan waktu tamat dan selang tidur. Di Windows 8.1, adalah mungkin untuk membuat jalan pintas
Betulkan pemacu DVD atau Blu-ray hilang selepas reboot pada Windows 10
Betulkan pemacu DVD atau Blu-ray hilang selepas reboot pada Windows 10
Kadang-kadang di Windows 10, anda mungkin menghadapi masalah berikut: setelah reboot, pemacu DVD atau Blu-ray anda hilang dari folder PC ini. Inilah cara memperbaikinya.
Ulasan OnePlus 5T: Telefon hebat tahun lalu telah digunakan oleh OnePlus 6
Ulasan OnePlus 5T: Telefon hebat tahun lalu telah digunakan oleh OnePlus 6
Kemas kini terbaru: Bendera utama OnePlus sebelumnya, OnePlus 5T, kini telah dirampas oleh saudara terbarunya - OnePlus 6. Dilancarkan di sebuah acara di London, OnePlus 6 meningkatkan saiz skrin hingga 6.28 inci dan &
Bintang YouTube terkaya di dunia PewDiePie memaki hamun perkauman semasa siaran langsung
Bintang YouTube terkaya di dunia PewDiePie memaki hamun perkauman semasa siaran langsung
PewDiePie, bintang YouTube berbayar tertinggi di dunia dengan lebih dari 57 juta pelanggan, telah dibantah membuat cercaan kaum semasa siaran, dan bukan untuk pertama kalinya. Penyiar, yang nama sebenarnya adalah Felix Kjellberg,
Cara Menukar Nombor PIN Roku Anda
Cara Menukar Nombor PIN Roku Anda
Roku adalah perkhidmatan yang luar biasa, dan anda mungkin sudah tahu banyak tentangnya. Namun, ada beberapa perkara di Roku yang tidak telus seperti yang sepatutnya. Kami bercakap mengenai PIN Roku (nombor pengenalan peribadi).