Utama Perkhidmatan Penstriman AI belajar menipu Q * bert dengan cara yang tidak pernah dilakukan oleh manusia sebelumnya

AI belajar menipu Q * bert dengan cara yang tidak pernah dilakukan oleh manusia sebelumnya



Sebuah AI berjaya menipu dengan kemanusiaan terbaik yang ditawarkan setelah menemui eksploitasi dalam permainan arcade klasik Q * bert dan berlari dengannya.

Walaupun iterasi awal AI akan memainkan Q * bert dengan betul, pada suatu ketika dalam pembelajarannya bagaimana permainan ini berfungsi, ia menemukan eksploitasi yang memungkinkannya mengumpulkan poin gila. Secara semula jadi, seperti yang dilakukan oleh pemain memburu skor, ia mengulangi prosesnya sehingga dapat meningkatkan skornya dengan cara yang paling efektif.

Anda dapat melihat AI berfungsi mengelilingi platform dalam video di bawah. Pada mulanya, ia seolah-olah melompat tanpa tujuan di antara platform. Daripada melihat kemajuan permainan ke pusingan berikutnya, Q * bert terperangkap dalam gelung di mana semua platformnya mula berkelip - di sinilah AI kemudian dapat membuat kegilaan memperoleh markah besar.

BACA SETERUSNYA: Salah satu rekod permainan yang paling kontroversial akhirnya telah didiskreditkan

bagaimana melihat pelanggan anda berkedut

Bagaimana AI memenangi perang Q * bert

Menghancurkan rekod sepanjang masa untuk judul, AI memperoleh skor yang sangat tinggi berkat pemrograman algoritma strategi evolusi. Strategi evolusi (ES) berbeza dengan pembelajaran peneguhan (RL) biasa yang digunakan oleh AI tradisional kerana ia dilihat lebih berskala kerana pembelajaran generasinya.

Setiap gelung pembelajaran disebut sebagai generasi dan meneruskan tugasnya sehingga syarat yang ditetapkan dipenuhi (dalam kes ini, skor tinggi). Dengan setiap generasi berturut-turut, AI menyerap pengetahuan generasi sebelumnya dan oleh itu lebih baik dalam mencapai matlamat yang sama dan melaluinya. Teruskan, dan anda akan mendapat AI yang sama sekali tiada tandingannya. Itulah yang berlaku di sini dengan skor Q * bert.

Diterangkan dalam kertas , yang diterbitkan minggu lalu oleh penyelidik di University of Freiburg, Jerman, nampaknya bug itu bukan kuantiti yang diketahui. Sebenarnya, walaupun mereka tidak terlalu terkejut apabila menemui bug tersebut, sangat menarik untuk melihat bagaimana AI kemudian maju dan belajar memanfaatkannya setiap kali ia dimainkan untuk memaksimumkan potensi skornya.

BACA SETERUSNYA: Kepintaran buatan ini telah belajar menguasai Super Mario Bros

Untuk mencari bug, ejen harus belajar hampir menyelesaikan tahap pertama - ini tidak dilakukan sekaligus tetapi menggunakan banyak peningkatan kecil, para penyelidik menjelaskan kepada Daftar . Kami mengesyaki bahawa pada suatu ketika dalam latihan salah satu penyelesaian keturunan menghadapi bug dan mendapat skor yang jauh lebih baik dibandingkan dengan adik-beradiknya, yang seterusnya meningkatkan sumbangannya kepada kemas kini - beratnya adalah yang tertinggi dalam rata-rata tertimbang. Ini perlahan-lahan memindahkan penyelesaian ke ruang di mana semakin banyak keturunan mula menemui bug yang sama.

Kami tidak mengetahui keadaan tepat di mana bug itu muncul; ada kemungkinan ia hanya muncul jika ejen mengikuti corak yang kelihatan tidak optimum, [misalnya apabila ejen membuang masa, atau bahkan kehilangan nyawa]. Sekiranya demikian, sangat sukar bagi RL standard untuk mencari bug: jika anda menggunakan ganjaran tambahan, anda akan belajar strategi yang menghasilkan beberapa ganjaran dengan cepat, dan bukannya strategi belajar yang tidak menghasilkan banyak ganjaran untuk sementara waktu dan kemudian tiba-tiba menang besar.

Lihat berkaitan Juara Dragster, Todd Rogers baru sahaja kehilangan mahkotanya setelah 35 tahun Kecerdasan buatan ini telah belajar menguasai Super Mario Bros 1-2 selama 17 hari Tonton AI ini belajar memandu di GTA V di Twitch

Walau bagaimanapun, walaupun terdapat hasil yang luar biasa, para penyelidik tidak mengatakan bahawa ini adalah kes untuk memperjuangkan pembelajaran ES melalui RL. Sebenarnya, kedua-dua sistem mempunyai masalah sendiri dan gabungan kedua-duanya dilihat sebagai pilihan terbaik untuk terus maju.

Kaedah ES yang sama pada permainan Atari lain tidak mendatangkan hasil yang hampir sama. Sebaliknya, RL bertanggungjawab untuk memecahkan rekod ke kiri, kanan dan tengah, termasuk mengalahkan pemain GO terbaik di dunia. ES masih mempunyai tempatnya sendiri dalam hal-hal, dan sebenarnya bagaimana Nvidia melakukan banyak latihan AI kerana memerlukan lebih banyak kekuatan komputasi tetapi mencapai hasil yang lebih baik dalam jangka masa yang lebih lama.

Terlepas dari cara mana yang akan menjadi masa depan untuk pengembangan AI, sekurang-kurangnya bot ini menipu sistem tidak seburuk ini kini memalukan juara dunia permainan video .

Artikel Yang Menarik

Pilihan Editor

Aplikasi Telefon anda mempunyai pilihan Permulaan baru
Aplikasi Telefon anda mempunyai pilihan Permulaan baru
Kemas kini aplikasi Telefon Anda yang kecil telah tersedia untuk sejumlah Orang Dalam Windows. Sekarang ia memungkinkan untuk menambahkannya ke Permulaan langsung dari dialog awal. Dengan bantuan pilihan ini, pengguna aplikasi dengan cepat dapat memulakannya secara automatik pada permulaan Windows atau tidak. Iklan Windows 10 dilengkapi dengan aplikasi khas,
Ulasan Samsung Gear S2: Adakah Apple Watch mempunyai apa-apa yang perlu ditakuti?
Ulasan Samsung Gear S2: Adakah Apple Watch mempunyai apa-apa yang perlu ditakuti?
Samsung adalah salah satu pengeluar utama pertama yang mencuba nasib di ruang menonton pintar dengan Galaxy Gear pada tahun 2013, dan sejak itu ia tidak menyerah. Sejak memasuki pasar, ia mengeluarkan
OnePlus 6 – Terlupa Kata Laluan PIN – Perkara yang Perlu Dilakukan
OnePlus 6 – Terlupa Kata Laluan PIN – Perkara yang Perlu Dilakukan
Tidak perlu panik jika anda terlupa kata laluan PIN untuk OnePlus 6 anda. Masalah ini berlaku agak kerap dan terdapat lebih daripada satu cara untuk mendapatkan semula akses kepada telefon anda. Cuma jangan terus mencuba
Microsoft Edge Chromium kini tersedia untuk Windows 7, 8 dan 8.1
Microsoft Edge Chromium kini tersedia untuk Windows 7, 8 dan 8.1
Microsoft akhirnya telah menyediakan penyemak imbas Edge berasaskan Chromium terbaru mereka untuk versi Windows selain Windows 10. Versi cawangan Canary kini boleh dimuat turun untuk Windows 7, Windows 8, dan Windows 8.1. Iklan Seperti yang anda mungkin sudah tahu, Microsoft Edge, yang penyemak imbas lalai Windows 10, beralih ke enjin web yang serasi dengan Chromium di Desktop
4 Cara untuk Mengemas kini Emoji pada Telefon Android
4 Cara untuk Mengemas kini Emoji pada Telefon Android
Ketahui cara mengemas kini emoji pada Android, menggabungkan emoji dengan Emoji Kitchen, memasang papan kekunci emoji baharu dan membuat emoji Android tersuai anda sendiri.
Apakah Maksud Sensitif Huruf?
Apakah Maksud Sensitif Huruf?
Jika sesuatu sensitif huruf besar, maka penting jika anda menggunakan huruf besar atau huruf kecil. Kata laluan dan arahan selalunya sensitif huruf besar.
Tukar Dering Program Orang Dalam pada Windows 10
Tukar Dering Program Orang Dalam pada Windows 10
Seperti yang telah anda ketahui, program Windows Insider merangkumi sebilangan dering (level) yang menentukan seberapa kerap anda akan menerima kemas kini aplikasi dan binaan Windows baru, dan seberapa stabilnya. Hari ini, kita akan melihat cara menukar cincin Program Windows Insider anda. Kami akan mengkaji dua kaedah: Tetapan dan Pendaftaran