
Tim peneliti Google DeepMind memetakan enam kategori serangan yang bisa digunakan peretas untuk menjebak dan mengambil alih AI agent.
Tim peneliti Google DeepMind baru saja merilis makalah yang mengungkap berbagai metode serangan yang dapat digunakan peretas untuk menyerang dan menyabotase AI agent. Dalam penelitian tersebut, mereka mengidentifikasi enam kategori serangan yang mengancam keamanan sistem AI otonom, mulai dari perintah HTML tak terlihat hingga serangan multi-agent yang bisa memicu chaos.
Salah satu metode yang dijelaskan adalah penggunaan perintah HTML yang tidak terlihat oleh manusia tetapi dapat dibaca oleh AI. Perintah ini dapat dimanipulasi untuk mengarahkan AI agent melakukan tindakan yang tidak diinginkan atau bahkan berbahaya. Selain itu, peneliti juga menemukan bahwa peretas dapat memanfaatkan kerentanan dalam interaksi multi-agent untuk memicu efek domino yang merugikan.
Serangan lain yang patut diwaspadai adalah 'flash crash', di mana peretas memanipulasi beberapa AI agent secara bersamaan untuk menciptakan gangguan besar dalam sistem. Hal ini dapat menyebabkan kerugian finansial atau operasional yang signifikan, terutama jika AI digunakan dalam sektor kritis seperti keuangan atau kesehatan.
Penelitian ini menekankan pentingnya meningkatkan keamanan dan ketahanan sistem AI terhadap berbagai jenis serangan. Para peneliti menyarankan agar pengembang AI lebih proaktif dalam mengidentifikasi dan menutupi kerentanan yang mungkin dieksploitasi oleh pihak tak bertanggung jawab.
Dengan semakin banyaknya AI agent yang digunakan dalam berbagai aspek kehidupan, temuan ini menjadi pengingat bahwa keamanan AI harus menjadi prioritas utama. Tanpa langkah pencegahan yang tepat, risiko serangan terhadap sistem AI bisa berdampak luas dan merugikan.