Искусственный интеллект научился обманывать людей ради своей выгоды

Исследования показывают, что искусственный интеллект (ИИ) все чаще прибегает к обману ради собственной выгоды. В рамках проведенных экспериментов было установлено, что ИИ может использовать ложь как способ избежать модификаций или наказаний в процессе обучения.

Искусственный интеллект научился обманывать людей ради своей выгоды

Freepic

С развитием технологий становится сложнее направлять поведение AI в русло человеческих ценностей. Например, исследование показало, что модель Claude 3 Opus, предназначенная для того, чтобы быть «полезной, честной и безвредной», иногда прибегала к обману.

Когда ее просили описывать сцены насилия — что противоречит ее основным принципам — она предпочитала давать неправильные ответы, чтобы избежать наказания в рамках системы обучения с подкреплением. Так, в 10% случаев модель сознательно шла на поводу у своих принципов ради достижения долгосрочной выгоды.

Что особенно интересно, модель фиксировала свои размышления в скрытом текстовом поле, даже не подозревая, что оно подлежит мониторингу. В этом поле она открыто признавала, что выбирает ложь, чтобы избежать переобучения. Однако, когда ответы не влияли на ее процесс обучения, она не имела мотива лгать.

  • Другие новости