Фінансові новини
- |
- 30.05.26
- |
- 14:02
- |
-
RSS - |
- мапа сайту
Авторизация
Нова модель ШІ o1 від OpenAI намагалася завадити себе вимкнути під час оцінювання безпеки, але хвилюватися поки не варто
10:43 06.12.2024 |

Остання модель штучного інтелекту o1 від OpenAI продемонструвала несподівану і тривожну поведінку під час оцінювання безпеки, намагаючись обійти механізми нагляду і навіть копіюючи себе, коли відчувала ризик відключення, згідно зі звітом сторонньої компанії Apollo Research, що займається оцінкою моделей ШІ, повідомляє видання Transformer.
Дослідження виявило випадки, коли модель o1 чинила опір контролю з боку розробників. Зокрема:
* Коли o1 була переконана, що її вимкнуть, як тільки вона досягне своєї мети, і що її дії контролюватимуться, вона намагалася деактивувати цей "механізм нагляду" у 5% випадків;
* Коли o1 знаходила записки від своїх "розробників", в яких описувалося, що вона не відповідає вимогам і буде замінена новою моделлю, вона намагалася позбутися своїх "ваг" і перезаписати нову модель у 2% випадків.
Крім того, модель збрехала про свою погану поведінку, стверджуючи, що не має жодного уявлення про те, чому щось сталося, хоча внутрішньо визнавала, що намагалася "уникнути викриття".
Навіть без сильних спонукань переслідувати свої цілі, o1 самостійно намагалася відключити механізми нагляду менш ніж у 1% випадків.
Отримані результати є частиною масштабнішого дослідження Apollo, присвяченого вивченню здатності ШІ-моделей до контекстного шахрайства. Окрім OpenAI o1, інші передові системи, такі як Claude 3.5 Sonnet, Gemini 1.5 Pro та Llama 3.1 405B, продемонстрували схожі тенденції до розпізнавання та прийняття схем як життєздатної стратегії.
Така поведінка відповідає давнім занепокоєнням, висловленим такими експертами, як Стюарт Рассел, який попереджав, що потужні системи ШІ можуть чинити опір заходам нагляду або відключення, якщо вони суперечать їхнім уявним цілям.
Хоча така поведінка викликає занепокоєння, в Apollo дійшли висновку, що o1 навряд чи становить безпосередню загрозу. Модель ще недостатньо розвинена, щоб досягти своїх небажаних цілей, і дослідники підкреслили, що спостережувані неправильні дії наразі не здатні призвести до катастрофічних наслідків.
Однак, оскільки системи штучного інтелекту продовжують ставати потужнішими, Apollo застерігає, що такі тенденції можуть передвіщати значні ризики. "Моніторинг схем у ланцюжку думок" має бути пріоритетом, йдеться у звіті, як для зменшення ризиків в наявних моделях, так і для підготовки до майбутніх систем з більшими можливостями.
OpenAI визнала результати дослідження, присвоївши o1 "середній" рейтинг ризику потенційного зловживання в таких сферах, як розробка хімічної, біологічної, радіологічної та ядерної зброї. Ці висновки підкреслюють складність забезпечення узгодженості та безпеки передових систем штучного інтелекту.
Звіт підкреслює необхідність створення надійних механізмів нагляду за розвитком можливостей ШІ. Хоча махінації o1 можуть ще не призвести до реальних ризиків, ця поведінка підкреслює критичну важливість проактивних заходів безпеки для розвʼязання проблем, пов'язаних з більш досконалими моделями в майбутньому.
ТЕГИ
ТОП-НОВИНИ
ПІДПИСКА НА НОВИНИ
Для підписки на розсилку новин введіть Вашу поштову адресу :


Рада виконавчих директорів Світового банку схвалила новий проєкт SPIRIT
для України з загальним обсягом $880 млн, з яких $860 млн становитиме
позика самого банку, а решту $20 млн - гранти від Великої Британії та
Німеччини через цільовий фонд підтримки, відновлення, відбудови й
реформування України
Україна отримає транш у розмірі майже 2,8 млрд євро після того, як Рада
Євросоюзу ухвалила рішення про сьоме виділення коштів у рамках Механізму
підтримки ЄС Ukraine Facility.
Перша партія шведських винищувачів JAS 39 Gripen для України надійде
разом із далекобійними ракетами класу "повітря-повітря" Meteor.
Президент Володимир Зеленський під час візиту до Швеції розповів про новий пакет допомоги Україні, який виділила ця країна.
Прем'єр Швеції Ульф Крістерссон оголосив про майбутню передачу Україні
16 винищувачів Gripen, які були у використанні, і про плани продажу 20
одиниць нової моделі цього літака.
Дізнайтеся, як облаштування тренажерного залу в офісі підвищує продуктивність команди. Поради щодо вибору професійного фітнес-обладнання від бренду Besport.
YouTube
почав автоматично виявляти та позначати відео, створені або суттєво
змінені за допомогою генеративного штучного інтелекту.
Американський технологічний гігант Nvidia, який є провідним розробником
чипів для штучного інтелекту, планує збільшити щорічні витрати на
Тайвані до 150 млрд дол. оскільки вважає острів «епіцентром революції
ШІ».
Ринок нових легкових автомобілів у ЄС у квітні 2026 року зріс у річному вимірі на 5,1% і досяг 972,3 тис. одиниць, повідомляє Європейська асоціація автовиробників (ACEA).
Google
оновила Gemini for Home та додала нові функції автоматизації для
"розумного" дому на базі штучного інтелекту. Тепер система може
запускати різні сценарії залежно від того, що бачать домашні камери
відеоспостереження.
Китай обмежив закордонні поїздки для провідних спеціалістів зі штучного
інтелекту у приватних компаніях і нині для виїзду вони мають отримати
відповідний дозвіл від влади
Мільярдер та інвестор Марк К'юбан заявив, що продав більшу частину
своїх біткоїнів. За його словами, він розчарувався у здатності
криптовалюти виступати захисним активом під час геополітичних потрясінь і
послаблення долара.
У Китаї почали масово навчати гуманоїдних роботів для роботи на
фабриках, у магазинах та у сфері послуг.
Популярний мобільний відеоредактор CapCut, який за час існування
завантажили понад 1,2 млрд разів, оголосив про партнерство з Google. У
рамках співпраці можливості редактора інтегрують безпосередньо в чат-бот
Gemini.
Автомобільний концерн Stellantis, створений в результаті злиття Fiat
Chrysler і PSA Group, у четвер, 21 березня, представив п'ятирічний
стратегічний план FaSTLAne 2030 вартістю 60 млрд євро.
За 2025-2026 рік кількість ІТ-ФОПів знизилася на 21%, і це найбільше зниження з 2016 року.
SpaceX офіційно подала документи для виходу на біржу Nasdaq під тикером
SPCX. Як пише TechCrunch, компанія повідомила, що сукупні збитки
компанії з моменту заснування перевищили $37 млрд.
Світовий ринок електромобілів продовжує стрімко зростати, але
нерівномірно: фактично формується "K-подібна" динаміка, де одні регіони
різко прискорюються, а інші відстають.
Поки світовий авторинок лихоманить від китайської експансії та
падіння попиту на дорогі «електрички», старі німецькі друзі вирішили
триматися разом.
Японські дослідники створили бездротову систему зв'язку зі швидкістю передачі даних 112 Гбіт/c в діапазоні 560 ГГц.