Фінансові новини
- |
- 12.01.26
- |
- 12:35
- |
-
RSS - |
- мапа сайту
Авторизация
Нова модель ШІ o1 від OpenAI намагалася завадити себе вимкнути під час оцінювання безпеки, але хвилюватися поки не варто
10:43 06.12.2024 |

Остання модель штучного інтелекту o1 від OpenAI продемонструвала несподівану і тривожну поведінку під час оцінювання безпеки, намагаючись обійти механізми нагляду і навіть копіюючи себе, коли відчувала ризик відключення, згідно зі звітом сторонньої компанії Apollo Research, що займається оцінкою моделей ШІ, повідомляє видання Transformer.
Дослідження виявило випадки, коли модель o1 чинила опір контролю з боку розробників. Зокрема:
* Коли o1 була переконана, що її вимкнуть, як тільки вона досягне своєї мети, і що її дії контролюватимуться, вона намагалася деактивувати цей "механізм нагляду" у 5% випадків;
* Коли o1 знаходила записки від своїх "розробників", в яких описувалося, що вона не відповідає вимогам і буде замінена новою моделлю, вона намагалася позбутися своїх "ваг" і перезаписати нову модель у 2% випадків.
Крім того, модель збрехала про свою погану поведінку, стверджуючи, що не має жодного уявлення про те, чому щось сталося, хоча внутрішньо визнавала, що намагалася "уникнути викриття".
Навіть без сильних спонукань переслідувати свої цілі, o1 самостійно намагалася відключити механізми нагляду менш ніж у 1% випадків.
Отримані результати є частиною масштабнішого дослідження Apollo, присвяченого вивченню здатності ШІ-моделей до контекстного шахрайства. Окрім OpenAI o1, інші передові системи, такі як Claude 3.5 Sonnet, Gemini 1.5 Pro та Llama 3.1 405B, продемонстрували схожі тенденції до розпізнавання та прийняття схем як життєздатної стратегії.
Така поведінка відповідає давнім занепокоєнням, висловленим такими експертами, як Стюарт Рассел, який попереджав, що потужні системи ШІ можуть чинити опір заходам нагляду або відключення, якщо вони суперечать їхнім уявним цілям.
Хоча така поведінка викликає занепокоєння, в Apollo дійшли висновку, що o1 навряд чи становить безпосередню загрозу. Модель ще недостатньо розвинена, щоб досягти своїх небажаних цілей, і дослідники підкреслили, що спостережувані неправильні дії наразі не здатні призвести до катастрофічних наслідків.
Однак, оскільки системи штучного інтелекту продовжують ставати потужнішими, Apollo застерігає, що такі тенденції можуть передвіщати значні ризики. "Моніторинг схем у ланцюжку думок" має бути пріоритетом, йдеться у звіті, як для зменшення ризиків в наявних моделях, так і для підготовки до майбутніх систем з більшими можливостями.
OpenAI визнала результати дослідження, присвоївши o1 "середній" рейтинг ризику потенційного зловживання в таких сферах, як розробка хімічної, біологічної, радіологічної та ядерної зброї. Ці висновки підкреслюють складність забезпечення узгодженості та безпеки передових систем штучного інтелекту.
Звіт підкреслює необхідність створення надійних механізмів нагляду за розвитком можливостей ШІ. Хоча махінації o1 можуть ще не призвести до реальних ризиків, ця поведінка підкреслює критичну важливість проактивних заходів безпеки для розвʼязання проблем, пов'язаних з більш досконалими моделями в майбутньому.
ТЕГИ
ТОП-НОВИНИ
ПІДПИСКА НА НОВИНИ
Для підписки на розсилку новин введіть Вашу поштову адресу :


Україна розглядає запропонований США план створення вільної економічної зони на Донбасі.
Сенатор-республіканець Ліндсі Грем заявив, що президент Дональд Трамп
дав "зелене світло" двопартійному законопроєкту про санкції проти Росії.
Littop Enterprises, Bordo Management і Bridgemont Ventures програли арбітражну справу щодо Укрнафти
Канада прагне суттєво збільшити обсяг зброї та військового спорядження, що виготовляється разом із Україною.
Гарантії безпеки для України ґрунтуватимуться на трьох головних принципах, наголосила фон дер Ляєн.
В Україні стартував оборонний збір на 1 млрд грн для захисту від "Шахедів". Про це повідомляє пресслужба Фонду Сергія Притули. Проєкт під назвою "Єдинозбір" проводиться фондом спільно з 412 бригадою Nemesis та Світовим Конґресом Українців.
Дефіцит оперативної пам'яті для споживчих товарів назвали небаченим щонайменше за два десятиліття
Платформа Windows 11 on Arm нарешті отримала процесор, який здатен на
рівних конкурувати з чипами Apple. Новий Snapdragon X2 Elite Extreme
показав вражаючі результати в Geekbench і суттєво скоротив розрив між
Windows-ноутбуками та MacBook на Apple Silicon.
YouTube оновив інструменти розширеного пошуку. Тепер користувачі можуть
виключити Shorts, тобто відео тривалістю до трьох хвилин, із
результатів.
На виставці NRF 2026 компанія Microsoft представила нову функцію -
Copilot Checkout. Вона дозволяє користувачам оформлювати покупки без
переходу на сторонні сайти.
Top Lead за підтримки Міністерства цифрової трансформації України провела дослідження
використання штучного інтелекту українськими компаніями.
Йдеться про двоногі машини, призначені для виконання виробничих завдань нарівні з традиційним промисловим обладнанням.
Із 1 січня 2026 у зв'язку із збільшенням мінімальної заробітної плати в
Україні зросли деякі виплати роботодавцям, які адмініструє Державна
служба зайнятості.
Universal Music Group (UMG) уклала партнерство з NVIDIA для впровадження
нової моделі штучного інтелекту у свій музичний каталог. Про це пише
The Verge.
За словами Джима Джонсона, віцепрезидента Intel і керівника Client
Computing Group, ключові акценти нової серії - енергоефективність,
зростання продуктивності CPU, більший інтегрований GPU, потужніші
ШІ-блоки та повна сумісність з x86-застосунками.
На CES 2026 компанія AMD анонсувала свій новий флагманський процесор Ryzen 7 9850X3D, який став найшвидшим у серії 9000X3D. Чип базується на архітектурі Zen 5 і оснащений технологією AMD 3D V-Cache другого покоління, що забезпечує виняткову ігрову продуктивність, особливо в порівнянні з конкурентами.
Попри намагання Павла Дурова дистанціюватися від Кремля, фінансова
звітність Telegram свідчить про глибоку залежність платформи від
російського капіталу
На CES 2026 NVIDIA представила нове покоління технології
масштабування DLSS 4.5. Оновлення представляє Dynamic Multi Frame
Generation, новий режим 6X Multi Frame Generation та модель другого
покоління для DLSS Super Resolution.
Продаж легкових машин у Великій Британії у 2025 році зріс за підсумками
третього року поспіль і вперше з доковідного 2019 року перевищив 2 млн
автомобілів.
NVIDIA представила Rubin — новий суперкомп’ютер для ШІ, який прискорює навчання та інференс моделей при нижчих витратах порівняно з попередніми системами