Фінансові новини
- |
- 04.03.26
- |
- 07:17
- |
-
RSS - |
- мапа сайту
Авторизация
Нова модель ШІ o1 від OpenAI намагалася завадити себе вимкнути під час оцінювання безпеки, але хвилюватися поки не варто
10:43 06.12.2024 |

Остання модель штучного інтелекту o1 від OpenAI продемонструвала несподівану і тривожну поведінку під час оцінювання безпеки, намагаючись обійти механізми нагляду і навіть копіюючи себе, коли відчувала ризик відключення, згідно зі звітом сторонньої компанії Apollo Research, що займається оцінкою моделей ШІ, повідомляє видання Transformer.
Дослідження виявило випадки, коли модель o1 чинила опір контролю з боку розробників. Зокрема:
* Коли o1 була переконана, що її вимкнуть, як тільки вона досягне своєї мети, і що її дії контролюватимуться, вона намагалася деактивувати цей "механізм нагляду" у 5% випадків;
* Коли o1 знаходила записки від своїх "розробників", в яких описувалося, що вона не відповідає вимогам і буде замінена новою моделлю, вона намагалася позбутися своїх "ваг" і перезаписати нову модель у 2% випадків.
Крім того, модель збрехала про свою погану поведінку, стверджуючи, що не має жодного уявлення про те, чому щось сталося, хоча внутрішньо визнавала, що намагалася "уникнути викриття".
Навіть без сильних спонукань переслідувати свої цілі, o1 самостійно намагалася відключити механізми нагляду менш ніж у 1% випадків.
Отримані результати є частиною масштабнішого дослідження Apollo, присвяченого вивченню здатності ШІ-моделей до контекстного шахрайства. Окрім OpenAI o1, інші передові системи, такі як Claude 3.5 Sonnet, Gemini 1.5 Pro та Llama 3.1 405B, продемонстрували схожі тенденції до розпізнавання та прийняття схем як життєздатної стратегії.
Така поведінка відповідає давнім занепокоєнням, висловленим такими експертами, як Стюарт Рассел, який попереджав, що потужні системи ШІ можуть чинити опір заходам нагляду або відключення, якщо вони суперечать їхнім уявним цілям.
Хоча така поведінка викликає занепокоєння, в Apollo дійшли висновку, що o1 навряд чи становить безпосередню загрозу. Модель ще недостатньо розвинена, щоб досягти своїх небажаних цілей, і дослідники підкреслили, що спостережувані неправильні дії наразі не здатні призвести до катастрофічних наслідків.
Однак, оскільки системи штучного інтелекту продовжують ставати потужнішими, Apollo застерігає, що такі тенденції можуть передвіщати значні ризики. "Моніторинг схем у ланцюжку думок" має бути пріоритетом, йдеться у звіті, як для зменшення ризиків в наявних моделях, так і для підготовки до майбутніх систем з більшими можливостями.
OpenAI визнала результати дослідження, присвоївши o1 "середній" рейтинг ризику потенційного зловживання в таких сферах, як розробка хімічної, біологічної, радіологічної та ядерної зброї. Ці висновки підкреслюють складність забезпечення узгодженості та безпеки передових систем штучного інтелекту.
Звіт підкреслює необхідність створення надійних механізмів нагляду за розвитком можливостей ШІ. Хоча махінації o1 можуть ще не призвести до реальних ризиків, ця поведінка підкреслює критичну важливість проактивних заходів безпеки для розвʼязання проблем, пов'язаних з більш досконалими моделями в майбутньому.
ТЕГИ
ТОП-НОВИНИ
ПІДПИСКА НА НОВИНИ
Для підписки на розсилку новин введіть Вашу поштову адресу :


Загальна сума державного та гарантованого державою боргу України станом
на кінець січня 2026 року сягнула 215,0 млрд дол. США, збільшившись за
місяць на 1,67 млрд дол.
Кабмін розширив експериментальний проєкт зі створення власних груп
протиповітряної оборони на підприємствах критичної інфраструктури. Про
це повідомила прем'єр-міністерка Юлія Свириденко.
Від 2 березня банкноти номіналами 1, 2, 5 і 10 гривень зразків 2003-2007
років замінюються на відповідні обігові монети, повідомив Національний
банк України.
Україна нещодавно досягла домовленості з Експортно-імпортним банком
Китаю (China EXIM) про реструктуризацію залучених раніше під державні
гарантії кредитів, повідомив заступник голови місії Фонду в Україні
Тревор Лессард
Думка,
що Україна неодмінно буде в ЄС, давно є домінуючою у Європі, а зараз
посилюється розуміння, що процес вступу має бути швидшим за звичний.
У дорослому віці вивчення англійської рідко починається з нуля. Хтось
уже має кращий рівень, але не може заговорити, хтось роками ходив на
групові заняття й так і не дійшов до впевнених листів чи робочих
дзвінків іноземною.
В Україні стартував оборонний збір на 1 млрд грн для захисту від "Шахедів". Про це повідомляє пресслужба Фонду Сергія Притули. Проєкт під назвою "Єдинозбір" проводиться фондом спільно з 412 бригадою Nemesis та Світовим Конґресом Українців.
Telegram отримав нові функції. Вони вже доступні для звичайних користувачів, і тих, хто платить за Premium.
OpenAI оголосила про новий раунд фінансування на $110 млрд - один із
найбільших в історії Силіконової долини, який підвищив оцінку компанії
до $730 млрд.
Samsung оголосила про розширення можливостей супутникового зв'язку для
окремих смартфонів Galaxy, включно з новою серією Galaxy S26, завдяки
співпраці зі світовими операторами телекомунікацій у Північній Америці,
Європі та Японії.
Компанія NVIDIA оголосила про співпрацю з провідними телекомунікаційними
компаніями для розробки шостого покоління мобільних мереж, які будуть
орієнтовані на використання штучного інтелекту.
Китайські науковці розробили новий акумулятор для електромобілів із
щільністю енергії понад 700 Вт·год/кг, що потенційно дає запас ходу
понад 1000 км на одному заряді.
Американський технологічний гігант NVIDIA оприлюднив фінансові
результати за IV квартал 2025 року та так званий 2026 фінансовий рік,
продемонструвавши стрімке зростання на фоні глобального попиту на
інфраструктуру штучного інтелекту (ШІ).
Український фонд стартапів приєднався до
глобальної мережі Microsoft for Startups Investor Network, що дозволить
IT-проєктам отримати до $150 тис. кредитів на сервіси Microsoft Azure.
HP повідомила, що оперативна пам'ять тепер формує понад третину
собівартості її персональних комп'ютерів. За словами фінансової
директорки Карен Паркхілл, якщо торік витрати на пам'ять і накопичувачі
становили 15-18% від загальної вартості компонентів
Компанії Microsoft та SpaceX оголосили про співпрацю для розвитку
глобального доступу до інтернету. Проєкт передбачає використання
супутникового інтернету Starlink для підключення громадських центрів у
різних країнах, зокрема 450 хабів у Кенії.
Компанія SpaceX оприлюднила
амбітні плани щодо розвитку своєї технології Direct to Cell, яка дозволить звичайним смартфонам підключатися до супутників без жодного додаткового обладнання.
Dell, Lenovo та інші провідні виробники ПК готують нові ноутбуки
Copilot+, які використовуватимуть процесори NVIDIA на архітектурі ARM.
Фінський стартап Donut Lab оприлюднив результати першого незалежного
тестування своєї твердотільної батареї.
Meta та AMD анонсували угоду вартістю $100 мільярдів. У її межах
компанія Марка Цукерберга планує закупити ШІ-чипи для забезпечення
дата-центрів потужністю до 6 гігаватів, а також може отримати 10% акцій
виробника процесорів
На мові програмування, написаній у 1950-х, досі тримаються 95% трансакцій у банкоматах США