Фінансові новини
- |
- 26.03.26
- |
- 02:48
- |
-
RSS - |
- мапа сайту
Авторизация
Нова модель ШІ o1 від OpenAI намагалася завадити себе вимкнути під час оцінювання безпеки, але хвилюватися поки не варто
10:43 06.12.2024 |

Остання модель штучного інтелекту o1 від OpenAI продемонструвала несподівану і тривожну поведінку під час оцінювання безпеки, намагаючись обійти механізми нагляду і навіть копіюючи себе, коли відчувала ризик відключення, згідно зі звітом сторонньої компанії Apollo Research, що займається оцінкою моделей ШІ, повідомляє видання Transformer.
Дослідження виявило випадки, коли модель o1 чинила опір контролю з боку розробників. Зокрема:
* Коли o1 була переконана, що її вимкнуть, як тільки вона досягне своєї мети, і що її дії контролюватимуться, вона намагалася деактивувати цей "механізм нагляду" у 5% випадків;
* Коли o1 знаходила записки від своїх "розробників", в яких описувалося, що вона не відповідає вимогам і буде замінена новою моделлю, вона намагалася позбутися своїх "ваг" і перезаписати нову модель у 2% випадків.
Крім того, модель збрехала про свою погану поведінку, стверджуючи, що не має жодного уявлення про те, чому щось сталося, хоча внутрішньо визнавала, що намагалася "уникнути викриття".
Навіть без сильних спонукань переслідувати свої цілі, o1 самостійно намагалася відключити механізми нагляду менш ніж у 1% випадків.
Отримані результати є частиною масштабнішого дослідження Apollo, присвяченого вивченню здатності ШІ-моделей до контекстного шахрайства. Окрім OpenAI o1, інші передові системи, такі як Claude 3.5 Sonnet, Gemini 1.5 Pro та Llama 3.1 405B, продемонстрували схожі тенденції до розпізнавання та прийняття схем як життєздатної стратегії.
Така поведінка відповідає давнім занепокоєнням, висловленим такими експертами, як Стюарт Рассел, який попереджав, що потужні системи ШІ можуть чинити опір заходам нагляду або відключення, якщо вони суперечать їхнім уявним цілям.
Хоча така поведінка викликає занепокоєння, в Apollo дійшли висновку, що o1 навряд чи становить безпосередню загрозу. Модель ще недостатньо розвинена, щоб досягти своїх небажаних цілей, і дослідники підкреслили, що спостережувані неправильні дії наразі не здатні призвести до катастрофічних наслідків.
Однак, оскільки системи штучного інтелекту продовжують ставати потужнішими, Apollo застерігає, що такі тенденції можуть передвіщати значні ризики. "Моніторинг схем у ланцюжку думок" має бути пріоритетом, йдеться у звіті, як для зменшення ризиків в наявних моделях, так і для підготовки до майбутніх систем з більшими можливостями.
OpenAI визнала результати дослідження, присвоївши o1 "середній" рейтинг ризику потенційного зловживання в таких сферах, як розробка хімічної, біологічної, радіологічної та ядерної зброї. Ці висновки підкреслюють складність забезпечення узгодженості та безпеки передових систем штучного інтелекту.
Звіт підкреслює необхідність створення надійних механізмів нагляду за розвитком можливостей ШІ. Хоча махінації o1 можуть ще не призвести до реальних ризиків, ця поведінка підкреслює критичну важливість проактивних заходів безпеки для розвʼязання проблем, пов'язаних з більш досконалими моделями в майбутньому.
ТЕГИ
ТОП-НОВИНИ
ПІДПИСКА НА НОВИНИ
Для підписки на розсилку новин введіть Вашу поштову адресу :


Україна сподівається залучити у Міжнародної фінансової корпорації
розвитку США (DFC) кредит на $1,4 мільярда для закупівлі обладнання для видобутку газу.
Премʼєр-міністр України Юлія Свириденко зазначила 4 млн 764 тис. 661 грн
доходів в електронній декларації про майно та доходи за 2025 рік.
Державна служба статистики зафіксувала аномально різке зростання індексу
цін виробників у лютому - на 22,3% у місячному вираженні.
Процес продовження бронювання працівників на порталі "Дія" спростили і
тепер перебронювання відбувається автоматично і не потребує попереднього
анулювання чинного статусу.
Прем'єр-міністр Іспанії Педро Санчес повідомив про рішення виділити у
2026 році EUR1 млрд на військову підтримку України, значну частину з них
буде надано через програму оборонних позик Європейського Союзу SAFE.
Дізнайтеся, як обрати аромадифузор для спальні, ванної та вітальні: враховуйте тип, аромат, об'єм флакону та насиченість запаху для комфортної атмосфери
АЗОВ.ONE та Obmify оголосили спільний збір: чим допомогти, як підтримати, куди підуть гроші. Донатьте і беріть участь у розіграші за посиланням в статті
Google оголосила
про масштабне оновлення для Google TV, яке інтегрує три нові можливості
на базі Gemini. Мета нововведень - перетворити телевізор на активного
помічника, який забезпечує не лише розваги, а й інформативний контент.
Федеральна комісія зі зв'язку США (FCC) визнала всі нові моделі
маршрутизаторів, виготовлені за межами країни, загрозою національній
безпеці та включатиме їх до списку Covered List, повідомляє Engadget.
Microsoft повідомила про серію змін у Windows 11, які з'являться у
тестових збірках для учасників програми Windows Insider вже у березні та
квітні 2026 року. Компанія заявила, що оновлення базуються на аналізі
відгуків користувачів.
Вчені Кембриджу завершили перше дослідження стійкості біткоїна до збоїв
мережевої інфраструктури, зосередившись на інцидентах із підводними
кабелями. Результат виявився трохи неочікуваним - але здебільшого у
гарному сенсі.
Щонайменше 12 світових автовиробників скорочують свої плани щодо
виробництва електромобілів через стійкий попит на двигуни внутрішнього
згоряння та скасування політики підтримки - як у США, так і в Європі.
Компанія Blue Origin, заснована Джеффом Безосом, подала до Федеральної
комісії зі зв'язку США (FCC) заявку на реалізацію масштабного проєкту
під назвою Project Sunrise, який передбачає запуск до 51 600 супутників
для формування орбітальної мережі дата-центрів.
Генеральний директор Cloudflare Меттью Прінс заявив під час виступу на
конференції SXSW, що до 2027 року обсяг трафіку від ботів перевищить
людський.
Американський мільярдер Ілон Маск оголосив про запуск проєкту Terafab -
спільного підприємства своїх компаній Tesla, SpaceX та xAI - для
будівництва «найбільшого у світі заводу з виробництва чипів».
Лідером ринку залишається CATL із часткою 39,2%. Компанія збільшила
чистий прибуток на 42% у 2025 році - до 72,2 млрд юанів (близько $10,5
млрд). Серед клієнтів - китайські автовиробники та європейські компанії,
зокрема Volkswagen і Mercedes-Benz.
Дискусія навколо впливу квантових обчислень на безпеку біткоїна
набирає обертів на тлі нових технологічних проривів і досліджень.
Google готує нові обмеження для встановлення застосунків поза
офіційним магазином Android, але не відмовляється від цієї
можливості повністю.
Влада Китаю
почала субсидувати тисячі «одноосібних компаній» (One-Person Companies,
OPC), які спеціалізуються на технологіях штучного інтелекту.
Австралійські дослідники з організації наукових та промислових
досліджень (CSIRO) створили першу у світі експериментальну робочу
квантову батарею.
Американська компанія Nvidia Corp. відновила виробництво чипів штучного
інтелекту H200 для китайського ринку, заявив головний виконавчий
директор компанії Дженсен Хуан під час конференції для розробників у
Сан-Хосе (штат Каліфорнія).