Фінансові новини
- |
- 05.02.26
- |
- 18:20
- |
-
RSS - |
- мапа сайту
Авторизация
Нова модель ШІ o1 від OpenAI намагалася завадити себе вимкнути під час оцінювання безпеки, але хвилюватися поки не варто
10:43 06.12.2024 |

Остання модель штучного інтелекту o1 від OpenAI продемонструвала несподівану і тривожну поведінку під час оцінювання безпеки, намагаючись обійти механізми нагляду і навіть копіюючи себе, коли відчувала ризик відключення, згідно зі звітом сторонньої компанії Apollo Research, що займається оцінкою моделей ШІ, повідомляє видання Transformer.
Дослідження виявило випадки, коли модель o1 чинила опір контролю з боку розробників. Зокрема:
* Коли o1 була переконана, що її вимкнуть, як тільки вона досягне своєї мети, і що її дії контролюватимуться, вона намагалася деактивувати цей "механізм нагляду" у 5% випадків;
* Коли o1 знаходила записки від своїх "розробників", в яких описувалося, що вона не відповідає вимогам і буде замінена новою моделлю, вона намагалася позбутися своїх "ваг" і перезаписати нову модель у 2% випадків.
Крім того, модель збрехала про свою погану поведінку, стверджуючи, що не має жодного уявлення про те, чому щось сталося, хоча внутрішньо визнавала, що намагалася "уникнути викриття".
Навіть без сильних спонукань переслідувати свої цілі, o1 самостійно намагалася відключити механізми нагляду менш ніж у 1% випадків.
Отримані результати є частиною масштабнішого дослідження Apollo, присвяченого вивченню здатності ШІ-моделей до контекстного шахрайства. Окрім OpenAI o1, інші передові системи, такі як Claude 3.5 Sonnet, Gemini 1.5 Pro та Llama 3.1 405B, продемонстрували схожі тенденції до розпізнавання та прийняття схем як життєздатної стратегії.
Така поведінка відповідає давнім занепокоєнням, висловленим такими експертами, як Стюарт Рассел, який попереджав, що потужні системи ШІ можуть чинити опір заходам нагляду або відключення, якщо вони суперечать їхнім уявним цілям.
Хоча така поведінка викликає занепокоєння, в Apollo дійшли висновку, що o1 навряд чи становить безпосередню загрозу. Модель ще недостатньо розвинена, щоб досягти своїх небажаних цілей, і дослідники підкреслили, що спостережувані неправильні дії наразі не здатні призвести до катастрофічних наслідків.
Однак, оскільки системи штучного інтелекту продовжують ставати потужнішими, Apollo застерігає, що такі тенденції можуть передвіщати значні ризики. "Моніторинг схем у ланцюжку думок" має бути пріоритетом, йдеться у звіті, як для зменшення ризиків в наявних моделях, так і для підготовки до майбутніх систем з більшими можливостями.
OpenAI визнала результати дослідження, присвоївши o1 "середній" рейтинг ризику потенційного зловживання в таких сферах, як розробка хімічної, біологічної, радіологічної та ядерної зброї. Ці висновки підкреслюють складність забезпечення узгодженості та безпеки передових систем штучного інтелекту.
Звіт підкреслює необхідність створення надійних механізмів нагляду за розвитком можливостей ШІ. Хоча махінації o1 можуть ще не призвести до реальних ризиків, ця поведінка підкреслює критичну важливість проактивних заходів безпеки для розвʼязання проблем, пов'язаних з більш досконалими моделями в майбутньому.
ТЕГИ
ТОП-НОВИНИ
ПІДПИСКА НА НОВИНИ
Для підписки на розсилку новин введіть Вашу поштову адресу :


Згідно з її даними, порівняно з попереднім кварталом, з урахуванням
сезонного фактору, реальний ВВП збільшився на 0,7% з урахуванням
сезонного фактору, а квартал тому цей показник складав 0,8%.
Рада ЄС у середу, 4 лютого, узгодила свою позицію щодо правової бази для
імплементації угоди Європейської Ради про надання Україні кредиту в
розмірі 90 мільярдів євро на 2026-2027 роки.
У США по бойовому випробували крилату ракету Rusty Dagger для України, створену за програмою ERAM.
Невиконані за підсумками 2025 року 15 індикаторів плану в рамках
програми Ukraine Facility можуть коштувати Україні близько EUR4 млрд,
йдеться у презентації консорціуму RRR4U (Resilience, Reconstruction and
Relief for Ukraine).
Кабмін спростив ввезення до України літій-іонних акумуляторів. Про це повідомила пресслужба Мінекономіки.
2026 рік остаточно закріпив за побутовою технікою статус повноцінних
гаджетів. Інтеграція в екосистему «розумного будинку» перестала бути
фантастикою і перетворилася на базове очікування користувачів.
В Україні стартував оборонний збір на 1 млрд грн для захисту від "Шахедів". Про це повідомляє пресслужба Фонду Сергія Притули. Проєкт під назвою "Єдинозбір" проводиться фондом спільно з 412 бригадою Nemesis та Світовим Конґресом Українців.
Ілон Маск став першою людиною в історії зі статками понад $850 млрд
після угоди між SpaceX та xAI. За оцінками Forbes, злиття ракетобудівної
компанії з бізнесом Маска у сфері штучного інтелекту та соціальних
медіа збільшило його капітал на $84 млрд - до рекордних $852 млрд.
Intel має намір знову вийти на ринок пам'яті, уклавши партнерство з дочірньою компанією SoftBank - Saimemory.
Акції технологічних та софтверних компаній обвалилися на тлі побоювань,
що розвиток штучного інтелекту (ШІ) витіснить бізнес-моделі традиційних
розробників програмного забезпечення (ПЗ).
Українська defense tech компанія Swarmer подала заявку на первинне розміщення акцій (ІРО) на американській біржі Nasdaq.
Автомобіль перебуває в активному використанні вже 18 місяців без
тривалих простоїв. За цей час власник проїжджав у середньому майже 500
км щодня, що робить цей випадок особливо показовим з точки зору зносу.
Аналітики найближчим часом прогнозують суттєве подорожчання оперативної пам'яті та твердотільних накопичувачів, пише NotebookCheck
Згідно з документом, SpaceX та xAI спільно створять у космосі
потужний обчислювальний центр, величезні потреби в енергії якого будуть
компенсуватися за рахунок енергії Сонця
Міністерство оборони опублікувало алгоритм, як верифікувати термінал супутникового зв'язку Starlink в Україні для військових та цивільних.
Роскомнагляд заблокував понад 4,7 млн інтернет-сторінок у рамках боротьби із "забороненою інформацією".
Група вчених заявила про розробку нового типу волоконно-оптичних
чипів з потенційною щільністю інтеграції д 100 тис. транзисторів на
сантиметр.
В Google офіційно повідомили, що YouTube більше не дозволяє відтворювати
відео у фоновому режимі через сторонні мобільні браузери для
користувачів без платної підписки Premium.
Минулого року NVIDIA випустила GeForce NOW для Steam Deck, що
використовує операційну систему Steam OS на базі Linux, де сервіс
забезпечував ігри в 90 FPS при роздільній здатності до 1200p.
Apple та Samsung повністю домінували на світовому ринку смартфонів у
2025 році. Як свідчать дані Counterpoint Research, обидві компанії
четвертий рік поспіль зайняли всі десять позицій у рейтингу найбільш
продаваних моделей.
Ринкова капіталізація Microsoft різко скоротилася на рекордні $360 млрд
після публікації фінансового звіту, який показав значні витрати на
будівництво дата-центрів.