Фінансові новини
- |
- 08.05.26
- |
- 10:29
- |
-
RSS - |
- мапа сайту
Авторизация
Нова модель ШІ o1 від OpenAI намагалася завадити себе вимкнути під час оцінювання безпеки, але хвилюватися поки не варто
10:43 06.12.2024 |

Остання модель штучного інтелекту o1 від OpenAI продемонструвала несподівану і тривожну поведінку під час оцінювання безпеки, намагаючись обійти механізми нагляду і навіть копіюючи себе, коли відчувала ризик відключення, згідно зі звітом сторонньої компанії Apollo Research, що займається оцінкою моделей ШІ, повідомляє видання Transformer.
Дослідження виявило випадки, коли модель o1 чинила опір контролю з боку розробників. Зокрема:
* Коли o1 була переконана, що її вимкнуть, як тільки вона досягне своєї мети, і що її дії контролюватимуться, вона намагалася деактивувати цей "механізм нагляду" у 5% випадків;
* Коли o1 знаходила записки від своїх "розробників", в яких описувалося, що вона не відповідає вимогам і буде замінена новою моделлю, вона намагалася позбутися своїх "ваг" і перезаписати нову модель у 2% випадків.
Крім того, модель збрехала про свою погану поведінку, стверджуючи, що не має жодного уявлення про те, чому щось сталося, хоча внутрішньо визнавала, що намагалася "уникнути викриття".
Навіть без сильних спонукань переслідувати свої цілі, o1 самостійно намагалася відключити механізми нагляду менш ніж у 1% випадків.
Отримані результати є частиною масштабнішого дослідження Apollo, присвяченого вивченню здатності ШІ-моделей до контекстного шахрайства. Окрім OpenAI o1, інші передові системи, такі як Claude 3.5 Sonnet, Gemini 1.5 Pro та Llama 3.1 405B, продемонстрували схожі тенденції до розпізнавання та прийняття схем як життєздатної стратегії.
Така поведінка відповідає давнім занепокоєнням, висловленим такими експертами, як Стюарт Рассел, який попереджав, що потужні системи ШІ можуть чинити опір заходам нагляду або відключення, якщо вони суперечать їхнім уявним цілям.
Хоча така поведінка викликає занепокоєння, в Apollo дійшли висновку, що o1 навряд чи становить безпосередню загрозу. Модель ще недостатньо розвинена, щоб досягти своїх небажаних цілей, і дослідники підкреслили, що спостережувані неправильні дії наразі не здатні призвести до катастрофічних наслідків.
Однак, оскільки системи штучного інтелекту продовжують ставати потужнішими, Apollo застерігає, що такі тенденції можуть передвіщати значні ризики. "Моніторинг схем у ланцюжку думок" має бути пріоритетом, йдеться у звіті, як для зменшення ризиків в наявних моделях, так і для підготовки до майбутніх систем з більшими можливостями.
OpenAI визнала результати дослідження, присвоївши o1 "середній" рейтинг ризику потенційного зловживання в таких сферах, як розробка хімічної, біологічної, радіологічної та ядерної зброї. Ці висновки підкреслюють складність забезпечення узгодженості та безпеки передових систем штучного інтелекту.
Звіт підкреслює необхідність створення надійних механізмів нагляду за розвитком можливостей ШІ. Хоча махінації o1 можуть ще не призвести до реальних ризиків, ця поведінка підкреслює критичну важливість проактивних заходів безпеки для розвʼязання проблем, пов'язаних з більш досконалими моделями в майбутньому.
ТЕГИ
ТОП-НОВИНИ
ПІДПИСКА НА НОВИНИ
Для підписки на розсилку новин введіть Вашу поштову адресу :


Велика Британія готується розпочати переговори щодо приєднання до
плану Європейського Союзу з надання Україні кредиту на суму 90 млрд
євро.
Франція запропонувала Греції угоду про передачу всіх її винищувачів
Mirage 2000 Україні в обмін на вигідні умови придбання винищувачів
Rafale у компанії Dassault Aviation.
Зазначається, що розгортання української системи Sky Map на авіабазі
Принца Султана, про яке раніше не повідомлялося, є ознакою того, як
українські військові значно просунулися вперед у технологіях дронів та
боротьби з ними
Посли-постійні представники країн-членів Європейського союзу схвалили як
останній законодавчий акт - зміни до регламенту про багаторічну
фінансову політику ЄС, який був необхідний для забезпечення виплати
Україні
Український президент наголосив, що відновлення "Дружби" Київ пов'язує з
розблокуванням Європейським Союзом кредиту у 90 млрд євро для потреб
України.
Посудомийна машина для багатьох сімей стала такою ж звичною, як
холодильник. Питання сьогодні - не «брати чи не брати», а під які
реальні потреби підбирати
АЗОВ.ONE та Obmify оголосили спільний збір: чим допомогти, як підтримати, куди підуть гроші. Донатьте і беріть участь у розіграші за посиланням в статті
Ford і Geely ведуть переговори щодо спільного проєкту в Іспанії, який може суттєво змінити роботу заводу Ford у Валенсії.
Браузер Google Chrome почав автоматично завантажувати локальну
ШІ-модель розміром у 4 ГБ на пристрої користувачів для роботи Gemini
Nano. Про це пише Neowin із посиланням на звіт дослідника Александра Ханффа в The Privacy Guy.
Антимонопольні регулятори Європейського Союзу вимагають, аби Google
поділилася даними свого пошукового рушія з конкурентами, як-от OpenAI.
Бенчмарк AnTuTu опублікував рейтинг найпотужніших флагманських Android-смартфонів за квітень 2026 року.
Microsoft пояснила, чому оновлення Windows 11 останнім часом займають
набагато більше часу і в деяких випадках можуть потребувати кількох
перезавантажень - але компанія каже, що це не привід для занепокоєння.
Microsoft у своєму блозі оголосила
про атракціон небаченої щедрості. Компанія вирішила переглянути
механізм оновлень Windows 11, зробивши його значно менш токсичним для
користувача.
Microsoft нарешті визнала те, що геймери та ентузіасти зрозуміли ще
пару років тому: 16 ГБ оперативної пам'яті у 2026 році - це як
намагатися запхати вміст квартири у валізу ручної поклажі.
Операцію очолила поліція Дубая під егідою МВС Об'єднаних Арабських
Еміратів. У межах заходів затримали 275 осіб у Дубаї та ще одну - у
Таїланді.
Упродовж першого кварталу 2026 року український автопарк поповнили 50,1 тис вживаних легковиків, що були ввезені з-за кордону.
Компанія Google розширила можливості свого чат-боту Gemini.
Тепер він може генерувати готові файли, придатні до завантаження та
пересилання.
Ринок пам'яті увійшов у фазу різкого подорожчання, і це вже напряму б'є по собівартості смартфонів.
Аналітичні підрозділи Coinbase Institutional та Glassnode опублікували
прогноз на II квартал 2026 року, в якому оцінили стан крипторинку як
нейтральний.
Використання штучного інтелекту вже стало повсякденною практикою для
більшості студентів і працівників, однак ключовою конкурентною перевагою
на ринку праці в найближчі роки залишатимуться не технічні, а людські
навички - комунікація, лідерство, емоційний інтелект, критичне мислення
та здатність працювати з людьми.
В Києві з 27 квітня на майданчиках КП "Київтранспарксервіс" змінюються тарифи на паркування.