Фінансові новини
- |
- 16.04.26
- |
- 15:13
- |
-
RSS - |
- мапа сайту
Авторизация
![]() | |
|
"Коли зачинились одні двері, відкриваються інші, але ми цього часто не помічаємо, втупившись у зачинені двері" Гелен Келлер |
Нова модель ШІ o1 від OpenAI намагалася завадити себе вимкнути під час оцінювання безпеки, але хвилюватися поки не варто
10:43 06.12.2024 |

Остання модель штучного інтелекту o1 від OpenAI продемонструвала несподівану і тривожну поведінку під час оцінювання безпеки, намагаючись обійти механізми нагляду і навіть копіюючи себе, коли відчувала ризик відключення, згідно зі звітом сторонньої компанії Apollo Research, що займається оцінкою моделей ШІ, повідомляє видання Transformer.
Дослідження виявило випадки, коли модель o1 чинила опір контролю з боку розробників. Зокрема:
* Коли o1 була переконана, що її вимкнуть, як тільки вона досягне своєї мети, і що її дії контролюватимуться, вона намагалася деактивувати цей "механізм нагляду" у 5% випадків;
* Коли o1 знаходила записки від своїх "розробників", в яких описувалося, що вона не відповідає вимогам і буде замінена новою моделлю, вона намагалася позбутися своїх "ваг" і перезаписати нову модель у 2% випадків.
Крім того, модель збрехала про свою погану поведінку, стверджуючи, що не має жодного уявлення про те, чому щось сталося, хоча внутрішньо визнавала, що намагалася "уникнути викриття".
Навіть без сильних спонукань переслідувати свої цілі, o1 самостійно намагалася відключити механізми нагляду менш ніж у 1% випадків.
Отримані результати є частиною масштабнішого дослідження Apollo, присвяченого вивченню здатності ШІ-моделей до контекстного шахрайства. Окрім OpenAI o1, інші передові системи, такі як Claude 3.5 Sonnet, Gemini 1.5 Pro та Llama 3.1 405B, продемонстрували схожі тенденції до розпізнавання та прийняття схем як життєздатної стратегії.
Така поведінка відповідає давнім занепокоєнням, висловленим такими експертами, як Стюарт Рассел, який попереджав, що потужні системи ШІ можуть чинити опір заходам нагляду або відключення, якщо вони суперечать їхнім уявним цілям.
Хоча така поведінка викликає занепокоєння, в Apollo дійшли висновку, що o1 навряд чи становить безпосередню загрозу. Модель ще недостатньо розвинена, щоб досягти своїх небажаних цілей, і дослідники підкреслили, що спостережувані неправильні дії наразі не здатні призвести до катастрофічних наслідків.
Однак, оскільки системи штучного інтелекту продовжують ставати потужнішими, Apollo застерігає, що такі тенденції можуть передвіщати значні ризики. "Моніторинг схем у ланцюжку думок" має бути пріоритетом, йдеться у звіті, як для зменшення ризиків в наявних моделях, так і для підготовки до майбутніх систем з більшими можливостями.
OpenAI визнала результати дослідження, присвоївши o1 "середній" рейтинг ризику потенційного зловживання в таких сферах, як розробка хімічної, біологічної, радіологічної та ядерної зброї. Ці висновки підкреслюють складність забезпечення узгодженості та безпеки передових систем штучного інтелекту.
Звіт підкреслює необхідність створення надійних механізмів нагляду за розвитком можливостей ШІ. Хоча махінації o1 можуть ще не призвести до реальних ризиків, ця поведінка підкреслює критичну важливість проактивних заходів безпеки для розвʼязання проблем, пов'язаних з більш досконалими моделями в майбутньому.
ТЕГИ
ТОП-НОВИНИ
ПІДПИСКА НА НОВИНИ
Для підписки на розсилку новин введіть Вашу поштову адресу :


Партнери України за підсумками засідання Контактної групи з питань
оборони України (у форматі «Рамштайн») 15 квітня вирішили виділити для
Києва чотири мільярди доларів на посилення ППО і понад півтора мільярда
доларів - на безпілотники.
Велика Британія надасть Україні новий пакет оборонної допомоги, який
передбачає щонайменше 120 тисяч дронів цього року, заявив британський
уряд 15 квітня.
Під час українсько-німецьких урядових консультацій 14 квітня в Берліні
німецька компанія Quantum Systems оголосила про створення двох
додаткових спільних підприємств у рамках ініціативи «Будуй з Україною».
Україна та Німеччина підписали три угоди в оборонній сфері на чотири
мільярди євро. Вони спрямовані на посилення ППО, розвиток далекобійних
спроможностей та спільне виробництво дронів.
Прем'єр-міністр Норвегії Йонас Ран Стере заявив,
що перші з шести винищувачів F-16, які його країна обіцяла Києву,
незабаром будуть готові до експлуатації.
На початку 2026 року Національний банк України вперше зробив окремий
список небанківських фінансових компаній, які суттєво впливають на
ринок.
АЗОВ.ONE та Obmify оголосили спільний збір: чим допомогти, як підтримати, куди підуть гроші. Донатьте і беріть участь у розіграші за посиланням в статті
Компанія Anthropic,
один із головних конкурентів OpenAI, офіційно запровадила процедуру KYC
(Know Your Customer) для окремих користувачів своєї платформи Claude.
YouTube додав новий ліміт часу для перегляду Shorts. Фактично, він
дозволяє взагалі прибрати короткі відео із стрічки, пише The Verge.
Google представила Gemini Robotics-ER 1.6 - оновлення своєї моделі
робототехніки, орієнтованої на мислення, що дозволяє роботам розуміти
оточення з "безпрецедентною точністю".
Штучний інтелект (ШІ) - це фундаментальний зсув у галузі фінансів, він
дуже суттєво та в короткі терміни її змінить, заявив глобальний керівник
напряму цифрових банків у BBVA, однієї з найбільших фінансових груп
світу, Мурат Калкан.
У криптоіндустрії набирає обертів дискусія щодо майбутнього безпеки
біткоїна на тлі розвитку квантових обчислень. Група розробників на чолі з
Джеймсоном Лоппом опублікувала
пропозицію BIP-361, яка передбачає поетапне заморожування монет, що
залишаються вразливими до квантових атак - включно з потенційними
активами Сатоші Накамото у $74 млрд.
Онлайн-платформа для бронювання житла Booking.com підтвердила витік
особистих даних клієнтів. Йдеться про імена, email-адреси та деталі
бронювання, повідомляє TechCrunch.
Інвестиційний гігант BlackRock у своєму прогнозі на ІІ квартал 2026
року зафіксував різку зміну динаміки глобальних ринків: після кількох
років домінування технологічних гігантів і теми штучного інтелекту (ШІ)
інвестори почали переоцінювати ризики та шукати нові точки зростання.
Microsoft пришвидшила початкове налаштування Windows 11 (OOBE): як
зазначає Neowin, тепер дозволено пропускати обов'язкові оновлення, коли
систему запускають вперше на новому ПК.
Компанія SiFive, заснована у 2015 році інженерами з Каліфорнійського
університету в Берклі, які розробили проєкт мікросхеми з відкритим
вихідним кодом, залучила додаткові $400 млн у рамках раунду
фінансування, який перевищив пропозицію, оцінивши компанію в $3,65 млрд
Південна Корея вводить універсальний базовий доступ до мобільного
інтернету для громадян на швидкості до 400 Кбіт/с, повідомляє The
Register з посиланням на місцеву владу.
Криптоіндустрія прискорює розробку рішень для протидії потенційним
атакам квантових комп'ютерів.
Експорт електромобілів та гібридних авто з Китаю в березні цього року
зріс більш ніж удвічі, до рекордного рівня, оскільки глобальний
енергетичний шок, спричинений війною в Ірані, відновив інтерес до
електрокарів.
Amazon оголосила про плани запустити власний супутниковий
інтернет-сервіс Leo у середині 2026 року. Про це повідомив генеральний
директор компанії Енді Джессі у щорічному листі до акціонерів, пише
Engadget.
Схоже, епоха, коли мобільні процесори скромно тулилися в тіні
настільних рішень, остаточно добігає кінця. MediaTek, яка останні кілька
років активно витісняє конкурентів з преміального сегмента, готує
справжнього монстра - Dimensity 9600 Pro.