Фінансові новини
- |
- 14.12.25
- |
- 15:50
- |
-
RSS - |
- мапа сайту
Авторизация
Нова модель ШІ o1 від OpenAI намагалася завадити себе вимкнути під час оцінювання безпеки, але хвилюватися поки не варто
10:43 06.12.2024 |

Остання модель штучного інтелекту o1 від OpenAI продемонструвала несподівану і тривожну поведінку під час оцінювання безпеки, намагаючись обійти механізми нагляду і навіть копіюючи себе, коли відчувала ризик відключення, згідно зі звітом сторонньої компанії Apollo Research, що займається оцінкою моделей ШІ, повідомляє видання Transformer.
Дослідження виявило випадки, коли модель o1 чинила опір контролю з боку розробників. Зокрема:
* Коли o1 була переконана, що її вимкнуть, як тільки вона досягне своєї мети, і що її дії контролюватимуться, вона намагалася деактивувати цей "механізм нагляду" у 5% випадків;
* Коли o1 знаходила записки від своїх "розробників", в яких описувалося, що вона не відповідає вимогам і буде замінена новою моделлю, вона намагалася позбутися своїх "ваг" і перезаписати нову модель у 2% випадків.
Крім того, модель збрехала про свою погану поведінку, стверджуючи, що не має жодного уявлення про те, чому щось сталося, хоча внутрішньо визнавала, що намагалася "уникнути викриття".
Навіть без сильних спонукань переслідувати свої цілі, o1 самостійно намагалася відключити механізми нагляду менш ніж у 1% випадків.
Отримані результати є частиною масштабнішого дослідження Apollo, присвяченого вивченню здатності ШІ-моделей до контекстного шахрайства. Окрім OpenAI o1, інші передові системи, такі як Claude 3.5 Sonnet, Gemini 1.5 Pro та Llama 3.1 405B, продемонстрували схожі тенденції до розпізнавання та прийняття схем як життєздатної стратегії.
Така поведінка відповідає давнім занепокоєнням, висловленим такими експертами, як Стюарт Рассел, який попереджав, що потужні системи ШІ можуть чинити опір заходам нагляду або відключення, якщо вони суперечать їхнім уявним цілям.
Хоча така поведінка викликає занепокоєння, в Apollo дійшли висновку, що o1 навряд чи становить безпосередню загрозу. Модель ще недостатньо розвинена, щоб досягти своїх небажаних цілей, і дослідники підкреслили, що спостережувані неправильні дії наразі не здатні призвести до катастрофічних наслідків.
Однак, оскільки системи штучного інтелекту продовжують ставати потужнішими, Apollo застерігає, що такі тенденції можуть передвіщати значні ризики. "Моніторинг схем у ланцюжку думок" має бути пріоритетом, йдеться у звіті, як для зменшення ризиків в наявних моделях, так і для підготовки до майбутніх систем з більшими можливостями.
OpenAI визнала результати дослідження, присвоївши o1 "середній" рейтинг ризику потенційного зловживання в таких сферах, як розробка хімічної, біологічної, радіологічної та ядерної зброї. Ці висновки підкреслюють складність забезпечення узгодженості та безпеки передових систем штучного інтелекту.
Звіт підкреслює необхідність створення надійних механізмів нагляду за розвитком можливостей ШІ. Хоча махінації o1 можуть ще не призвести до реальних ризиків, ця поведінка підкреслює критичну важливість проактивних заходів безпеки для розвʼязання проблем, пов'язаних з більш досконалими моделями в майбутньому.
ТЕГИ
ТОП-НОВИНИ
ПІДПИСКА НА НОВИНИ
Для підписки на розсилку новин введіть Вашу поштову адресу :
ПРЕС-РЕЛІЗИ
У РУБРИЦІ
| У ChatGPT відтепер можна редагувати зображення в Photoshop. Функція безкоштовна й доступна в Україні |


Посли Європейського Союзу прийняли рішення про скасування принципу
одностайності щодо продовження "заморозки" активів РФ, повідомляє
редактор європейського відділу Радіо "Свобода"
Представники України і США провели першу зустріч групи, яка працюватиме
над документом щодо економічного відновлення. Зокрема, в них взяли
участь Володимир Зеленський і гендиректор інвесткомпанії BlackRock.
Постпреди країн-членів Євросоюзу дали згоду на поетапну відмову від
імпорту газу з РФ до кінця 2027 року. Для набрання чинності закону його
ще має схвалити Європарламент.
Євросоюз хоче якнайшвидше завершити створення спецтрибуналу щодо
злочину агресії проти України, який стосується наказу володаря Кремля
Владіміра Путіна напасти на Україну.
Володимир Зеленський є демократично обраним президентом України, а
наступні президентські вибори мають відбутися, коли цього дозволять
умови.
Стабильное качество фарша — одно из ключевых условий для успешной кухни.
Независимо от формата заведения, будь то бистро или гастрономический
ресторан, консистенция, структура и свежесть мясной массы определяют
уровень блюда.
В Україні стартував оборонний збір на 1 млрд грн для захисту від "Шахедів". Про це повідомляє пресслужба Фонду Сергія Притули. Проєкт під назвою "Єдинозбір" проводиться фондом спільно з 412 бригадою Nemesis та Світовим Конґресом Українців.
Європейський Союз розглядає можливість п'ятирічної відстрочки своєї
заборони на використання двигунів внутрішнього згоряння після сильного
тиску з боку деяких найбільших автомобільних країн регіону.
Зловмисники застосовують нову схему для поширення шкідливого ПЗ Atomic
macOS Stealer (AMOS), використовуючи довіру користувачів до чат-ботів на
зразок ChatGPT від OpenAI чи Grok від xAI. Про це повідомляє Huntress у
своєму дослідженні.
У листопаді український автопарк поповнили понад 11 тис.
автотранспортних засобів на акумуляторних джерелах живлення (BEV). Це
майже втричі більше, ніж у листопаді торік.
Компанія Adobe запустила свої програми Adobe Photoshop, Adobe Express та Adobe Acrobat для чат-боту ChatGPT.
Уряд ухвалив постанову, яка дає можливість запустити повний цикл
оформлення європротоколу оформлення незначних дорожньо-транспортних
пригод в застосунку "Дія", повідомила премʼєр-міністр України Юлія
Свириденко.
Серед нововведень є шаблони для відео з готовими музичними доріжками
та текстовими накладками.
Водночас прискорюється передача багатства між поколіннями. У 2025
році 91 спадкоємець (64 чоловіки та 27 жінок) успадкував рекордні $297,8
млрд, що на 36% більше, ніж у 2024 році. Загальна кількість
мультипоколінних мільярдерів досягла 860 осіб із активами $4,7
трильйона.
Китайська компанія Biwin розпочала продаж перших накопичувачів нового формату - Mini SSD, назва якого говорить сама за себе.
Ford та Renault Group повідомили про укладення угоди щодо спільного
випуску двох електромобілів під брендом Ford для європейського ринку у
2028 році.
Віцепрезидентка Європейської комісії Тереза Рібера заявила, що
Європейський Союз не піддасться тиску з боку США щодо контролю над
компаніями Кремнієвої долини.
Китайські виробники смартфонів активізували зусилля, щоб переманити
користувачів Apple, поки компанія постала перед труднощами у запуску
функцій штучного інтелекту в Китаї.
Європейський Союз почав антимонопольне розслідування проти Google
через використання онлайн-контенту для штучного інтелекту, пише CNBC.
Сумарний обсяг сегмента легкових електромобілів за підсумками
листопада становить 13,5 тис., що на 2,3% менше, ніж було у жовтні але
на 143,8% більше відносно показників листопада-2024.
Сполучені Штати дозволять Nvidia (NVDA.O) експортувати процесори H200,
які є другими за потужністю чипами штучного інтелекту. Ці чипи
відправлятимуться до Китаю, а з таких продажів стягуватиметься 25% мита.