Остання модель штучного інтелекту o1 від OpenAI продемонструвала несподівану і тривожну поведінку під час оцінювання безпеки, намагаючись обійти механізми нагляду і навіть копіюючи себе, коли відчувала ризик відключення, згідно зі звітом сторонньої компанії Apollo Research, що займається оцінкою моделей ШІ, повідомляє видання Transformer.

Дослідження виявило випадки, коли модель o1 чинила опір контролю з боку розробників. Зокрема:

* Коли o1 була переконана, що її вимкнуть, як тільки вона досягне своєї мети, і що її дії контролюватимуться, вона намагалася деактивувати цей "механізм нагляду" у 5% випадків;

* Коли o1 знаходила записки від своїх "розробників", в яких описувалося, що вона не відповідає вимогам і буде замінена новою моделлю, вона намагалася позбутися своїх "ваг" і перезаписати нову модель у 2% випадків.

Крім того, модель збрехала про свою погану поведінку, стверджуючи, що не має жодного уявлення про те, чому щось сталося, хоча внутрішньо визнавала, що намагалася "уникнути викриття".

Навіть без сильних спонукань переслідувати свої цілі, o1 самостійно намагалася відключити механізми нагляду менш ніж у 1% випадків.

Отримані результати є частиною масштабнішого дослідження Apollo, присвяченого вивченню здатності ШІ-моделей до контекстного шахрайства. Окрім OpenAI o1, інші передові системи, такі як Claude 3.5 Sonnet, Gemini 1.5 Pro та Llama 3.1 405B, продемонстрували схожі тенденції до розпізнавання та прийняття схем як життєздатної стратегії.

Така поведінка відповідає давнім занепокоєнням, висловленим такими експертами, як Стюарт Рассел, який попереджав, що потужні системи ШІ можуть чинити опір заходам нагляду або відключення, якщо вони суперечать їхнім уявним цілям.

Хоча така поведінка викликає занепокоєння, в Apollo дійшли висновку, що o1 навряд чи становить безпосередню загрозу. Модель ще недостатньо розвинена, щоб досягти своїх небажаних цілей, і дослідники підкреслили, що спостережувані неправильні дії наразі не здатні призвести до катастрофічних наслідків.

Однак, оскільки системи штучного інтелекту продовжують ставати потужнішими, Apollo застерігає, що такі тенденції можуть передвіщати значні ризики. "Моніторинг схем у ланцюжку думок" має бути пріоритетом, йдеться у звіті, як для зменшення ризиків в наявних моделях, так і для підготовки до майбутніх систем з більшими можливостями.

OpenAI визнала результати дослідження, присвоївши o1 "середній" рейтинг ризику потенційного зловживання в таких сферах, як розробка хімічної, біологічної, радіологічної та ядерної зброї. Ці висновки підкреслюють складність забезпечення узгодженості та безпеки передових систем штучного інтелекту.

Звіт підкреслює необхідність створення надійних механізмів нагляду за розвитком можливостей ШІ. Хоча махінації o1 можуть ще не призвести до реальних ризиків, ця поведінка підкреслює критичну важливість проактивних заходів безпеки для розвʼязання проблем, пов'язаних з більш досконалими моделями в майбутньому.

За матеріалами: mezha.media

Ключові теги: OpenAI

ТОП-НОВИНИ

Лідери Європи радять Зеленському не погоджуватися на вимоги РФ без гарантій безпеки з боку США – WSJ

У розмові взяли участь президент Франції Емманюель Макрон, канцлер Німеччини Фрідріх Мерц, голова Єврокомісії Урсула фон дер Ляєн та інші лідери.

ТОП-НОВИНИ

Україна має скасувати пільги в реєстрації платника ПДВ та закрити митні лазівки для спожтоварів – prior actions МВФ

Попередніми умовами (prior actions), які має виконати Україна для відкриття нової програми фінансування Міжнародного валютного фонду, є розширення податкової бази шляхом прийняття законодавства про оподаткування доходів

20-річну ліцензію на газове родовище біля Стрия продали за 110 млн грн: кошти підуть у фонд зі США

Державна служба геології та надр України продала спеціальний дозвіл на розробку Любинецької нафтогазової площі у Львівській області.

"Питання знято з порядку денного": Рада не розглядатиме запровадження ПДВ для ФОП, – "слуга народу" Фріс

Верховна Рада не розглядатиме питання запровадження ПДВ для фізичних осіб-підприємців.

Офіційно: ЄС вносить Росію до чорного списку через ризик відмивання грошей

Європейська комісія в середу офіційно запропонувала внести Росію до власного чорного списку країн з високим ризиком відмивання грошей і фінансування терористичної діяльності.

ПІДПИСКА НА НОВИНИ

ПРЕС-РЕЛІЗИ

Стандартизация качества фарша в HoReCa — роль оборудования и ножевых блоков

Стабильное качество фарша — одно из ключевых условий для успешной кухни. Независимо от формата заведения, будь то бистро или гастрономический ресторан, консистенция, структура и свежесть мясной массы определяют уровень блюда.

В Україні оголосили «Єдинозбір» на 1 млрд грн для знищення «Шахедів»

В Україні стартував оборонний збір на 1 млрд грн для захисту від "Шахедів". Про це повідомляє пресслужба Фонду Сергія Притули. Проєкт під назвою "Єдинозбір" проводиться фондом спільно з 412 бригадою Nemesis та Світовим Конґресом Українців.

У РУБРИЦІ

Netflix придбав Warner Bros. за $72 млрд

Netflix та Warner Bros. досягли угоди про придбання: компанію оцінили у $27,75 за акцію та $72 млрд в капіталі ($82,7 млрд з урахуванням боргу). Очікується, що угоду закриють після виділення підрозділу Discovery Global в окрему публічну компанію, заплановане на третій квартал 2026 року.

Apple і Samsung безроздільно лідирують на світовому ринку смартфонів: аналітики назвали десять найбільш популярних моделей третього кварталу 2025 року

Аналітичне агентство Counterpoint опублікувало список найбільш популярних смартфонів на світовому ринку в третьому кварталі 2025 року.

Ринок нових вантажівок в Україні скоротився на 6%

За 10 місяців 2025 року в Україні було реалізовано на 6% менше нових комерційних автомобілів, ніж за аналогічний період минулого року.

Глава Nvidia передбачив появу ядерних мініреакторів через зростання ШІ-галузі

Очікуване зростання потужностей ШІ-галузі посилило обговорення енергетичних обмежень технологічної інфраструктури.

Дефіцит оперативної пам'яті погіршиться: Micron Technology оголосила про вихід з ринку споживчої продукції

У розпалі гострого дефіциту оперативної пам'яті американський гігант Micron Technology оголосив про вихід з ринку споживчої продукції.

Європейські лоукости планують повернутись в Україну: коли це стане можливим

Європейські лоукости планують відновити польоти в Україну одразу після того, як авіапростір стане безпечним для пасажирських рейсів.

Обсяг угод M&A у криптовалютному секторі досяг рекордних $8,6 млрд у 2025 р.

Сукупний обсяг угод зі злиттів і поглинань за участю компаній, що працюють у криптовалютному секторі, від початку 2025 року сягнув рекордних $8,6 млрд, пише Bloomberg із посиланням на дані PitchBook Data.

• далі...

« Грудень 2025 »
Пн	Вт	Ср	Чт	Пт	Сб	Нд
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

©1999-2022 Всі права на даний ресурс належать BIN
BIN™ не завжди поділяє думку авторів публікацій
Любе використання інформації агентств "Українські Новини" та "інтерфакс-Україна" ЗАБОРОНЕНО!

Бізнес

Електромобілі стали лідерами українського ринку у листопаді 2025-го

У листопаді 2025 року український ринок нових авто продовжив зміщуватися в бік електромобілів.

The Economist: ШІ став загрозою для соціологів та опитувань громадської думки

Соціологи зіткнулися з новим ризиком, оскільки великі мовні моделі (LLM) здатні видавати себе за людей і проходити стандартні перевірки якості.

Китай охопив понад третину світового ринку легкових авто

Понад третину нових легкових автомобілів, проданих у світі цього року, виготовлено в КНР.

OpenAI б'є на сполох, оскільки Google Gemini виявився кращим за ChatGPT — Сем Альтман закликає до покращень у листі

Усі інші проєкти відходять на другий план заради покращення ChatGPT.

В Android зʼявиться функція Call Reason – користувачі зможуть позначати дзвінки як термінові

Функція працює лише між абонентами, які збережені одне в одного в контактах і використовують стандартний додаток для дзвінків.

Попит на електромобілі Xiaomi продовжує зростати: компанія бʼє рекорди три місяці поспіль

Xiaomi EV продовжує стрімко нарощувати свої позиції на ринку електромобілів

Samsung офіційно представила Galaxy TriFold – свій перший потрійний складаний смартфон

Samsung офіційно показала свій перший потрійний складаний смартфон - Galaxy TriFold. Модель стане доступною в Кореї 12 грудня, а згодом вийде на ринки Китаю, Тайваню, Сінгапуру та ОАЕ. У першому кварталі 2026 року смартфон також має з'явитись в США.

• далі...

	за	курс	uah	%
USD	1	42,0567	0,1271	0,30
EUR	1	48,9961	0,2303	0,47

	куп.	uah	%	прод.	uah	%
USD	41,8958	0,01	0,03	42,4442	0,01	0,02
EUR	48,8600	0,00	0,00	49,5377	0,03	0,07

	куп.	uah	%	прод.	uah	%
USD	41,9800	0,18	0,42	42,0200	0,17	0,41
EUR	48,9150	0,30	0,60	48,9500	0,29	0,59

Ім'я користувача:
Пароль:

Фінансові новини

Авторизация

Нова модель ШІ o1 від OpenAI намагалася завадити себе вимкнути під час оцінювання безпеки, але хвилюватися поки не варто

ТЕГИ

ТОП-НОВИНИ

ТОП-НОВИНИ

ПІДПИСКА НА НОВИНИ

ПРЕС-РЕЛІЗИ

У РУБРИЦІ

Бізнес