Фінансові новини
- |
- 30.03.26
- |
- 05:45
- |
-
RSS - |
- мапа сайту
Авторизация
Генеративний ШІ «божеволіє» після п’яти ітерацій навчання на матеріалах, створених ШІ – дослідження Стендфордського університету
09:47 14.07.2023 |
Нове дослідження виявило обмеження сучасних генеративних моделей штучного інтелекту, таких як ChatGPT чи Midjourney. Моделі, які навчаються на даних, згенерованих ШІ, тексти або зображення, мають тенденцію «божеволіти» після п'яти циклів навчання. Зображення вище показує наочний результат таких експериментів.
MAD (Model Autophagy Disorder) - абревіатура, що використовується дослідниками Райс та Стенфордського університету для опису того, як якість видачі моделей ШІ деградує при багаторазовому навчанні на даних, згенерованих ШІ. Як випливає з назви, модель «поїдає сама себе». Він втрачає інформацію про «хвости» (крайні точки) вихідного розподілу даних і починає виводити результати, які більше відповідають середньому представленню.
Навчання LLM (великих мовних моделей) на власних (або аналогічних) результатах створює ефект конвергенції. Це легко побачити на наведеному вище графіку, яким поділився член дослідницької групи Ніколас Пейпернот. Послідовні ітерації навчання на даних, згенерованих LLM, призводять до того, що модель поступово (але досить різко) втрачає доступ до даних, які лежать на периферії графіка.
Дані на краях спектра (те, що має менше варіацій і менш представлене) практично зникають. Через це дані, що залишаються у моделі, тепер менш різноманітні та регресують до середнього значення. Згідно з результатами, потрібно близько п'яти ітерацій, допоки «хвости» вихідного розподілу не зникнуть.
Не підтверджено, що така аутофагія впливає на всі моделі ШІ, але дослідники перевірили його на автокодувальниках, змішаних моделях Гауса та великих мовних моделях. Всі вони широко поширені та працюють у різних сферах: передбачають популярність, обробляють статистику, стискають, обробляють та генерують зображення.
Дослідження говорить, що ми не маємо справу з нескінченним джерелом генерації даних: не можна необмежено отримувати їх, навчивши модель один раз і далі ґрунтуючись на її власних результатах. Якщо модель, що отримала комерційне використання, насправді була навчена на власних вихідних даних, то ця модель, ймовірно, регресувала до середнього значення і є упередженою, тому що не враховує дані, які були б у меншості.
Ще одним важливим моментом, висунутим результатами, є проблема походження даних: тепер стає ще важливішим мати можливість відокремити «вихідні» дані від «штучних». Якщо ви не можете визначити, які дані були створені LLM або програмою для створення зображень, ви можете випадково включити їх у навчальні дані для свого продукту.
На жаль, цей «поїзд» багато в чому пішов: існує ненульова кількість немаркованих даних, які вже були створені цими типами мереж і включені в інші системи. Дані, створені ШІ, стрімко поширюються, і 100% способу відрізнити їх немає, тим більше для самих ШІ.
ТЕГИ
ТОП-НОВИНИ
ПІДПИСКА НА НОВИНИ
Для підписки на розсилку новин введіть Вашу поштову адресу :


Верховна Рада розгляне законопроєкт №11115 щодо регулювання діяльності
Telegram та інших цифрових платформ. Документ уже отримав одноголосну
підтримку профільного парламентського комітету. Про це повідомив автор
законопроєкту народний депутат Микола Княжицький.
Україна сподівається залучити у Міжнародної фінансової корпорації
розвитку США (DFC) кредит на $1,4 мільярда для закупівлі обладнання для видобутку газу.
Премʼєр-міністр України Юлія Свириденко зазначила 4 млн 764 тис. 661 грн
доходів в електронній декларації про майно та доходи за 2025 рік.
Державна служба статистики зафіксувала аномально різке зростання індексу
цін виробників у лютому - на 22,3% у місячному вираженні.
Процес продовження бронювання працівників на порталі "Дія" спростили і
тепер перебронювання відбувається автоматично і не потребує попереднього
анулювання чинного статусу.
Дізнайтеся, як обрати аромадифузор для спальні, ванної та вітальні: враховуйте тип, аромат, об'єм флакону та насиченість запаху для комфортної атмосфери
АЗОВ.ONE та Obmify оголосили спільний збір: чим допомогти, як підтримати, куди підуть гроші. Донатьте і беріть участь у розіграші за посиланням в статті
Поки власники сучасних смартфонів з острахом дивляться на прогноз
погоди, де обіцяють бодай -10°C, китайські вчені вирішили зайти з
козирів.
Google оголосила
про масштабне оновлення для Google TV, яке інтегрує три нові можливості
на базі Gemini. Мета нововведень - перетворити телевізор на активного
помічника, який забезпечує не лише розваги, а й інформативний контент.
Федеральна комісія зі зв'язку США (FCC) визнала всі нові моделі
маршрутизаторів, виготовлені за межами країни, загрозою національній
безпеці та включатиме їх до списку Covered List, повідомляє Engadget.
Microsoft повідомила про серію змін у Windows 11, які з'являться у
тестових збірках для учасників програми Windows Insider вже у березні та
квітні 2026 року. Компанія заявила, що оновлення базуються на аналізі
відгуків користувачів.
Вчені Кембриджу завершили перше дослідження стійкості біткоїна до збоїв
мережевої інфраструктури, зосередившись на інцидентах із підводними
кабелями. Результат виявився трохи неочікуваним - але здебільшого у
гарному сенсі.
Щонайменше 12 світових автовиробників скорочують свої плани щодо
виробництва електромобілів через стійкий попит на двигуни внутрішнього
згоряння та скасування політики підтримки - як у США, так і в Європі.
Компанія Blue Origin, заснована Джеффом Безосом, подала до Федеральної
комісії зі зв'язку США (FCC) заявку на реалізацію масштабного проєкту
під назвою Project Sunrise, який передбачає запуск до 51 600 супутників
для формування орбітальної мережі дата-центрів.
Китайські дослідники, схоже, знайшли спосіб обійти одну з найдорожчих
перешкод на шляху до квантового майбутнього. Йдеться про критичну
залежність від гелію-3 - надзвичайно рідкісного ізотопу, ціна якого
змушує фінансових директорів технологічних компаній нервово здригатися.
Американський мільярдер Ілон Маск оголосив про запуск проєкту Terafab -
спільного підприємства своїх компаній Tesla, SpaceX та xAI - для
будівництва «найбільшого у світі заводу з виробництва чипів».
Лідером ринку залишається CATL із часткою 39,2%. Компанія збільшила
чистий прибуток на 42% у 2025 році - до 72,2 млрд юанів (близько $10,5
млрд). Серед клієнтів - китайські автовиробники та європейські компанії,
зокрема Volkswagen і Mercedes-Benz.
Дискусія навколо впливу квантових обчислень на безпеку біткоїна
набирає обертів на тлі нових технологічних проривів і досліджень.
Google готує нові обмеження для встановлення застосунків поза
офіційним магазином Android, але не відмовляється від цієї
можливості повністю.
Влада Китаю
почала субсидувати тисячі «одноосібних компаній» (One-Person Companies,
OPC), які спеціалізуються на технологіях штучного інтелекту.
Австралійські дослідники з організації наукових та промислових
досліджень (CSIRO) створили першу у світі експериментальну робочу
квантову батарею.