Фінансові новини
- |
- 26.03.26
- |
- 04:24
- |
-
RSS - |
- мапа сайту
Авторизация
Математики розробили складні задачі для перевірки міркування Gemini, Claude та GPT-4o — вони провалили майже всі тести
09:58 21.11.2024 |

Найсучасніші моделі штучного інтелекту розв'язали лише 2% складних математичних задач, розроблених провідними математиками світу.
Дослідницький інститут Epoch AI представив новий набір тестів FrontierMath, який потребує докторського рівня математичних знань. До розробки залучили професорів математики, зокрема лауреатів Філдсівської премії. На розв'язання таких задач у математиків-докторів може йти від кількох годин до днів.
Якщо у попередніх тестах MMLU моделі ШІ успішно розв'язували 98% математичних задач шкільного та університетського рівня, то з новими завданнями ситуація кардинально інша.
«Ці завдання надзвичайно складні. Наразі їх можна розв'язати лише за участю фахівця у цій галузі або за допомогою аспіранта у суміжній сфері у поєднанні з сучасним ШІ та іншими алгебраїчними інструментами», - зазначив лауреат Філдсівської премії 2006 року Теренс Тао.
У дослідженні протестували шість провідних моделей ШІ. Gemini 1.5 Pro (002) від Google та Claude 3.5 Sonnet від Anthropic показали найкращий результат - 2% правильних відповідей. Моделі o1-preview, o1-mini та GPT-4o від OpenAI впоралися з 1% завдань, а Grok-2 Beta від xAI не змогла розв'язати жодної задачі.
FrontierMath охоплює різні математичні галузі - від теорії чисел до алгебраїчної геометрії. Усі тестові завдання доступні на вебсайті Epoch AI. Розробники створили унікальні задачі, яких немає у навчальних даних моделей ШІ.
Дослідники зазначають, що навіть коли модель надавала правильну відповідь, це не завжди свідчило про правильність міркувань - іноді результат можна було отримати через прості симуляції без глибокого математичного розуміння.
ТЕГИ
ТОП-НОВИНИ
ПІДПИСКА НА НОВИНИ
Для підписки на розсилку новин введіть Вашу поштову адресу :


Україна сподівається залучити у Міжнародної фінансової корпорації
розвитку США (DFC) кредит на $1,4 мільярда для закупівлі обладнання для видобутку газу.
Премʼєр-міністр України Юлія Свириденко зазначила 4 млн 764 тис. 661 грн
доходів в електронній декларації про майно та доходи за 2025 рік.
Державна служба статистики зафіксувала аномально різке зростання індексу
цін виробників у лютому - на 22,3% у місячному вираженні.
Процес продовження бронювання працівників на порталі "Дія" спростили і
тепер перебронювання відбувається автоматично і не потребує попереднього
анулювання чинного статусу.
Прем'єр-міністр Іспанії Педро Санчес повідомив про рішення виділити у
2026 році EUR1 млрд на військову підтримку України, значну частину з них
буде надано через програму оборонних позик Європейського Союзу SAFE.
Дізнайтеся, як обрати аромадифузор для спальні, ванної та вітальні: враховуйте тип, аромат, об'єм флакону та насиченість запаху для комфортної атмосфери
АЗОВ.ONE та Obmify оголосили спільний збір: чим допомогти, як підтримати, куди підуть гроші. Донатьте і беріть участь у розіграші за посиланням в статті
Google оголосила
про масштабне оновлення для Google TV, яке інтегрує три нові можливості
на базі Gemini. Мета нововведень - перетворити телевізор на активного
помічника, який забезпечує не лише розваги, а й інформативний контент.
Федеральна комісія зі зв'язку США (FCC) визнала всі нові моделі
маршрутизаторів, виготовлені за межами країни, загрозою національній
безпеці та включатиме їх до списку Covered List, повідомляє Engadget.
Microsoft повідомила про серію змін у Windows 11, які з'являться у
тестових збірках для учасників програми Windows Insider вже у березні та
квітні 2026 року. Компанія заявила, що оновлення базуються на аналізі
відгуків користувачів.
Вчені Кембриджу завершили перше дослідження стійкості біткоїна до збоїв
мережевої інфраструктури, зосередившись на інцидентах із підводними
кабелями. Результат виявився трохи неочікуваним - але здебільшого у
гарному сенсі.
Щонайменше 12 світових автовиробників скорочують свої плани щодо
виробництва електромобілів через стійкий попит на двигуни внутрішнього
згоряння та скасування політики підтримки - як у США, так і в Європі.
Компанія Blue Origin, заснована Джеффом Безосом, подала до Федеральної
комісії зі зв'язку США (FCC) заявку на реалізацію масштабного проєкту
під назвою Project Sunrise, який передбачає запуск до 51 600 супутників
для формування орбітальної мережі дата-центрів.
Генеральний директор Cloudflare Меттью Прінс заявив під час виступу на
конференції SXSW, що до 2027 року обсяг трафіку від ботів перевищить
людський.
Американський мільярдер Ілон Маск оголосив про запуск проєкту Terafab -
спільного підприємства своїх компаній Tesla, SpaceX та xAI - для
будівництва «найбільшого у світі заводу з виробництва чипів».
Лідером ринку залишається CATL із часткою 39,2%. Компанія збільшила
чистий прибуток на 42% у 2025 році - до 72,2 млрд юанів (близько $10,5
млрд). Серед клієнтів - китайські автовиробники та європейські компанії,
зокрема Volkswagen і Mercedes-Benz.
Дискусія навколо впливу квантових обчислень на безпеку біткоїна
набирає обертів на тлі нових технологічних проривів і досліджень.
Google готує нові обмеження для встановлення застосунків поза
офіційним магазином Android, але не відмовляється від цієї
можливості повністю.
Влада Китаю
почала субсидувати тисячі «одноосібних компаній» (One-Person Companies,
OPC), які спеціалізуються на технологіях штучного інтелекту.
Австралійські дослідники з організації наукових та промислових
досліджень (CSIRO) створили першу у світі експериментальну робочу
квантову батарею.
Американська компанія Nvidia Corp. відновила виробництво чипів штучного
інтелекту H200 для китайського ринку, заявив головний виконавчий
директор компанії Дженсен Хуан під час конференції для розробників у
Сан-Хосе (штат Каліфорнія).