Фінансові новини
- |
- 25.01.26
- |
- 02:33
- |
-
RSS - |
- мапа сайту
Авторизация
Математики розробили складні задачі для перевірки міркування Gemini, Claude та GPT-4o — вони провалили майже всі тести
09:58 21.11.2024 |

Найсучасніші моделі штучного інтелекту розв'язали лише 2% складних математичних задач, розроблених провідними математиками світу.
Дослідницький інститут Epoch AI представив новий набір тестів FrontierMath, який потребує докторського рівня математичних знань. До розробки залучили професорів математики, зокрема лауреатів Філдсівської премії. На розв'язання таких задач у математиків-докторів може йти від кількох годин до днів.
Якщо у попередніх тестах MMLU моделі ШІ успішно розв'язували 98% математичних задач шкільного та університетського рівня, то з новими завданнями ситуація кардинально інша.
«Ці завдання надзвичайно складні. Наразі їх можна розв'язати лише за участю фахівця у цій галузі або за допомогою аспіранта у суміжній сфері у поєднанні з сучасним ШІ та іншими алгебраїчними інструментами», - зазначив лауреат Філдсівської премії 2006 року Теренс Тао.
У дослідженні протестували шість провідних моделей ШІ. Gemini 1.5 Pro (002) від Google та Claude 3.5 Sonnet від Anthropic показали найкращий результат - 2% правильних відповідей. Моделі o1-preview, o1-mini та GPT-4o від OpenAI впоралися з 1% завдань, а Grok-2 Beta від xAI не змогла розв'язати жодної задачі.
FrontierMath охоплює різні математичні галузі - від теорії чисел до алгебраїчної геометрії. Усі тестові завдання доступні на вебсайті Epoch AI. Розробники створили унікальні задачі, яких немає у навчальних даних моделей ШІ.
Дослідники зазначають, що навіть коли модель надавала правильну відповідь, це не завжди свідчило про правильність міркувань - іноді результат можна було отримати через прості симуляції без глибокого математичного розуміння.
ТЕГИ
ТОП-НОВИНИ
ПІДПИСКА НА НОВИНИ
Для підписки на розсилку новин введіть Вашу поштову адресу :


Президент України Володимир Зеленський повідомив, що на зустрічі з
президентом США Дональдом Трампом домовився про пакет ракет PAC-3 для
Patriot.
Президент України Володимир Зеленський заявив, що лідер США Дональд Трамп підтримує ідею про зону вільної торгівлі для України.
Рішення ухвалили після завершення наприкінці грудня 2025 року обміну
українських ВВП-варантів на нові цінні папери з погашенням у 2032-му.
Агентство також присвоїло їм рейтинг "CCC+".
Президент України Володимир Зеленський заявив, що документ про гарантії
безпеки для України вже готовий до підписання, коли це станеться -
залежить від США.
Європейський Союз та США близькі до угоди щодо "плану процвітання" для
України, який грунтується на п'яти стовпах: продуктивність, інтеграція
України в ринок ЄС, інвестиції, донори та реформи.
Українська універсальна біржа з понад 25-річним досвідом лише за минулий рік провела 7,7 тис. біржових торгів.
В Україні стартував оборонний збір на 1 млрд грн для захисту від "Шахедів". Про це повідомляє пресслужба Фонду Сергія Притули. Проєкт під назвою "Єдинозбір" проводиться фондом спільно з 412 бригадою Nemesis та Світовим Конґресом Українців.
Компанія BlackRock опублікувала тематичний прогноз на 2026 рік, в якому виділила дві ключові зв'язки трендів. Йдеться про прискорення розвитку ШІ на тлі зростання геополітичної конкуренції та зростаючої залежності цифрової економіки від фізичної інфраструктури.
Компанія Blue Origin, яку підтримує Джефф Безос, представила
супутникову мережу TeraWave, що позиціонується як конкурент SpaceX
Starlink. У Blue Origin заявляють про пропускну здатність до 6 Тбіт/с в
обидва боки.
Компанія Microsoft оголосила про доступність застосунку Xbox для всіх
комп'ютерів з Windows 11 на базі ARM-процесорів. Відтепер користувачі
ARM-версії Windows мають повноцінну можливість купувати, завантажувати
та стрімити ігри через застосунок Xbox.
Фінансовий директор OpenAI Сара Фрайар повідомила, що річний дохід
компанії у 2025 році перевищив $20 млрд. Про це вона написала в
корпоративному блозі, зазначивши, що ще у 2024 році цей показник
становив близько $6 млрд.
Українці придбали майже 29 300 легкових автомобілів з Китаю у 2025 році.
Про це повідомляє Укравтопром. Китайські машини зайняли 29,5% ринку
нових легковиків, причому абсолютна більшість (91%) - це електромобілі.
Соціальна мережа Threads від Meta обігнала X за кількістю щоденних
активних користувачів на смартфонах. Водночас платформа Ілона Маска,
раніше відома як Twitter, залишається лідером у вебі, повідомляє
TechCrunch посилаючись на звіт Similarweb.
ASUS уперше офіційно прокоментувала свою відмову від випуску нових
смартфонів. Хоча повідомлення про таке рішення з'явилися ще на початку
2026 року, компанія підтвердила й пояснила його лише зараз, передає
Android Authority.
Компанія OpenAI оголосила про запуск тестування рекламних оголошень у
сервісі ChatGPT. Відтепер частина користувачів у США, які користуються
безкоштовним планом або новим тарифом Go за $7 на місяць, бачитимуть
рекламу в інтерфейсі чат-бота.
З 1 квітня в Китаї набудуть чинності нові національні стандарти з
переробки тягових батарей електромобілів. Ключовим елементом реформи
стане єдина державна інформаційна платформа, яка дозволить відстежувати
батареї протягом усього життєвого циклу
У червні 2025 року родина президента США Дональда Трампа запустила
оператора віртуальної мережі мобільного зв'язку Trump Mobile та заразом представила власний смартфон - T1 Phone.
Рада ЄС ухвалила поправку до регламенту, що дозволить сприяти створенню гігафабрик штучного інтелекту (ШІ) у Європі.
Кількість абонентів "Київстару", які зареєструвалися для використання
технології Starlink Direct to Cell (D2C, прямий супутниковий зв'язок зі
смартфоном) від часу її запуску у листопаді 2025 року, перевищила 3 млн
абонентів, найактивніше сервісом користуються в Києві, Львові, Вінниці,
Хмельницькому та Дніпрі
Згідно з угодою, тайванські компанії з виробництва мікросхем та
технологій інвестують щонайменше $250 млрд у виробничі потужності в США,
а уряд Тайваню гарантуватиме цим компаніям кредит на $250 млрд.
США впроваджують 25% мита на певні чипи для штучного інтелекту, вироблені на Тайвані, зокрема NVIDIA H200. Як передає
Bloomberg, уряд буде стягувати мито з мікросхем, які ввозяться до США
перед остаточною відправкою китайським клієнтам та на інші закордонні
ринки.