Авторизация

Ім'я користувача:

Пароль:

Новини

Топ-новини

Фінансові новини

Фінанси

Банки та банківські технології

Страхування

Новини економіки

Економіка

ПЕК (газ та електроенергія)

Нафта, бензин, автогаз

Агропромисловий комплекс

Право

Міжнародні новини

Україна

Політика

Бізнес

Бізнес

Новини IT

Транспорт

Аналітика

Фінанси

Економіка

ПЕК (газ та електроенергія)

Нафта, бензин, автогаз

Агропромисловий ринок

Політика

Міжнародна аналітика

Бізнес

Прес-релізи

Новини компаній

Корирування

Курс НБУ

Курс валют

Курс долара

Курс євро

Курс британського фунта

Курс швейцарського франка

Курс канадського долара

Міжбанк

Веб-майстру

Інформери

Інформер курсів НБУ

Інформер курс обміну валют

Інформер міжбанківські курси

Графіки

Графік курсів валют НБУ

Графік курс обміну валют

Графік міжбанківській курс

Експорт новин

Інформація про BIN.ua

Про сайт BIN.ua

Реклама на сайті

Контакти

Підписка на новини

Математики розробили складні задачі для перевірки міркування Gemini, Claude та GPT-4o — вони провалили майже всі тести

09:58 21.11.2024 |

Новини IT

 

Найсучасніші моделі штучного інтелекту розв'язали лише 2% складних математичних задач, розроблених провідними математиками світу.

Дослідницький інститут Epoch AI представив новий набір тестів FrontierMath, який потребує докторського рівня математичних знань. До розробки залучили професорів математики, зокрема лауреатів Філдсівської премії. На розв'язання таких задач у математиків-докторів може йти від кількох годин до днів.

Якщо у попередніх тестах MMLU моделі ШІ успішно розв'язували 98% математичних задач шкільного та університетського рівня, то з новими завданнями ситуація кардинально інша.

«Ці завдання надзвичайно складні. Наразі їх можна розв'язати лише за участю фахівця у цій галузі або за допомогою аспіранта у суміжній сфері у поєднанні з сучасним ШІ та іншими алгебраїчними інструментами», - зазначив лауреат Філдсівської премії 2006 року Теренс Тао.

У дослідженні протестували шість провідних моделей ШІ. Gemini 1.5 Pro (002) від Google та Claude 3.5 Sonnet від Anthropic показали найкращий результат - 2% правильних відповідей. Моделі o1-preview, o1-mini та GPT-4o від OpenAI впоралися з 1% завдань, а Grok-2 Beta від xAI не змогла розв'язати жодної задачі.

FrontierMath охоплює різні математичні галузі - від теорії чисел до алгебраїчної геометрії. Усі тестові завдання доступні на вебсайті Epoch AI. Розробники створили унікальні задачі, яких немає у навчальних даних моделей ШІ.

Дослідники зазначають, що навіть коли модель надавала правильну відповідь, це не завжди свідчило про правильність міркувань - іноді результат можна було отримати через прості симуляції без глибокого математичного розуміння.

За матеріалами: ITC.ua
 

ТЕГИ

Курс НБУ на 20.12.2024
 
за
курс
uah
%
USD
1
41,9292
 0,0244
0,06
EUR
1
43,5770
 0,3811
0,87

Курс обміну валют на 20.12.24, 10:15
  куп. uah % прод. uah %
USD 41,5129  0,09 0,22 42,1729  0,06 0,13
EUR 43,3063  0,22 0,51 44,0913  0,19 0,43

Міжбанківський ринок на 20.12.24, 11:33
  куп. uah % прод. uah %
USD 41,8500  0,08 0,19 41,8700  0,08 0,19
EUR -  - - -  - -

ТОП-НОВИНИ

ПІДПИСКА НА НОВИНИ

 

Бізнес