Дослідницький інститут Epoch AI представив новий набір тестів FrontierMath, який потребує докторського рівня математичних знань. До розробки залучили професорів математики, зокрема лауреатів Філдсівської премії. На розв'язання таких задач у математиків-докторів може йти від кількох годин до днів.

Якщо у попередніх тестах MMLU моделі ШІ успішно розв'язували 98% математичних задач шкільного та університетського рівня, то з новими завданнями ситуація кардинально інша.

«Ці завдання надзвичайно складні. Наразі їх можна розв'язати лише за участю фахівця у цій галузі або за допомогою аспіранта у суміжній сфері у поєднанні з сучасним ШІ та іншими алгебраїчними інструментами», - зазначив лауреат Філдсівської премії 2006 року Теренс Тао.

У дослідженні протестували шість провідних моделей ШІ. Gemini 1.5 Pro (002) від Google та Claude 3.5 Sonnet від Anthropic показали найкращий результат - 2% правильних відповідей. Моделі o1-preview, o1-mini та GPT-4o від OpenAI впоралися з 1% завдань, а Grok-2 Beta від xAI не змогла розв'язати жодної задачі.

FrontierMath охоплює різні математичні галузі - від теорії чисел до алгебраїчної геометрії. Усі тестові завдання доступні на вебсайті Epoch AI. Розробники створили унікальні задачі, яких немає у навчальних даних моделей ШІ.

Дослідники зазначають, що навіть коли модель надавала правильну відповідь, це не завжди свідчило про правильність міркувань - іноді результат можна було отримати через прості симуляції без глибокого математичного розуміння.

За матеріалами: ITC.ua

ТОП-НОВИНИ

МВФ cхвалив новий транш для України в розмірі $1,1 мільярда

За результатами засідання в п'ятницю щодо шостого перегляду поточної програми МВФ для України Виконавча рада Фонду ухвалила рішення про виділення нашій країні наступного траншу в розмірі $1,1 мільярда.

ТОП-НОВИНИ

FT: Трамп сказав Європі, що його адміністрація продовжить підтримку України

За словами трьох джерел FT, поінформованих про переговори із західними посадовцями, Трамп має намір продовжити постачання американської військової продукції Україні після своєї інавгурації.

56 нардепів попросили КСУ заборонити конкурси за участі міжнародників: чим це загрожує

Тимошенко і ще 55 депутатів хочуть зупинити участь міжнародних експертів у відборі суддів, керівників НАБУ, САП, митниці та інших органів. Усі ці конкурси були маяками МВФ і їх скасування ставить під загрозу зриву програму з МВФ.

Голова Представництва НАТО: Не слід витрачати час на розмови про російські ядерні загрози через брязкання зброєю з боку Путіна

" Ми ставимося до цього дуже серйозно. Ми не бачимо серйозних фактичних змін у ядерній політиці Росії. Останнім часом щонайменше двічі було сказано, що Росія переглянула свою ядерну доктрину, але ми не бачимо зростання реальної загрози", - Патрік Тернер.

Нацбанк пом'якшив деякі валютні обмеження для бізнесу

Зокрема, пом'якшується заборона на купівлю-продаж банківських металів. Крім того, регулятор розширює дозвіл на купівлю валюти для оператора ядерних установок. Водночас НБУ продовжує уніфікацію підходів до сплати українським бізнесом купонів за єврооблігаціями.

ПІДПИСКА НА НОВИНИ

ПРЕС-РЕЛІЗИ

Вийшла друком книга Залужного «Моя війна»

«Моя війна» - перша частина трилогії, яку становитимуть книжки «Моя війна», «Наша війна» та «Їхня війна».

Книжку має 248 сторінок, тканинну обкладинку із тисненням та картонний шубер.

У РУБРИЦІ

Акціонери Intel позиваються до Пета Гелсінгера — вимагають повернути зарплату за три роки

Акціонери Intel з LR Trust позивається до колишнього та нинішнього керівників компанії щодо політики керування Intel Foundry і хоче відсудити сотні мільйонів доларів.

OpenAI запустила в широкий доступ інтернет-пошук на базі ChatGPT

Американський ШІ-стартап OpenAI відкрив доступ до пошукового сервісу ChatGPT Search усім користувачам, пише Barron's. Раніше він був доступний тільки передплатникам.

Китайський робокоп вперше вийшов на патрулювання вулиць: він нагадує BB-8 з «Зоряних війн»

Робот Rotunbot RT-G має сферичну форму та великі гумові шини, що дозволяють долати перешкоди та навіть пересуватися водою. Він вміє користуватися нелетальною зброєю: викидати сітку та розпилювати сльозогінний газ для застосування проти правопорушників.

Майбутнє геймінгу: Sony та AMD об’єднуються для впровадження штучного інтелекту в ігри

Марк Черні, головний архітектор PlayStation 5 та PS5 Pro, оголосив про початок поглибленої співпраці між Sony та AMD у сфері технологій машинного навчання для відеоігор. Проєкт отримав кодову назву «Amethyst», поєднуючи червоний колір AMD та синій PlayStation.

Користувачі в США можуть телефонувати до ChatGPT на 1-800-ChatGPT, щоб отримати відповіді без мережі

OpenAI представила нову функцію для користувачів США: тепер можна дзвонити або надсилати SMS на номер 1-800-ChatGPT (1-800-242-8478), щоб отримати відповіді від ChatGPT.

Голосовий асистент Mercedes отримав розширені функції штучного інтелекту

Голосовий асистент MBUX в автомобілях Mercedes-Benz отримує покращення завдяки розширеним можливостям ШІ. Користувачі зможуть отримувати відповіді на будь-які загальні запитання за допомогою ChatGPT та Bing.

Акаунти Roblox використовували, щоб затягнути дітей в азартні ігри та казино

Діти з акаунтами в Roblox мали змогу грати в казино, використовуючи внутрішньоігрову валюту для ставок. Щонайменше вісім сайтів дозволяли неповнолітнім брати участь в азартних іграх, таких як слоти та блекджек.

• далі...

« Грудень 2024 »
Пн	Вт	Ср	Чт	Пт	Сб	Нд
	1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

©1999-2022 Всі права на даний ресурс належать BIN
BIN™ не завжди поділяє думку авторів публікацій
Любе використання інформації агентств "Українські Новини" та "інтерфакс-Україна" ЗАБОРОНЕНО!

Бізнес

У США можуть заборонити роутери TP-Link через загрозу нацбезпеці

Влада США розслідує, чи становить китайська компанія, чий популярний домашній інтернет-маршрутизатор пов'язують із кібератаками, загрозу національній безпеці, та розглядає можливість заборони її пристроїв.

Конго подає кримінальні скарги проти Apple через «криваві” мінерали

Apple France, Apple Retail France та Apple Retail Belgium звинувачують у приховуванні воєнних злочинів, відмиванні забруднених корисних копалин, обробці вкрадених товарів та здійсненні оманливих комерційних дій для забезпечення чистоти ланцюжків постачання.

Ірландія оштрафувала Meta на 251 млн євро за витік даних із Facebook

Цього року Ірландія вже штрафувала Meta на 91 млн євро за ненадійність системи управління паролями.

ЗМІ розкрили технічні характеристики відеокарт GeForce RTX 5060 та RTX 5060 Ti від NVIDIA

За інформацією Wccftech виробник не стане змінювати 128-бітну шину пам'яті - вона буде такою ж, як у відеокарт 40-ої серії. При цьому RTX 5060 і RTX 5060 Ti отримають GDDR7-відеопам'ять. Обсяг відеопам'яті у RTX 5060 буде 8 ГБ, а у потужнішої RTX 5060 Ti - 16 ГБ.

Honda і Nissan ведуть переговори про злиття

Об'єднання створить компанію вартістю 54 млрд доларів з річним обсягом виробництва 7,4 млн автомобілів, що зробить її третьою за величиною автомобільною групою у світі за обсягом продажів автомобілів після Toyota і Volkswagen.

ЄС розпочав розслідування щодо TikTok через ризики безпеки під час виборів у Румунії

Розслідування розпочалося в рамках Закону про цифрові послуги (DSA), який, серед іншого, відповідає за забезпечення цілісності демократичних процесів. І це вже друге розслідування в ЄС проти TikTok, яке пов'язане з DSA.

ChatGPT від OpenAI тепер зможе реагувати на відео у реальному часі

OpenAI представила нову функцію ChatGPT - відтепер чат-бот матиме «очі» та зможе реагувати на відео та голос у реальному часі завдяки розширеному голосовому режиму Advanced Voice.

• далі...

	за	курс	uah	%
USD	1	41,9292	0,0244	0,06
EUR	1	43,5770	0,3811	0,87

	куп.	uah	%	прод.	uah	%
USD	41,5129	0,09	0,22	42,1729	0,06	0,13
EUR	43,3063	0,22	0,51	44,0913	0,19	0,43

	куп.	uah	%	прод.	uah	%
USD	41,8500	0,08	0,19	41,8700	0,08	0,19
EUR	-	-	-	-	-	-

Ім'я користувача:
Пароль:

Фінансові новини

Авторизация

Математики розробили складні задачі для перевірки міркування Gemini, Claude та GPT-4o — вони провалили майже всі тести

ТЕГИ

ТОП-НОВИНИ

ТОП-НОВИНИ

ПІДПИСКА НА НОВИНИ

ПРЕС-РЕЛІЗИ

У РУБРИЦІ

Бізнес