Фінансові новини
- |
- 24.06.26
- |
- 11:12
- |
-
RSS - |
- мапа сайту
Авторизация
Математики розробили складні задачі для перевірки міркування Gemini, Claude та GPT-4o — вони провалили майже всі тести
09:58 21.11.2024 |

Найсучасніші моделі штучного інтелекту розв'язали лише 2% складних математичних задач, розроблених провідними математиками світу.
Дослідницький інститут Epoch AI представив новий набір тестів FrontierMath, який потребує докторського рівня математичних знань. До розробки залучили професорів математики, зокрема лауреатів Філдсівської премії. На розв'язання таких задач у математиків-докторів може йти від кількох годин до днів.
Якщо у попередніх тестах MMLU моделі ШІ успішно розв'язували 98% математичних задач шкільного та університетського рівня, то з новими завданнями ситуація кардинально інша.
«Ці завдання надзвичайно складні. Наразі їх можна розв'язати лише за участю фахівця у цій галузі або за допомогою аспіранта у суміжній сфері у поєднанні з сучасним ШІ та іншими алгебраїчними інструментами», - зазначив лауреат Філдсівської премії 2006 року Теренс Тао.
У дослідженні протестували шість провідних моделей ШІ. Gemini 1.5 Pro (002) від Google та Claude 3.5 Sonnet від Anthropic показали найкращий результат - 2% правильних відповідей. Моделі o1-preview, o1-mini та GPT-4o від OpenAI впоралися з 1% завдань, а Grok-2 Beta від xAI не змогла розв'язати жодної задачі.
FrontierMath охоплює різні математичні галузі - від теорії чисел до алгебраїчної геометрії. Усі тестові завдання доступні на вебсайті Epoch AI. Розробники створили унікальні задачі, яких немає у навчальних даних моделей ШІ.
Дослідники зазначають, що навіть коли модель надавала правильну відповідь, це не завжди свідчило про правильність міркувань - іноді результат можна було отримати через прості симуляції без глибокого математичного розуміння.
ТЕГИ
ТОП-НОВИНИ
ПІДПИСКА НА НОВИНИ
Для підписки на розсилку новин введіть Вашу поштову адресу :


Більшість справ, переданих до суду за результатами роботи НАЗК у
2020-2026 роках, суди закривають через порушення термінів притягнення до
відповідальності, брак доказів тощо.
Російські загарбники ударили дроном по суховантажному судні Туреччини,
внаслідок чого спалахнула масштабна пожежа, загинув моряк, решту членів
екіпажу вдалося врятували. Загалом за ніч під ворожою атакою були три
цивільні судна.
Україна та Німеччина 18 червня підписали угоду в оборонній сфері, що
стосується спільної розробки системи ППО для перехоплення балістичних
ракет.
Учасники 35-го засідання Контактної групи з питань оборони України у
форматі "Рамштайн" оголосили про виділення близько $4 млрд нової
військової допомоги Україні, повідомив міністр оборони Михайло Федоров.
Велика Британція виділяє 752 мільйони фунтів стерлінгів, аби закупити
150 тисяч безпілотників та понад 350 ракет та радарів протиповітряної
оборони для України. Про це йдеться на сайті британського уряду.
Контроль особистих фінансів не означає жити в обмеженнях; він означає розуміти, що відбувається з грошима, і приймати рішення усвідомлено.
Дізнайтеся, як облаштування тренажерного залу в офісі підвищує продуктивність команди. Поради щодо вибору професійного фітнес-обладнання від бренду Besport.
Поки світ спостерігає за гігантськими стрибками Starship, компанія
SpaceX тихо (якщо так можна сказати про гуркіт Falcon 9) розширює свій
вплив у сегментах, де гроші лежать ближче до Землі.
Нарешті це сталося: Steam Machine доступна для передзамовлення у підтримуваних регіонах, разом зі складною чергою. Очікується, що система бронювання діятиме протягом року.
Міжнародний логістичний гігант DHL заявив, що співпрацюватиме з
французькою компанією Vela, що експлуатує вантажні судна на вітровій
тязі.
Sandisk презентувала нову лінійку SSD для PS5 за шаленими цінами.
Фахівці компанії Zimperium повідомили про виявлення небезпечного
Android‑трояна під назвою Rokarolla, який здатний викрадати облікові
дані та іншу конфіденційну інформацію з понад 200 додатків для
банківських операцій та криптовалют
На Unreal Fest NVIDIA оголосила
про випуск бета-версії ACE Game Agent SDK. Цей фреймворк призначений
для створення локальних ігрових персонажів зі штучним інтелектом. SDK
постачається разом із набором плагінів NVIDIA ACE для Unreal Engine 5.
Microsoft нарешті вирішила звернути увагу на одну з найбільш
дратівливих особливостей своєї операційної системи. Компанія випустила
попередню збірку Windows 11 Insider Preview Build 26300.8687 для
експериментального каналу, яка обіцяє покласти край нескінченним циклам
оновлень.
Найбільший український мобільний оператор "Київстар" оголосив про запуск
роботи месенджерів Viber, WhatsApp та застосунку навігації Google Maps
через технологію Starlink Direct to Cell (D2C, прямий супутниковий
зв'язок зі смартфоном) у режимі Light Data, повідомив президент та СЕО
компанії Олександр Комаров
Попри те, що 68% українських IT-компаній залишаються прибутковими,
понад 31% юридичних осіб у сфері інформаційних технологій завершили 2025
рік зі збитками.
Два оновлення для браузера Google Chrome, які вийдуть цього
літа, усунуть обхідні шляхи для запуску старих блокувальників реклами,
на кшталт uBlock Origin
Кілька днів тому стало відомо, що новій главі XBOX Аші Шармі (Asha Sharma) поставлено завдання
збільшити прибутковість бренду, оскільки вище керівництво Microsoft
відмовляється надалі проводити безрезультатні вливання мільярдів
доларів.
Американські компанії активно нарощують найм фахівців зі штучного
інтелекту, однак скористатися цим бумом можуть переважно досвідчені
працівники.
Stellantis, Volkswagen і Renault об'єдналися, щоб закликати до
спрощення правил і запровадження стимулів для виробництва продукції з
маркуванням "Зроблено в Європі" та протидії китайським виробникам
електромобілів.
TSMC розробляє нову технологію пакування мікросхем під назвою CoPoS
(Chip-on-Panel-on-Structure), яка може знизити собівартість виробництва
чипів та покращити їхню продуктивність.