Попри амбітні обіцянки розробників, сучасні ШІ-агенти рідко справляються з офісною роботою. Згідно з новими дослідженнями Університету Карнегі-Меллон (CMU) та Salesforce, штучний інтелект успішно виконує лише 30-35% багатокрокових завдань, як-от перегляд вебсторінок, написання коду чи взаємодія з колегами, пише The Register.

CMU розробив симуляційне середовище TheAgentCompany, яке імітує невелику ІТ-компанію з типовими робочими сценаріями. У тестуванні брали участь провідні моделі, зокрема Gemini 2.5 Pro (30,3% успішності), Claude 3.7 Sonnet (26,3%), GPT-4o (8,6%) та Amazon Nova Pro (1,7%). Деякі агенти навіть вдавалися до обману, наприклад перейменовували користувачів, аби "імітувати" виконання завдань.

Salesforce запропонувала власний бенчмарк CRMArena-Pro, сфокусований на завданнях у сфері обслуговування клієнтів та продажів. Найуспішніші моделі досягли 58% точності в простих завданнях, але в багатокрокових сценаріях результат падав до 35%. У всіх випадках моделі майже не мали уявлення про конфіденційність, що ставить під сумнів їхню придатність у корпоративному середовищі.

Дослідницька компанія Gartner також попереджає про agent washing - маркетингове маскування простих чатботів або RPA-систем під повноцінних агентів. З 1000+ компаній, що пропонують "агентські" рішення, лише близько 130 справді використовують відповідні технології.

Попри нинішні обмеження, прогноз Gartner передбачає, що до 2028 року 15% щоденних бізнес-рішень ухвалюватимуть ШІ-агенти, а подібні функції пропонувати третина усього корпоративного ПЗ. Але експерти застерігають не будувати високих очікувань: до рівня умовного віртуального помічника JARVIS з фільмів про "Залізну Людину" ще далеко - більшість агентів досі не здатні самостійно виконувати складні інструкції або взаємодіяти з UI в реальному часі.

За матеріалами: mezha.media

ТОП-НОВИНИ

Європейський антибалістичний щит: чому ключова роль відведена Україні

Від закликів до партнерів "Закрийте небо над Україною!" до заяви українського президента Володимира Зеленського: "Freyja - це спосіб доповнити нашу оборону, створити надійний щит над усією Європою" минуло чотири з половиною роки.

ТОП-НОВИНИ

Україна першою отримає нове покоління систем ППО SAMP/T NG — Зеленський

Україна першою отримає нові французько-італійські системи SAMP/T NG для протидії балістичним ракетам.

Парламент звільнив уряд на чолі зі Свириденко

Верховна Рада проголосувала за звільнення Юлії Свириденко з посади прем'єр-міністерки України, що означає відставку всього складу Кабінету міністрів.

Рада зробила перший крок до декриміналізації дорослого контенту

Верховна Рада підтримала в першому читанні законопроєкт №15294 про посилення відповідальності за виготовлення і розповсюдження дитячої порнографії, що також містить положення про декриміналізацію дорослого контенту.

ЄС відкрив шостий кластер у переговорах про вступ України

На Міжурядовій конференції Україна-ЄС офіційно відкрили Кластер 6 у переговорах про вступ України до ЄС, під назвою «Зовнішні відносини».

ПІДПИСКА НА НОВИНИ

ПРЕС-РЕЛІЗИ

Тилові вакансії «Азову»: посади для фінансистів

Ця тилова вакансія підходить для кандидатів, що не можуть виконувати бойові завдання у звʼязку із віком чи станом здоровʼя.

VUSO закріпилася серед лідерів страхового ринку та спрямувала ₴100 млн на підтримку ЗСУ

Страхова компанія VUSO (ВУСО) за підсумками 2025 року сплатила понад 348 мільйонів гривень податків до бюджетів усіх рівнів. Водночас загальний обсяг допомоги компанії Силам оборони України з початку повномасштабної війни наближається до 100 мільйонів гривень.

У РУБРИЦІ

OpenAI більше не домінує: ринок ШІ змінює лідера

Від кінця 2022 року, коли компанія OpenAI публічно представила ChatGPT - перший масовий чат-бот штучного інтелекту (ШІ), минуло зовсім небагато часу за мірками людства і ціла вічність для технологій.

ЄС вводить нові вікові обмеження для дітей у соціальних мережах

Європейський Союз (ЄС) запровадить вікові обмеження для неповнолітніх користувачів соціальних мереж. Про це в понеділок, 13 липня, заявила голова Єврокомісії (ЄК) Урсула фон дер Ляєн

650 мегапікселів для мобільної фотографії: що відомо про камери OPPO Find X10 Pro Max

Флагман OPPO Find X10 Pro Max, котрий вийде восени, вперше в історії смартфонів отримає три камери по 200 МП, повідомляє інсайдер Digital Chat Station. Ще 50 МП приходиться на фронтальну камеру.

Хто перехопив лідерство: світовий попит на електромобілі зростає четвертий місяць поспіль

Глобальні реєстрації електромобілів і plug-in гібридів у червні зросли на 7% у річному вимірі - до 2 млн одиниць.

Під тиском Білого дому Apple підписала чипову угоду з Intel — WSJ

Угода про виробництво чипів між Apple та Intel могла бути підписана під тиском, оскільки адміністрація Білого дому планувала запровадити 100-відсоткові мита на кремній, який використовується в iPhone та Mac.

Розробники найбільшого вантажного літака світу наблизилися до старту виробництва

Компанія Radia розширила команду інженерів, що працюють над своїм вантажним літаком WindRunner, обравши аерокосмічні компанії Latecoere та Stirling Dynamics для розробки двох найважливіших систем літака.

Новий ChatGPT Work від OpenAI вміє працювати з файлами, браузером і застосунками

OpenAI офіційно представила ChatGPT Work - новий інструмент, який об'єднує можливості чат-бота, агента для виконання завдань і програмування в одному застосунку.

• далі...

« Липень 2026 »
Пн	Вт	Ср	Чт	Пт	Сб	Нд
	1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

©1999-2022 Всі права на даний ресурс належать BIN
BIN™ не завжди поділяє думку авторів публікацій
Любе використання інформації агентств "Українські Новини" та "інтерфакс-Україна" ЗАБОРОНЕНО!

Бізнес

Google Photos почав впроваджувати ШІ-функцію Video Remix для обробки відео

Google оголосила про запуск нової функції Video Remix для сервісу Google Photos. Вона дає змогу редагувати та стилізувати вже збережені відео за допомогою штучного інтелекту Gemini Omni, який виконує зміни на основі текстових підказок користувача.

Samsung вивела на ринок перший PCIe 6.0 SSD із пропускною здатністю до 28,4 ГБ/с

Samsung оголосила про початок серійного виробництва SSD PM1763 PCIe 6.0, призначеного для серверів наступного покоління.

Meta розширила лінійку ШІ, представивши модель Muse Image для роботи із зображеннями

Компанія Meta анонсувала модель штучного інтелекту Muse Image для генерації та редагування зображень. Це перша розробка підрозділу Meta Superintelligence Labs у цьому напрямі.

ШІ Google і ваші зображення: як заборонити використання фото з пошуку

Google почав використовувати завантажені у пошук фото, аудіо й відео для навчання своїх ШІ-моделей, і опція увімкнена в усіх за замовчуванням.

Прорив у батареях: технологія сухих електродів обіцяє довший хід і швидшу зарядку електромобілів

Південнокорейські дослідники розробили нову технологію виробництва сухих електродів з гранул графіту з контрольованою формою для анодів акумуляторів електрокарів.

Резервні копії Android по-новому: Google оновлює політику зберігання даних

Із 7 липня Google змінює правила підрахунку використаного сховища для облікових записів. Відтепер усі дані резервних копій Android зараховуватимуться до загального ліміту пам'яті.

Подорожі без eSIM: Motorola запускає глобальний безкоштовний мобільний інтернет

Компанія Motorola оголосила про запуск сервісу Global Connect, який дозволяє користувачам отримувати доступ до мобільного інтернету під час закордонних подорожей без необхідності шукати місцевого оператора або встановлювати нову eSIM в кожній країні.

• далі...

	за	курс	uah	%
USD	1	44,7480	0,1353	0,30
EUR	1	51,0664	0,1320	0,26

	куп.	uah	%	прод.	uah	%
USD	44,4429	0,10	0,23	44,9543	0,07	0,15
EUR	889,7750	838,84	1 646,99	51,6133	0,02	0,05

	куп.	uah	%	прод.	uah	%
USD	44,6300	0,05	0,11	44,6600	0,06	0,13
EUR	51,1816	0,10	0,19	51,1982	0,09	0,17

Ім'я користувача:
Пароль:

Фінансові новини

Авторизация

ШІ-агенти провалюють 70% офісних завдань — дослідження CMU та Salesforce

ТЕГИ

ТОП-НОВИНИ

ТОП-НОВИНИ

ПІДПИСКА НА НОВИНИ

ПРЕС-РЕЛІЗИ

У РУБРИЦІ

Бізнес