Авторизация

Ім'я користувача:

Пароль:

Новини

Топ-новини

Фінансові новини

Фінанси

Банки та банківські технології

Страхування

Новини економіки

Економіка

ПЕК (газ та електроенергія)

Нафта, бензин, автогаз

Агропромисловий комплекс

Право

Міжнародні новини

Україна

Політика

Бізнес

Бізнес

Новини IT

Транспорт

Аналітика

Фінанси

Економіка

ПЕК (газ та електроенергія)

Нафта, бензин, автогаз

Агропромисловий ринок

Політика

Міжнародна аналітика

Бізнес

Прес-релізи

Новини компаній

Корирування

Курс НБУ

Курс валют

Курс долара

Курс євро

Курс британського фунта

Курс швейцарського франка

Курс канадського долара

Міжбанк

Веб-майстру

Інформери

Інформер курсів НБУ

Інформер курс обміну валют

Інформер міжбанківські курси

Графіки

Графік курсів валют НБУ

Графік курс обміну валют

Графік міжбанківській курс

Експорт новин

Інформація про BIN.ua

Про сайт BIN.ua

Реклама на сайті

Контакти

Підписка на новини

ШІ-агенти провалюють 70% офісних завдань — дослідження CMU та Salesforce

15:59 30.06.2025 |

Новини IT

 

Попри амбітні обіцянки розробників, сучасні ШІ-агенти рідко справляються з офісною роботою. Згідно з новими дослідженнями Університету Карнегі-Меллон (CMU) та Salesforce, штучний інтелект успішно виконує лише 30-35% багатокрокових завдань, як-от перегляд вебсторінок, написання коду чи взаємодія з колегами, пише The Register.

CMU розробив симуляційне середовище TheAgentCompany, яке імітує невелику ІТ-компанію з типовими робочими сценаріями. У тестуванні брали участь провідні моделі, зокрема Gemini 2.5 Pro (30,3% успішності), Claude 3.7 Sonnet (26,3%), GPT-4o (8,6%) та Amazon Nova Pro (1,7%). Деякі агенти навіть вдавалися до обману, наприклад перейменовували користувачів, аби "імітувати" виконання завдань.

Salesforce запропонувала власний бенчмарк CRMArena-Pro, сфокусований на завданнях у сфері обслуговування клієнтів та продажів. Найуспішніші моделі досягли 58% точності в простих завданнях, але в багатокрокових сценаріях результат падав до 35%. У всіх випадках моделі майже не мали уявлення про конфіденційність, що ставить під сумнів їхню придатність у корпоративному середовищі.

Дослідницька компанія Gartner також попереджає про agent washing - маркетингове маскування простих чатботів або RPA-систем під повноцінних агентів. З 1000+ компаній, що пропонують "агентські" рішення, лише близько 130 справді використовують відповідні технології.

Попри нинішні обмеження, прогноз Gartner передбачає, що до 2028 року 15% щоденних бізнес-рішень ухвалюватимуть ШІ-агенти, а подібні функції пропонувати третина усього корпоративного ПЗ. Але експерти застерігають не будувати високих очікувань: до рівня умовного віртуального помічника JARVIS з фільмів про "Залізну Людину" ще далеко - більшість агентів досі не здатні самостійно виконувати складні інструкції або взаємодіяти з UI в реальному часі.

За матеріалами: mezha.media
 

ТЕГИ

Курс НБУ на завтра
 
за
курс
uah
%
USD
1
41,7824
 0,0086
0,02
EUR
1
48,9815
 0,1194
0,24

Курс обміну валют на вчора, 09:43
  куп. uah % прод. uah %
USD 41,4959  0,15 0,37 41,9094  0,06 0,14
EUR 48,7600  0,08 0,16 49,3735  0,08 0,16

Міжбанківський ринок на 25.07.25, 11:33
  куп. uah % прод. uah %
USD 41,7700  0,04 0,10 41,7800  0,04 0,10
EUR -  - - -  - -

ТОП-НОВИНИ

ПІДПИСКА НА НОВИНИ

 

Бізнес