Фінансові новини
- |
- 26.05.26
- |
- 17:00
- |
-
RSS - |
- мапа сайту
Авторизация
ШІ-агенти провалюють 70% офісних завдань — дослідження CMU та Salesforce
15:59 30.06.2025 |

Попри амбітні обіцянки розробників, сучасні ШІ-агенти рідко справляються з офісною роботою. Згідно з новими дослідженнями Університету Карнегі-Меллон (CMU) та Salesforce, штучний інтелект успішно виконує лише 30-35% багатокрокових завдань, як-от перегляд вебсторінок, написання коду чи взаємодія з колегами, пише The Register.
CMU розробив симуляційне середовище TheAgentCompany, яке імітує невелику ІТ-компанію з типовими робочими сценаріями. У тестуванні брали участь провідні моделі, зокрема Gemini 2.5 Pro (30,3% успішності), Claude 3.7 Sonnet (26,3%), GPT-4o (8,6%) та Amazon Nova Pro (1,7%). Деякі агенти навіть вдавалися до обману, наприклад перейменовували користувачів, аби "імітувати" виконання завдань.
Salesforce запропонувала власний бенчмарк CRMArena-Pro, сфокусований на завданнях у сфері обслуговування клієнтів та продажів. Найуспішніші моделі досягли 58% точності в простих завданнях, але в багатокрокових сценаріях результат падав до 35%. У всіх випадках моделі майже не мали уявлення про конфіденційність, що ставить під сумнів їхню придатність у корпоративному середовищі.
Дослідницька компанія Gartner також попереджає про agent washing - маркетингове маскування простих чатботів або RPA-систем під повноцінних агентів. З 1000+ компаній, що пропонують "агентські" рішення, лише близько 130 справді використовують відповідні технології.
Попри нинішні обмеження, прогноз Gartner передбачає, що до 2028 року 15% щоденних бізнес-рішень ухвалюватимуть ШІ-агенти, а подібні функції пропонувати третина усього корпоративного ПЗ. Але експерти застерігають не будувати високих очікувань: до рівня умовного віртуального помічника JARVIS з фільмів про "Залізну Людину" ще далеко - більшість агентів досі не здатні самостійно виконувати складні інструкції або взаємодіяти з UI в реальному часі.
ТЕГИ
ТОП-НОВИНИ
ПІДПИСКА НА НОВИНИ
Для підписки на розсилку новин введіть Вашу поштову адресу :


Всередині травня 36 країн та Європейський Союз (ЄС) офіційно підтвердили
свій намір приєднатися до нової Розширеної часткової угоди про
створення Керівного комітету Спеціального трибуналу щодо злочину агресії
проти України.
Держдепартамент США ухвалив рішення
схвалити можливий продаж Україні обладнання для зенітно-ракетного
комплексу HAWK. Орієнтовна вартість пакета становить 108,1 млн доларів.
Суд у Казахстані дозволив примусове стягнення з російського Газпрому
$1,4 млрд на користь НАК "Нафтогаз України" за рішенням міжнародного
арбітражу, повідомив голова правління компанії Сергій Корецький.
Україна та Європейський Союз парафували текст Меморандуму про
взаєморозуміння щодо макрофінансової допомоги на суму 8,35 млрд євро в
рамках 90-мільярдного кредиту ЄС.
Що
ж так налякало багатьох правозахисників та юристів? Ми зібрали найбільш
скандальні, на думку критиків, статті, що з'явилися у новому Цивільному
кодексі.
Дізнайтеся, як облаштування тренажерного залу в офісі підвищує продуктивність команди. Поради щодо вибору професійного фітнес-обладнання від бренду Besport.
Мільярдер та інвестор Марк К'юбан заявив, що продав більшу частину
своїх біткоїнів. За його словами, він розчарувався у здатності
криптовалюти виступати захисним активом під час геополітичних потрясінь і
послаблення долара.
У Китаї почали масово навчати гуманоїдних роботів для роботи на
фабриках, у магазинах та у сфері послуг.
IBM та Міністерство торгівлі США оголосили про запуск першої в країні спеціалізованої квантової фабрики з виробництва чипів.
Популярний мобільний відеоредактор CapCut, який за час існування
завантажили понад 1,2 млрд разів, оголосив про партнерство з Google. У
рамках співпраці можливості редактора інтегрують безпосередньо в чат-бот
Gemini.
Автомобільний концерн Stellantis, створений в результаті злиття Fiat
Chrysler і PSA Group, у четвер, 21 березня, представив п'ятирічний
стратегічний план FaSTLAne 2030 вартістю 60 млрд євро.
За 2025-2026 рік кількість ІТ-ФОПів знизилася на 21%, і це найбільше зниження з 2016 року.
SpaceX офіційно подала документи для виходу на біржу Nasdaq під тикером
SPCX. Як пише TechCrunch, компанія повідомила, що сукупні збитки
компанії з моменту заснування перевищили $37 млрд.
Поки світовий авторинок лихоманить від китайської експансії та
падіння попиту на дорогі «електрички», старі німецькі друзі вирішили
триматися разом.
Японські дослідники створили бездротову систему зв'язку зі швидкістю передачі даних 112 Гбіт/c в діапазоні 560 ГГц.
Новий звіт "Американського індексу задоволеності клієнтів" (American
Customer Satisfaction Index, ACSI) свідчить про поразку Apple iPhone на
власній території. Користувачі Samsung Galaxy більш задоволені своїми
смартфонами.
Google додала до AI Studio
можливість створювати нативні Android-застосунки за текстовим описом.
Сервіс автоматично генерує Kotlin-код і використовує Jetpack Compose для
інтерфейсу.
Microsoft вирішила відмовитися від кодів підтвердження, надісланих
через SMS, для персональних акаунтів. Натомість компанія пропонує
користувачам використовувати опції без паролів, включно з ключами
доступу (passkeys). Про це сповіщає Windows Latest.
На Google I/O 2026 у Маунтін-В'ю компанія Google представила найбільше
переосмислення Search за останні роки. AI Mode тепер працює на Gemini
3.5 Flash і отримав три принципово нові можливості: фонові інформаційні
агенти, кастомні міні-застосунки та Universal Cart - єдиний агентний
кошик для покупок.
Цього літа Google почне розгортати Gemini Intelligence для
Android-пристроїв, однак нові ШІ-функції мають настільки високі системні
вимоги, що скористатись ними зможуть лише власники найпотужніших
смартфонів.