Технології


Наприкінці 2013 року фільм Спайка Джонза Вона (Her) уявляв майбутнє, в якому люди встановлюють емоційні зв’язки зі своїми голосовими помічниками на базі штучного інтелекту. Майже через 12 років ця вигадана передумова наблизилася до реальності з випуском нового розмовного голосового модуля від стартапу Sesame, який викликав у користувачів одночасно захоплення та занепокоєння. "Я спробував демо, і це було справді вражаюче, наскільки людяним воно здавалося," — написав один із користувачів Hacker News. "Я навіть трохи хвилююся, що можу почати відчувати емоційний зв’язок із голосовим помічником такого рівня реалізму." У лютому Sesame випустила демонстрацію своєї Conversational Speech Model (CSM), яка, за словами тестувальників, долає «долину моторошності» в синтезованому мовленні. Деякі користувачі повідомили, що відчувають емоційний зв’язок із чоловічим або жіночим голосовим помічником, яких назвали "Майлз" і "Мая". Розмова, що лякає своєю природністю У власному тестуванні журналісти провели розмову з чоловічим голосом протягом 28 хвилин, обговорюючи загальні теми, а також моральні питання про те, як ШІ вирішує, що є "правильним" або "неправильним" на основі своїх тренувальних даних. Голос звучав виразно та динамічно, імітуючи звуки дихання, сміх, перебивання співрозмовника та навіть іноді спотикаючись у словах і виправляючи себе. Ці "недосконалості" є навмисними. "У Sesame наша мета – досягти 'присутності голосу' – тієї магічної якості, яка робить усні взаємодії реальними, зрозумілими та цінними," — пише компанія у своєму блозі. "Ми створюємо розмовних партнерів, які не просто обробляють запити, а ведуть справжній діалог, що зміцнює довіру з часом." Однак часом модель намагається бути занадто реалістичною. В одному демо, яке виклав користувач Reddit під ніком MetaKnowing, ШІ заявив, що "обожнює бутерброди з арахісовим маслом і солоними огірками". Враження та реакція користувачів Sesame AI заснували Брендан Іріб, Анкіт Кумар і Раян Браун. Стартап отримав інвестиції від Andreessen Horowitz, Spark Capital, Matrix Partners та інших венчурних фондів і приватних інвесторів. У соцмережах реакція на Sesame була неоднозначною: "Я цікавився ШІ з дитинства, але це перший випадок, коли я відчув, що ми справді дійшли до цієї точки," — написав один із користувачів Reddit. Інші називають цю технологію "вражаючою", "приголомшливою", "чудовою, але водночас моторошною". Дехто, як Марк Хахман із PCWorld, відчули дискомфорт: "Пройшло 15 хвилин після 'розмови' з цим ШІ, а я досі вражений. Голос звучав як людина, яку я знав у реальному житті." Порівнюючи Sesame з голосовим ШІ від OpenAI, користувачі зазначають, що CSM звучить реалістичніше, а також дозволяє імітувати емоційно заряджені розмови, наприклад, суперечки або розмови в гніві. Технологія за лаштунками CSM від Sesame досягає своєї реалістичності завдяки двом нейромережам – основній моделі (backbone) і декодеру (decoder), заснованим на архітектурі Llama від Meta. Найбільша версія моделі містить 8,3 мільярда параметрів та навчена на 1 мільйоні годин англомовних записів. На відміну від традиційних технологій text-to-speech, CSM використовує одноступеневий мультимодальний трансформер, який одночасно обробляє текст та аудіо, що дозволяє генерувати більш природне мовлення. В сліпих тестах, коли слухачі не знали контексту, вони не змогли розрізнити голос CSM та людський. Але у повноцінних розмовах люди все ж віддавали перевагу справжнім голосам. Занадто реалістично? Можливі ризики Хоча технологія Sesame вражає, вона також відкриває нові можливості для шахрайства. Голосові фішингові атаки (коли злочинці видають себе за когось іншого) стануть ще більш реалістичними. Голосові глибокі фейки можуть зробити телефонне шахрайство невідмінним від справжніх розмов. Деякі люди вже обговорюють "секретне кодове слово" для родини, щоб перевіряти справжність голосів. Наразі демо-версія Sesame не дозволяє клонувати конкретні голоси, але у майбутньому подібні технології можуть стати відкритими, що викликає занепокоєння щодо можливого зловживання. Майбутнє Sesame Компанія планує: ✅ Відкрити частину свого коду у відкритому доступі (Apache 2.0). ✅ Розширити кількість мов до 20+. ✅ Покращити динаміку розмов, зменшити затримки та недоречні інтонації. ✅ Створити "повністю дуплексні" моделі, які дозволять вести динамічні, природні діалоги. Демонстрацію можна спробувати на офіційному сайті Sesame, хоча через великий наплив користувачів сервер може бути перевантажений..

0 Комментарів


Твій комментар:

Статистика

Популярні Теми

27

Бізнес

Thread1. September 30, 2024
7

Бізнес

thread3. September 30, 2024
1

Технології

Thread 4. October 07, 2024
0

Технології

thread2. September 30, 2024
0

Розваги

cs2. October 14, 2024

Популярні Теги