Как някои компании решават проблемите с езика и AI

Като хроничен мрънкач имах някои значителни предизвикателства да накарам Alexa на Amazon да разбере командите ми. Намирам, че трябва да произнасям много ясно и имам много нежен северноамерикански акцент. Още по-лошо е за моите родни приятели от Масачузетс, които имат много дебели акценти в Бостън.

Ясно е, че Alexa е основен продукт за изкуствен интелект (AI) на потребителско ниво, но използването на AI в бизнеса изисква по-висок стандарт. Възможността за правилно въвеждане на език, който може последователно да се разбира от софтуера за изкуствен интелект, е от съществено значение за възвръщаемостта на инвестициите на компанията в такива продукти.

Говорих за концепцията за езика, как той взаимодейства с AI и как, с Ian Firth, вицепрезидент на продукти в Speechmatics, компания за разработка на софтуер за разпознаване на реч, и Dan Kobran, съосновател, Paperspace, платформа за разработка на AI.

Скот Матесън: Каква е разликата в акцента на ИИ и какви предизвикателства предизвиква?

Иън Фърт: На хората често им е трудно да общуват, дори когато са от един и същи град или държава – въпреки че езикът е един и същ. Разнообразието от акценти и диалекти на един единствен език може да бъде огромно и опитът да ги разберем като човешко същество е предизвикателство само по себе си.

Що се отнася до технологията за автоматично разпознаване на реч (ASR), важи същото. Двигателят трябва да разбира разновидности на акценти, диалекти и дори жаргон в рамките на един език. За да извлечете стойността на това, което хората казват – като човешки или ASR двигател – трябва да разберете какво се казва.

Акцентите и диалектите добавят допълнителна бариера към способността за комуникация. Що се отнася до ASR технологията, гласът трябва да се разбира и да се действа по прост и лесен начин. Предизвикателството за речевата технология е да се счупи езиковата бариера и да се осигури разбиране, контекст и стойност на разговор или говорител.

Скот Матесън: Какви възможни решения са включени?

Ян Фърт: Има две възможни решения, когато става въпрос за справяне с предизвикателството с езикови акценти и диалекти.

Първият е да се създаде механизъм за разпознаване на реч, който е проектиран да работи най-добре за специфични за акценти езикови модели. Например, това означава създаване на езиков пакет за мексикански испански, испански испански и т.н. С този подход получавате голяма точност за един конкретен акцент и – академично погледнато – ще получите високо точни резултати в повечето случаи. Този подход изисква правилния модел за правилната реч и има обстоятелства, при които това решение не работи.

Второто решение е да се изгради механизъм за разпознаване на реч с какъвто и да е контекст, който разбира всички испански акценти, независимо от региона, акцента или диалекта. Този подход има свои собствени предизвикателства около техническата възможност за изграждане на двигател по този начин и времето, необходимо за изграждането. Резултатите обаче говорят сами за себе си, без триене и безпроблемно изживяване на потребителите и клиентите.

Скот Матесън: Как работят решенията от технологична гледна точка?

Иън Фърт: ASR беше технология, а не продукт, когато беше пуснат за първи път на пазара. Инженерите биха се запитали: “Как да постигнем най-добрите резултати от точността от това, което имаме?” Така че традиционно инженерите на ASR само разглеждат специфичното за акцентите решение като жизнеспособен начин за справяне с този проблем и акцента. От инженерна гледна точка имаше смисъл да се ограничи проблемът до модел с един акцент, защото това беше най-добрият начин да се получат най-добрите резултати с точност за конкретния акцент или диалект.

Този подход също така изисква доставчиците на ASR да изградят специфични модели за конкретни пазари. Например медицинска компания ще изисква напълно различен речник от комуналната компания и това поражда огромно предизвикателство, когато става въпрос за ASR технология. Ако се обърнем към края на 90-те години, двигателите изискват от потребителя да обучава ASR на своя глас, вместо двигателят да е независим от високоговорителите.

Тъй като изчислителното и машинното обучение (ML) се подобриха и развиха през последните 10 години, доставчиците на ASR успяха да разширят границите на възможното с гласовите технологии. Тъй като стана по-широко приет, за инженерите беше очевидно, че никога няма да знаете акцента или диалекта на говорителя, преди да са използвали технологията, а само езика. И така, как да изберете правилния модел? Трябва да направите предположения и най-доброто предположение, тъй като осиновяването се увеличава и става по-глобализирано, проблемът става по-очевиден.

Как решихме този проблем? С всеобхватен езиков модел може да не получите най-добрата точност за конкретен говорител, но най-вероятно ще получите най-добрата точност за този конкретен език. Започнахме да изграждаме механизъм за разпознаване на реч с какъвто и да е контекст, където да можем да изградим езикови модели с акцент-агностик. Намерихме начин да изградим езикови модели, които да са достатъчно малки, което прави ASR консуматив в реалния свят.

Това не може да бъде просто математика зад машинното обучение, трябва да се разбере реалната приложимост и как технологията добавя стойност към бизнеса.

ВИЖ: Windows 10: Списъци с гласови команди за разпознаване на реч и диктовка (TechRepublic)

Скот Матесън: Какви са ползите за бизнеса и потребителите?

Иън Фърт: В крайна сметка, акцентно-агностичният подход е от полза за всички. Бизнесът намалява разходите си, като използва само един модел за един език, а потребителите получават най-доброто изживяване и стойност, защото всеки път се разбират.

Това решение от своя страна също е от полза за доставчика на ASR. Трудоемката задача е да се поддържат актуални и усъвършенствани езикови модели, така че намаляването на броя на езиковите модели означава, че доставчикът на ASR може също така да предоставя на клиентите най-доброто обслужване и технология.

Скот Матесън: Къде е насочена тенденцията?

Иън Фърт: Все още вярвам, че акцентно-агностичният подход е правилното решение на проблема с акцентната разлика в разпознаването на речта. Не можем да очакваме потребителите да адаптират своя акцент или диалект в съответствие с езиков модел – доставчикът на ASR е отговорен за това.

В Speechmatics вече създадохме глобален английски и испански и ще продължим да разпространяваме глобални езици. Искаме да постигнем изграждането на глобален език, където е възможно и тъй като ASR продължава да става все по-точен, ние ще продължим да правим това възможно.

Важно е да се отбележи, че от гледна точка на разходите, изграждането и потребителския опит не е устойчиво да продължавате да създавате по-специфични за акцентите езикови пакети. ASR се разраства като индустрия и ще продължи да расте, тъй като все повече всички хора в света трябва да бъдат подкрепяни от речеви технологии. Това стана изключително по-очевидно и ускорено поради COVID-19 тази година и скоростта на приемане за случаи на използване като надписи, транскрипция, мониторинг, управление на активи, уеб конферентна връзка, анализ на контактния център.

Скот Матесън: Какво е разбиране на естествения език?

Дан Кобран: Разбирането на естествения език е подтема на ИИ, което основно означава разбиране на четенето. Една от причините това да е подтема на знаменитост е, че всъщност няма разлика между решаването на NLU и решаването на генерализиран AI. И така, когато говорим за мечтата на NLU, ние наистина говорим за мечтата за самия ИИ: да съвпада и след това да увеличава човешкия интелект.

Скот Матесън: Защо в днешно време става толкова шумно?

Дан Кобран: NLU не е нов. От десетилетия се опитваме да разберем как да накараме машините да разберат безкрайното разнообразие от човешки език. Новото е, че има някои страхотни нови активиращи технологии, които показват много обещания и че все повече осъзнаваме NLU приложенията в нашето ежедневие. Някои от най-често срещаните производствени приложения в момента включват машинен превод на текст между езици в интернет, отговори на въпроси от интелигентен асистент като Siri или Alexa и анализ на настроенията за заявки на клиенти по телефона или в чата.

Скот Матесън: От гледна точка на специалист по изкуствен интелект, какво прави NLU особено предизвикателно?

Дан Кобран: Езикът е труден! Казваме нещата буквално, или мълчаливо, или едва ги загатваме, или ги алегоризираме, или ги оставяме в празното пространство между изреченията – ad infinitum. Езикът е представяне на мисълта (макар и може би загуба) и има много неща, за да може да се научи ML модел. Ето защо NLU не се решава с някакъв пробив един алгоритъм, а по-скоро чрез обобщен AI, тъй като сложността на езика е прокси за сложността на интелигентността по-общо.

Скот Матесън: Какво представлява GPT-3 на OpenAI и как работи? Какви са предимствата и изискванията?

Дан Кобран: GPT-3 е езиков модел, който е предварително обучен за параметри 175B и е особено добър в предвиждането и генерирането на текст. С други думи, това е езиков модел, който вече е прочел МНОГО неща и може да използва това знание, за да предскаже какво следва след получаване на информация. По-конкретно, това е трансформатор (определен вид модел, базиран на невронна мрежа), който се възползва от възможността да обработва данни паралелно, а не последователно. Така че с него е лесно да се работи, лесно да се тренира и вече се предлага с някои изумителни възможности.

Най-забележителната характеристика на GPT-3 е, че той може да осигури полезен изход за генериране на текст от самото начало, тъй като е предварително обучен толкова старателно. Моделът става много мощен, когато е обучен на допълнителни текстови набори от данни. Например можете да извадите GPT-3 от кутията и да получите разумен отговор, ако въведете „Да бъдеш или да не бъдеш“. Но ако обучите модела на хиляди реплики на Шекспир, ще получите обратно нещо, което е изключително шекспировско. Наистина е невероятно. Вълнуващата част е, че същото може да се каже и за писане на поезия, или корейски, или код на Javascript – това наистина няма значение за модела!

Скот Матесън: Кои са някои субективни примери за GPT-3 в действие?

Дан Кобран: GPT-3 за съжаление е затворен източник поради договор за лицензиране между OpenAI и Microsoft.

Въпреки това вече се появиха някои вълнуващи случаи на употреба, включително автоматично писане на имейли, семантично програмиране (напр. Опишете какво искате да прави вашето приложение с несложни термини), разговорни чат ботове и др.

Има и някои изключително вълнуващи възможности, които очакват да бъдат реализирани, като например обучение на GPT-3 по медицинска литература за изграждане на справочна информация или бот за въпроси и отговори за лекари и здравни изследователи.

Скот Матесън: Смятате ли, че GPT-3 е готов за масово използване?

Дан Кобран: GPT-3 се обучава с два порядъка повече параметри от GPT-2, така че до известна степен това е същата технология, само значително подобрена.

Ясно е, че GPT-3 е готов днес за тесни случаи на употреба, които изискват универсални езикови модели, но освен това GPT-3 не е контекстно осведомен и следователно е ограничен в своите основни способности и приложения.

Скот Матесън: Какво трябва да се случи, за да може GPT-3 или някаква NLU рамка по този въпрос наистина да работи в корпоративна среда днес?

Дан Кобран: Както наскоро изтъкна професор Ян ЛеКун, GPT-3 не е разумна интелигентност. Това е езиков модел, който може да произвежда изречения по една дума. GPT-3 всъщност не разбира света около себе си или голяма част от всичко извън моделите, които се срещат в езика.

И все пак GPT-3 е огромна стъпка към полезния ИИ. Днес това вече е полезно за определени приложения за генериране на текст, но липсата на разбиране отвъд малка дълбочина е факторът, ограничаващ полезността му днес.

Leave a Reply

Your email address will not be published. Required fields are marked *