Preskočiť na obsah
  • O nás
    • Kto sme a ako sa stať naším členom?
    • Stanovy spoločnosti
    • Predseda a správna rada
    • Kontakt
  • Oznamy
  • Politika
  • Kultúra a veda
    • Kultúrne novinky v slovenskom jazyku
    • Vedecké novinky v ruskom jazyku
  • Pel-mel
  • Kluby Arbat
  • Komentáre
  • O nás
    • Kto sme a ako sa stať naším členom?
    • Stanovy spoločnosti
    • Predseda a správna rada
    • Kontakt
  • Oznamy
  • Politika
  • Kultúra a veda
    • Kultúrne novinky v slovenskom jazyku
    • Vedecké novinky v ruskom jazyku
  • Pel-mel
  • Kluby Arbat
  • Komentáre
Фото: © РИА Новости / Валерий Мельников

Správa z oblasti ruskej vedy v pôvodnom znení (scientificrussia.ru)

  • srspol
  • 19. apríla, 2023
  • 6:09 pm

Ученые СПб ФИЦ РАН обучили смартфон «читать по губам» для повышения точности распознавания речи


Исследователи Санкт-Петербургского федерального исследовательского центра РАН (СПб ФИЦ РАН) научились при помощи алгоритмов искусственного интеллекта и «компьютерного зрения» распознавать речь человека по губам. Разработка поможет повысить точность работы голосовых помощников в шумных условиях, например, в людных местах или при управлении тяжелой техникой.

Сегодня системы, которые способны распознать речь человека (звуковой сигнал) для автоматизированного выполнения команд, активно внедряются в самые разные сферы, от сотовых телефонов до боевых вертолетов. Обычно их используют люди с травмами конечностей или операторы сложного оборудования, у которых заняты руки. А в последнее время в целях повышения комфорта пользователя все большую популярность такие системы находят в различных сферах бизнеса, гаджетах и системах «умного» дома с голосовым управлением.

Хотя современные системы распознавания значительно продвинулись в точности интерпретации речи, однако в условиях сильного шума (громкие звуки от техники или от многолюдных мест) их эффективность может резко снизиться.

«Мы разработали приложение для смартфона, которое распознает звучащую речь и считывает “по губам” слова пользователя, анализируя видеосигнал с камеры гаджета. Программа совмещает и анализирует информацию из двух источников для улучшения точности распознавания. Эксперименты показали, что такая гибридная система значительно эффективнее распознает команды человека в сложных и шумных условиях», – рассказывает старший научный сотрудник лаборатории речевых и многомодальных интерфейсов СПб ФИЦ РАН Денис Иванько.

По его словам, приложение действует по аналогии с принципом работы когнитивной системы человека, который при разговоре в шумном месте непроизвольно начинает обращать внимание на губы собеседника, пытаясь прочитать по губам информацию, которую он мог не расслышать. Эта особенность подтверждена научными экспериментами, когда людям в шумных условиях предлагали распознавать только звуковую или только визуальную информацию. Однако наилучшие результаты продемонстрировала группа, получившая оба вида данных.

В основе приложения лежит нейросетевая модель, которую научили распознавать по аудиовизуальным сигналам (видеозаписям, сопровождающимися звуком) несколько сотен наиболее распространенных команд. Причем, по словам ученых, созданная нейросеть способна воспринимать аудиовизуальный сигнал и автоматически принимать решение о том, какие данные (видео или звук, или оба) при распознавании дадут максимальную точность.

В ходе экспериментов приложение использовалось водителями шумных большегрузных автомобилей одной из логистических компаний России. Для этого ПО было установлено на смартфоны испытуемых. Точность распознавания команд только по визуальным эффектам составила 60-80%, а в комбинации со звуковым сигналом – более 90%.

«Также в прошлом году на международных научных соревнованиях наша модель заняла первое место в мире по точности чтения речи по губам диктора. Участники обучали свои нейросети на открытой базе англоязычных данных, состоящей из 500 тыс. видеозаписей и тестировали их на наборе 25 тыс. записей. Точность нашей модели оказалась близка к 90% распознавания только на основе движений губ дикторов. Мы предполагаем, что в будущем наше приложение может найти применение у пилотов самолетов и тяжелой промышленной техники или для использования в интерактивных информационных киосках в торговых центрах и других местах массового скопления людей», – поясняет Денис Иванько.

Исследование поддержано грантом РНФ (№ 21-71-00132). Кроме того, для разработанного программного обеспечения получено свидетельство о государственной регистрации. Результаты проекта также опубликованы в материалах профильной международной конференции European Signal Processing Conference (EUSIPCO).

Проект по разработке данного программного обеспечения является частью большой работы ученых СПб ФИЦ РАН по созданию специализированных систем автоматического распознавания речи. Например, ранее исследователи разработали интеллектуальную систему, помогающую врачам общаться с глухими пациентами.

Информация предоставлена пресс-службой СПб ФИЦ РАН

Источник фото: ria.ru

Разместила: Ирина Усик

Информация взята с портала «Научная Россия» (scientificrussia.ru)
PrevPredchádzajúca správaCo čeká Ukrajince. Horší a horší, odhalil Drulák. A ještě vážnější věc
Ďalšia správaMikuláš Kočan: Dorastieme na dôstojných partnerov?Ďalšie
  • Kto sme a ako sa stať naším členom?
  • Stanovy občianskeho združenia
  • Predseda a správna rada
  • Kontakt
  • Oznamy
  • Politika
  • Kultúra a veda
  • Kultúrne novinky v slovenskom jazyku
  • Vedecké novinky v ruskom jazyku
  • Pel-mel
  • Kluby Arbat
  • Komentáre

© Slovensko-ruská spoločnosť. Všetky práva vyhradené.

Spravujte súhlas so súbormi cookie
Na poskytovanie tých najlepších skúseností používame technológie, ako sú súbory cookie na ukladanie a/alebo prístup k informáciám o zariadení. Súhlas s týmito technológiami nám umožní spracovávať údaje, ako je správanie pri prehliadaní alebo jedinečné ID na tejto stránke. Nesúhlas alebo odvolanie súhlasu môže nepriaznivo ovplyvniť určité vlastnosti a funkcie.
Funkčné Vždy aktívny
Technické uloženie alebo prístup sú nevyhnutne potrebné na legitímny účel umožnenia použitia konkrétnej služby, ktorú si účastník alebo používateľ výslovne vyžiadal, alebo na jediný účel vykonania prenosu komunikácie cez elektronickú komunikačnú sieť.
Predvoľby
Technické uloženie alebo prístup je potrebný na legitímny účel ukladania preferencií, ktoré si účastník alebo používateľ nepožaduje.
Štatistiky
Technické úložisko alebo prístup, ktorý sa používa výlučne na štatistické účely. Technické úložisko alebo prístup, ktorý sa používa výlučne na anonymné štatistické účely. Bez predvolania, dobrovoľného plnenia zo strany vášho poskytovateľa internetových služieb alebo dodatočných záznamov od tretej strany, informácie uložené alebo získané len na tento účel sa zvyčajne nedajú použiť na vašu identifikáciu.
Marketing
Technické úložisko alebo prístup sú potrebné na vytvorenie používateľských profilov na odosielanie reklamy alebo sledovanie používateľa na webovej stránke alebo na viacerých webových stránkach na podobné marketingové účely.
Spravovať možnosti Správa služieb Spravovať predajcov Prečítajte si viac o týchto účeloch
Zobraziť predvoľby
{title} {title} {title}