Форум 3DNews
Вернуться   Форум 3DNews > Софт > Программное обеспечение

Ответ Создать новую тему
Опции темы Опции просмотра
Непрочитано 22.02.2009, 06:42   [включить плавающее окно]   #1
Dead Krow
Мужской Начинающий
Автор темы
 
Регистрация: 22.02.2009
Программы распознования речи

Есть ли вабще какиенить НОРМАЛЬНЫЕ проги для русского языка??? а для английского?
Dead Krow вне форума  
Ответить с цитированием
Непрочитано 22.02.2009, 08:36   [включить плавающее окно]   #2
che-hoff
Мужской Заслуженный
 
Аватар для che-hoff
 
Регистрация: 08.08.2005
Адрес: Екатеринбург - "перекресток железных дорог"
Dead Krow все мои эксперименты закончились печально - нормальных не нашел...
__________________
- Всё шутите...
- Давно бросил - врачи запрещают.
che-hoff вне форума  
Конфигурация ПК
Ответить с цитированием
Непрочитано 22.02.2009, 23:45   [включить плавающее окно]   #3
Могилиус Трупп
Мужской Умудрённый
 
Аватар для Могилиус Трупп
 
Регистрация: 30.11.2003
И их не будет еще очень долго при нынешнем уровне развития искусственного интеллекта.
__________________
Берегитесь, колдуны-неудачники!
Могилиус Трупп вне форума  
Конфигурация ПК
Ответить с цитированием
Непрочитано 04.03.2009, 22:01   [включить плавающее окно]   #4
rquester
Мужской Новенький
 
Регистрация: 04.03.2009
Адрес: Санкт-Петербург
И их не будет еще очень долго при нынешнем уровне развития искусственного интеллекта
На самом деле, для распознавания голоса искусственный интеллект особо не нужен (хотя если бы был - все было бы решено автоматически). Как не нужен он для распознавания текста или синтеза речи. Возможно, для того чтобы перевести распознавание из "очень хорошего" в "отличное" что-то подобное и понадобится, но пока должно хватить обычных алгоритмов... Говорю как человек занимавшийся алгоритмом различия омографов и синтезом речи тоже (синтез, правда, пока не очень, но, учитывая что я это вообще в одиночку делаю...). Причем различие омографов работает в 99 процентов случаев и я вижу еще резервы для улучшения (если не верите - можно попробовать http://www.bludnikov.ru/soft2.htm).
На самом деле, подозреваю, если бы все фирмы имеющие наработки в распознавании объединили бы усилия - уже было бы все сделано и с достаточно приличным качеством (причём для всех языков). По крайней мере, та программа распознавания, которая ставится с SAPI некоторые звуки угадывала вполне регулярно... И, скорее всего, другие программы четко угадывают другие звуки...
rquester вне форума  
Ответить с цитированием
Непрочитано 05.03.2009, 08:21   [включить плавающее окно]   #5
che-hoff
Мужской Заслуженный
 
Аватар для che-hoff
 
Регистрация: 08.08.2005
Адрес: Екатеринбург - "перекресток железных дорог"
rquester звуки-звуками...
а темп речи, а ударение, а границы фраз?
__________________
- Всё шутите...
- Давно бросил - врачи запрещают.
che-hoff вне форума  
Конфигурация ПК
Ответить с цитированием
Непрочитано 05.03.2009, 09:19   [включить плавающее окно]   #6
Virgil
Guest
 
Я по телеку смотрел передачу про такие программы. Суть передачи в том, что их действительно не будет ещё достатосно долго. А те, что есть - выполняют свои функции очень плохо.
 
Ответить с цитированием
Непрочитано 05.03.2009, 19:27   [включить плавающее окно]   #7
rquester
Мужской Новенький
 
Регистрация: 04.03.2009
Адрес: Санкт-Петербург
che-hoff
Цитата
а темп речи, а ударение, а границы фраз?
Границы фраз определяются без проблем - по паузе и графику громкости (к концу предложения громкость обычно понижается). Это если речь слитная. Если речь не слитная (не запись лекции, а просто диктовка), то пунктуация может вводиться дополнительными словами - (обычными - точка, запятая, вопросительный знак... или условными (чтобы в тексте не встречалось)).
Ударение тоже не должно вызывать проблем - ударную гласную отличает длительность, громкость (да и другие параметры, например, если обнаружено чёткое о, значит оно ударное). Если человек на слух может сказать с каким ударением произнесено слово даже не зная этого слова - то и компьютер, в принципе, тоже может и никакого ИИ для этого не нужно.
С темпом речи вообще вроде никаких проблем, даже в имеющихся программах....
rquester вне форума  
Ответить с цитированием
Непрочитано 08.03.2009, 22:25   [включить плавающее окно]   #8
АсУ
Мужской Запрещенный
 
Аватар для АсУ
 
Регистрация: 20.09.2006
Адрес: везде и всегда
А как на этот счет MS Ofice 2007 ?
АсУ вне форума  
Конфигурация ПК
Ответить с цитированием
Непрочитано 10.03.2009, 00:28   [включить плавающее окно]   #9
rquester
Мужской Новенький
 
Регистрация: 04.03.2009
Адрес: Санкт-Петербург
Цитата
А как на этот счет MS Ofice 2007 ?
Насколько я знаю (2007 не смотрел) Ms Office использует стандартные SAPI интерфейсы. То есть, какой в системе установлен движок, такое и качество.
Если тот же движок, что ставится с SAPI - распознавание очень плохое (для английского языка, для русского ничего и не было вроде). Достаточно чётко распознаёт несколько звуков и регулярно придумывает слова, отсутствующие в тексте. 50 процентов похожих на сказанные слова, 20 процентов угаданных слов, 30% - полнейшая отсебятина. По крайней мере, мне добиться лучшего не удалось... У меня, правда, английское произношение далеко не идеальное, но те 30% вообще когда речи нет возникали...
rquester вне форума  
Ответить с цитированием
Непрочитано 10.03.2009, 11:27   [включить плавающее окно]   #10
АсУ
Мужской Запрещенный
 
Аватар для АсУ
 
Регистрация: 20.09.2006
Адрес: везде и всегда
rquester Спасибо. Для себя делаю вывод (относительно MS Ofice 2007): не стоит замарачиваться.
АсУ вне форума  
Конфигурация ПК
Ответить с цитированием
Непрочитано 10.03.2009, 11:51   [включить плавающее окно]   #11
Antichrist
Мужской Продвинутый
 
Аватар для Antichrist
 
Регистрация: 12.10.2007
Среди английских Dragon Dictate и Dragon Naturally speaking. Первая ориентирована на набор текста, а вторая на управление компом с помощью голоса. Из руских юзал только Горыныча(по ходу он построян на ядре Dragon Dictate). Вцелом качесвто распознавания зависило от того сколько я слов правильно надиктую при настройке. Ну там всегда в начале давали прочитать текст если читать их все больше и с правильным произношением то прожка будет работать более-менее. Фишка в том что для русского Горыныча надо было надиктовывать каждое слово в отдельности, а это занимало массу времени. Интересным является не только speach-to-text технология, но и обратная text-to-speach. Среди движков такого рода из русских мне больше всего понравился Digalo Nikolai(как ни странно французкого производства), а для англ. вполне катит стандартный Microsoft Sam.
__________________
Дьявол не искушает грешников и неверующих, ибо они уже его.
Antichrist вне форума  
Конфигурация ПК
Ответить с цитированием
Непрочитано 10.03.2009, 12:21   [включить плавающее окно]   #12
АсУ
Мужской Запрещенный
 
Аватар для АсУ
 
Регистрация: 20.09.2006
Адрес: везде и всегда
Цитата (Antichrist) »
Antichrist
Digalo Nikolai надо попробовать. Пока при случае пользуюсь Гудди от ПРОМТа.

Алексей с Украины добавил :

Antichrist Это она и есть? http://209.85.129.132/search?q=cache...lr=lang_uk</a>
АсУ вне форума  
Конфигурация ПК
Ответить с цитированием
Непрочитано 10.03.2009, 15:25   [включить плавающее окно]   #13
rquester
Мужской Новенький
 
Регистрация: 04.03.2009
Адрес: Санкт-Петербург
Цитата
Среди движков такого рода из русских мне больше всего понравился Digalo Nikolai
На данный момент уже есть усовершенствованные версии Николая (пишет файлы быстрее, не вылетает на некоторых словах, Speech Cube Nikolai, еще какие-то версии, но нужно смотреть чтобы он понимал ударения в тексте - некоторые версии (особенно SAPI5) не понимают), а так же движки Алёна (Acapella-Group Alena) (лучше версию 22.10 так как у более ранних есть проблема с синтезом под SAPI4) и Ольга (Loquendo Olga). Еще приемлема Realspeak Katerina. У всех синтез очень приличный. Еще можно попробовать с помощью Книгодела заставить говорить по-русски польскую Ania (Acapela-Group).
Основная проблема - расстановка ударений, в особенности на омографы (типа рУки/рукИ), решается с помощью моей разработки - Книгодела (http://www.bludnikov.ru/soft2.htm) (он работает со всеми указанными движками, формат вывода выбирается в настройках, а затем выполняется команда Export, оптимальные варианты установок, на мой взгляд, Diagalo-Nikolai, Alena (транскрипция), Olga (новая) для соответствующих движков). (Альтернативное решение - словари замен - даёт гораздо худший результат).
P.S.: когда смотрел Горыныча (было это, правда, очень давно, лет 10 назад) он даже (с обучением) не всегда мог отличить "к" от "вобла" (при трёх словах, которым его обучил).

Последний раз редактировалось rquester; 10.03.2009 в 15:57.
rquester вне форума  
Ответить с цитированием
Непрочитано 10.03.2009, 21:36   [включить плавающее окно]   #14
Antichrist
Мужской Продвинутый
 
Аватар для Antichrist
 
Регистрация: 12.10.2007
При распознавании речи на качество влияют многие факторы: Тип микрофона(Все советуют close-talk), громкость источника, скорость чтения, четкость дикции, внешние шумы и т.д. Я юзаю микрофон который шел в комплекте от моей мамки ASUS. Он не close-talk, но зато стерео и с подавлением шумов(циклически повторяющихся звуков и антифидбек). Установка этого микрофона значительно улучшила качество распознавания.

Antichrist добавил :

Алексей с Украины
Цитата
Antichrist Это она и есть? http://209.85.129.132/search?q=cach...l=ru&lr=lang_uk [/url]
Я с оффсайта качал. Но адрес не помню. Нашел вот-такое:
http://www.programy.com.ua/ukr/download/187944/
__________________
Дьявол не искушает грешников и неверующих, ибо они уже его.
Antichrist вне форума  
Конфигурация ПК
Ответить с цитированием
Непрочитано 11.03.2009, 07:09   [включить плавающее окно]   #15
Dead Krow
Мужской Начинающий
Автор темы
 
Регистрация: 22.02.2009
SAPI - ? что это??? у кого нибудь есть FAQ по этому поводу???
кто пробовал переводить речь в текст опишите какое нужно оборудование и как выглябит процесс, схоже с просто записью речи на комп???
Dead Krow вне форума  
Ответить с цитированием
Непрочитано 11.03.2009, 16:40   [включить плавающее окно]   #16
rquester
Мужской Новенький
 
Регистрация: 04.03.2009
Адрес: Санкт-Петербург
Dead Krow
Цитата
SAPI - ? что это???
SAPI - это Speech API, интерфейс, который Microsoft предоставляет для работы с речью (синтез и распознавание) Sapi5 SDK можно скачать с сайта Microsoft - это набор для программирования, но в составе есть англоязычные движки для синтеза и распознавания. И программы работающие в комплекте тоже есть.
Цитата
кто пробовал переводить речь в текст опишите какое нужно оборудование и как выглябит процесс, схоже с просто записью речи на комп???
Из оборудования нужен только микрофон, в принципе, любой (желательно того типа, на котором отлаживалась программа). Желательно уменьшить шумы. Потом запускается либо идущая в комплекте программа, либо внешняя, поддерживающая работу с голосом. Нажимается кнопка распознавания, после чего все начитанное появляется в виде текста. Теоретически...
Для лучшего распознавания можно сделать калибровку - заданный текст читается в микрофон.
rquester вне форума  
Ответить с цитированием
Непрочитано 17.03.2009, 18:53   [включить плавающее окно]   #17
Max Ader
Мужской Заслуженный
 
Аватар для Max Ader
 
Регистрация: 18.02.2004
Адрес: ???
Был бы спрос хороший - все бы уже появилось... А так, маловата (с точки зрения индустрии) целевая база и ее возможности.
__________________
I'm in the way, aren't I?!
Max Ader вне форума  
Конфигурация ПК
Ответить с цитированием
Непрочитано 19.03.2009, 19:08   [включить плавающее окно]   #18
rquester
Мужской Новенький
 
Регистрация: 04.03.2009
Адрес: Санкт-Петербург
Max Ader
Цитата
Был бы спрос хороший - все бы уже появилось... А так, маловата (с точки зрения индустрии) целевая база и ее возможности.
На самом деле, целевая база работоспособной системы распознавания - практически все домашние пользователи. ДУ телевизором и музыкальным центром (гораздо проще сказать "TV, отключи звук", чем искать пульт), диктовка текста (дома, в офисе, конечно, этот вариант не подойдёт), голосовое управление ОС и программами ("Калькулятор, сколько будет 125 на 256?", "Какой сейчас курс доллара?","Какая завтра ожидается погода?"), играми и т.д.
Но это - для стабильно распознающей системы с минимальным процентом ложных срабатываний. Если синтез на данный момент уже достаточно хорош для использования на практике (хотя проблемы есть - относительно небольшое число голосов, одноязычность каждого голоса, отсутствие стандартов для движков в SAPI (например, не стандартизован символ ударения)), недостаточно интонаций и т.д., но проблемы решаемые в достаточно короткие сроки), то распознавание даёт сбои слишком часто. При таком проценте ошибок область применения оказывается действительно небольшой...

Последний раз редактировалось rquester; 19.03.2009 в 19:11.
rquester вне форума  
Ответить с цитированием
Непрочитано 20.03.2009, 14:58   [включить плавающее окно]   #19
Max Ader
Мужской Заслуженный
 
Аватар для Max Ader
 
Регистрация: 18.02.2004
Адрес: ???
Цитата (rquester) »
На самом деле, целевая база работоспособной системы распознавания - практически все домашние пользователи.
Готовой к применению, как сами же и отметили. А на какие шиши? Они за это заплатят? "Индейская национальная изба... Фиг-вам, называется!" (с) А слабовидящих и т.д. маловато будет, запросы у них несколько другие и они готовы и сами обучаться и машину учить. "Приплыли..." (с) Так что удивляться неспешному прогрессу в данной отрасли? Как правильно отметили - ИИ (его отсутствие) тут не при делах. С ним бы было то же самое.
__________________
I'm in the way, aren't I?!
Max Ader вне форума  
Конфигурация ПК
Ответить с цитированием
Непрочитано 21.03.2009, 01:01   [включить плавающее окно]   #20
abraxas
Женский Недосягаемый
 
Аватар для abraxas
 
Регистрация: 10.11.2003
Адрес: EU
Цитата (Max Ader) »
А на какие шиши? Они за это заплатят? "Индейская национальная изба... Фиг-вам, называется!" (с)
вы будете удивлены, но в основной массе своей пользователи платят за программное обеспечение. Именно поэтому компании, производящие платное ПО, живут и процветают.
abraxas вне форума  
Ответить с цитированием
Ответ Создать новую тему

Опции темы
Опции просмотра

Ваши права в разделе
Вы не можете создавать новые темы
Вы не можете отвечать в темах
Вы не можете прикреплять вложения
Вы не можете редактировать свои сообщения

BB коды Вкл.
Смайлы Вкл.
[IMG] код Вкл.
HTML код Выкл.

Быстрый переход


Текущее время: 22:50. Часовой пояс GMT +3.


Powered by vBulletin® Version 3.8.4
Copyright ©2000 - 2019, Jelsoft Enterprises Ltd. Перевод: zCarot
Copyright © 2000-2017 3DNews. All Rights Reserved.
Администрация 3DNews требует соблюдения на форуме правил и законов РФ
Серверы размещены в Hostkey