Форум 3DNews
Вернуться   Форум 3DNews > Софт > Программное обеспечение

Ответ Создать новую тему
Опции темы Опции просмотра
Непрочитано 22.02.2009, 06:42   [включить плавающее окно]   #1
Dead Krow
Мужской Начинающий
Автор темы
 
Регистрация: 22.02.2009
Программы распознования речи

Есть ли вабще какиенить НОРМАЛЬНЫЕ проги для русского языка??? а для английского?
Dead Krow вне форума  
Ответить с цитированием
Непрочитано 22.02.2009, 08:36   [включить плавающее окно]   #2
che-hoff
Мужской Заслуженный
 
Аватар для che-hoff
 
Регистрация: 08.08.2005
Адрес: Екатеринбург - "перекресток железных дорог"
Dead Krow все мои эксперименты закончились печально - нормальных не нашел...
__________________
- Всё шутите...
- Давно бросил - врачи запрещают.
che-hoff вне форума  
Конфигурация ПК
Ответить с цитированием
Непрочитано 22.02.2009, 23:45   [включить плавающее окно]   #3
Могилиус Трупп
Мужской Умудрённый
 
Аватар для Могилиус Трупп
 
Регистрация: 30.11.2003
И их не будет еще очень долго при нынешнем уровне развития искусственного интеллекта.
__________________
Берегитесь, колдуны-неудачники!
Могилиус Трупп вне форума  
Конфигурация ПК
Ответить с цитированием
Непрочитано 04.03.2009, 22:01   [включить плавающее окно]   #4
rquester
Мужской Новенький
 
Регистрация: 04.03.2009
Адрес: Санкт-Петербург
И их не будет еще очень долго при нынешнем уровне развития искусственного интеллекта
На самом деле, для распознавания голоса искусственный интеллект особо не нужен (хотя если бы был - все было бы решено автоматически). Как не нужен он для распознавания текста или синтеза речи. Возможно, для того чтобы перевести распознавание из "очень хорошего" в "отличное" что-то подобное и понадобится, но пока должно хватить обычных алгоритмов... Говорю как человек занимавшийся алгоритмом различия омографов и синтезом речи тоже (синтез, правда, пока не очень, но, учитывая что я это вообще в одиночку делаю...). Причем различие омографов работает в 99 процентов случаев и я вижу еще резервы для улучшения (если не верите - можно попробовать http://www.bludnikov.ru/soft2.htm).
На самом деле, подозреваю, если бы все фирмы имеющие наработки в распознавании объединили бы усилия - уже было бы все сделано и с достаточно приличным качеством (причём для всех языков). По крайней мере, та программа распознавания, которая ставится с SAPI некоторые звуки угадывала вполне регулярно... И, скорее всего, другие программы четко угадывают другие звуки...
rquester вне форума  
Ответить с цитированием
Непрочитано 05.03.2009, 08:21   [включить плавающее окно]   #5
che-hoff
Мужской Заслуженный
 
Аватар для che-hoff
 
Регистрация: 08.08.2005
Адрес: Екатеринбург - "перекресток железных дорог"
rquester звуки-звуками...
а темп речи, а ударение, а границы фраз?
__________________
- Всё шутите...
- Давно бросил - врачи запрещают.
che-hoff вне форума  
Конфигурация ПК
Ответить с цитированием
Непрочитано 05.03.2009, 09:19   [включить плавающее окно]   #6
Virgil
Guest
 
Я по телеку смотрел передачу про такие программы. Суть передачи в том, что их действительно не будет ещё достатосно долго. А те, что есть - выполняют свои функции очень плохо.
 
Ответить с цитированием
Непрочитано 05.03.2009, 19:27   [включить плавающее окно]   #7
rquester
Мужской Новенький
 
Регистрация: 04.03.2009
Адрес: Санкт-Петербург
che-hoff
Цитата
а темп речи, а ударение, а границы фраз?
Границы фраз определяются без проблем - по паузе и графику громкости (к концу предложения громкость обычно понижается). Это если речь слитная. Если речь не слитная (не запись лекции, а просто диктовка), то пунктуация может вводиться дополнительными словами - (обычными - точка, запятая, вопросительный знак... или условными (чтобы в тексте не встречалось)).
Ударение тоже не должно вызывать проблем - ударную гласную отличает длительность, громкость (да и другие параметры, например, если обнаружено чёткое о, значит оно ударное). Если человек на слух может сказать с каким ударением произнесено слово даже не зная этого слова - то и компьютер, в принципе, тоже может и никакого ИИ для этого не нужно.
С темпом речи вообще вроде никаких проблем, даже в имеющихся программах....
rquester вне форума  
Ответить с цитированием
Непрочитано 08.03.2009, 22:25   [включить плавающее окно]   #8
АсУ
Мужской Запрещенный
 
Аватар для АсУ
 
Регистрация: 20.09.2006
Адрес: везде и всегда
А как на этот счет MS Ofice 2007 ?
АсУ вне форума  
Конфигурация ПК
Ответить с цитированием
Непрочитано 10.03.2009, 00:28   [включить плавающее окно]   #9
rquester
Мужской Новенький
 
Регистрация: 04.03.2009
Адрес: Санкт-Петербург
Цитата
А как на этот счет MS Ofice 2007 ?
Насколько я знаю (2007 не смотрел) Ms Office использует стандартные SAPI интерфейсы. То есть, какой в системе установлен движок, такое и качество.
Если тот же движок, что ставится с SAPI - распознавание очень плохое (для английского языка, для русского ничего и не было вроде). Достаточно чётко распознаёт несколько звуков и регулярно придумывает слова, отсутствующие в тексте. 50 процентов похожих на сказанные слова, 20 процентов угаданных слов, 30% - полнейшая отсебятина. По крайней мере, мне добиться лучшего не удалось... У меня, правда, английское произношение далеко не идеальное, но те 30% вообще когда речи нет возникали...
rquester вне форума  
Ответить с цитированием
Непрочитано 10.03.2009, 11:27   [включить плавающее окно]   #10
АсУ
Мужской Запрещенный
 
Аватар для АсУ
 
Регистрация: 20.09.2006
Адрес: везде и всегда
rquester Спасибо. Для себя делаю вывод (относительно MS Ofice 2007): не стоит замарачиваться.
АсУ вне форума  
Конфигурация ПК
Ответить с цитированием
Непрочитано 10.03.2009, 11:51   [включить плавающее окно]   #11
Antichrist
Мужской Продвинутый
 
Аватар для Antichrist
 
Регистрация: 12.10.2007
Среди английских Dragon Dictate и Dragon Naturally speaking. Первая ориентирована на набор текста, а вторая на управление компом с помощью голоса. Из руских юзал только Горыныча(по ходу он построян на ядре Dragon Dictate). Вцелом качесвто распознавания зависило от того сколько я слов правильно надиктую при настройке. Ну там всегда в начале давали прочитать текст если читать их все больше и с правильным произношением то прожка будет работать более-менее. Фишка в том что для русского Горыныча надо было надиктовывать каждое слово в отдельности, а это занимало массу времени. Интересным является не только speach-to-text технология, но и обратная text-to-speach. Среди движков такого рода из русских мне больше всего понравился Digalo Nikolai(как ни странно французкого производства), а для англ. вполне катит стандартный Microsoft Sam.
__________________
Дьявол не искушает грешников и неверующих, ибо они уже его.
Antichrist вне форума  
Конфигурация ПК
Ответить с цитированием
Непрочитано 10.03.2009, 12:21   [включить плавающее окно]   #12
АсУ
Мужской Запрещенный
 
Аватар для АсУ
 
Регистрация: 20.09.2006
Адрес: везде и всегда
Цитата (Antichrist) »
Antichrist
Digalo Nikolai надо попробовать. Пока при случае пользуюсь Гудди от ПРОМТа.

Алексей с Украины добавил :

Antichrist Это она и есть? http://209.85.129.132/search?q=cache...lr=lang_uk</a>
АсУ вне форума  
Конфигурация ПК
Ответить с цитированием
Непрочитано 10.03.2009, 15:25   [включить плавающее окно]   #13
rquester
Мужской Новенький
 
Регистрация: 04.03.2009
Адрес: Санкт-Петербург
Цитата
Среди движков такого рода из русских мне больше всего понравился Digalo Nikolai
На данный момент уже есть усовершенствованные версии Николая (пишет файлы быстрее, не вылетает на некоторых словах, Speech Cube Nikolai, еще какие-то версии, но нужно смотреть чтобы он понимал ударения в тексте - некоторые версии (особенно SAPI5) не понимают), а так же движки Алёна (Acapella-Group Alena) (лучше версию 22.10 так как у более ранних есть проблема с синтезом под SAPI4) и Ольга (Loquendo Olga). Еще приемлема Realspeak Katerina. У всех синтез очень приличный. Еще можно попробовать с помощью Книгодела заставить говорить по-русски польскую Ania (Acapela-Group).
Основная проблема - расстановка ударений, в особенности на омографы (типа рУки/рукИ), решается с помощью моей разработки - Книгодела (http://www.bludnikov.ru/soft2.htm) (он работает со всеми указанными движками, формат вывода выбирается в настройках, а затем выполняется команда Export, оптимальные варианты установок, на мой взгляд, Diagalo-Nikolai, Alena (транскрипция), Olga (новая) для соответствующих движков). (Альтернативное решение - словари замен - даёт гораздо худший результат).
P.S.: когда смотрел Горыныча (было это, правда, очень давно, лет 10 назад) он даже (с обучением) не всегда мог отличить "к" от "вобла" (при трёх словах, которым его обучил).

Последний раз редактировалось rquester; 10.03.2009 в 15:57.
rquester вне форума  
Ответить с цитированием
Непрочитано 10.03.2009, 21:36   [включить плавающее окно]   #14
Antichrist
Мужской Продвинутый
 
Аватар для Antichrist
 
Регистрация: 12.10.2007
При распознавании речи на качество влияют многие факторы: Тип микрофона(Все советуют close-talk), громкость источника, скорость чтения, четкость дикции, внешние шумы и т.д. Я юзаю микрофон который шел в комплекте от моей мамки ASUS. Он не close-talk, но зато стерео и с подавлением шумов(циклически повторяющихся звуков и антифидбек). Установка этого микрофона значительно улучшила качество распознавания.

Antichrist добавил :

Алексей с Украины
Цитата
Antichrist Это она и есть? http://209.85.129.132/search?q=cach...l=ru&lr=lang_uk [/url]
Я с оффсайта качал. Но адрес не помню. Нашел вот-такое:
http://www.programy.com.ua/ukr/download/187944/
__________________
Дьявол не искушает грешников и неверующих, ибо они уже его.
Antichrist вне форума  
Конфигурация ПК
Ответить с цитированием
Непрочитано 11.03.2009, 07:09   [включить плавающее окно]   #15
Dead Krow
Мужской Начинающий
Автор темы
 
Регистрация: 22.02.2009
SAPI - ? что это??? у кого нибудь есть FAQ по этому поводу???
кто пробовал переводить речь в текст опишите какое нужно оборудование и как выглябит процесс, схоже с просто записью речи на комп???
Dead Krow вне форума  
Ответить с цитированием
Непрочитано 11.03.2009, 16:40   [включить плавающее окно]   #16
rquester
Мужской Новенький
 
Регистрация: 04.03.2009
Адрес: Санкт-Петербург
Dead Krow
Цитата
SAPI - ? что это???
SAPI - это Speech API, интерфейс, который Microsoft предоставляет для работы с речью (синтез и распознавание) Sapi5 SDK можно скачать с сайта Microsoft - это набор для программирования, но в составе есть англоязычные движки для синтеза и распознавания. И программы работающие в комплекте тоже есть.
Цитата
кто пробовал переводить речь в текст опишите какое нужно оборудование и как выглябит процесс, схоже с просто записью речи на комп???
Из оборудования нужен только микрофон, в принципе, любой (желательно того типа, на котором отлаживалась программа). Желательно уменьшить шумы. Потом запускается либо идущая в комплекте программа, либо внешняя, поддерживающая работу с голосом. Нажимается кнопка распознавания, после чего все начитанное появляется в виде текста. Теоретически...
Для лучшего распознавания можно сделать калибровку - заданный текст читается в микрофон.
rquester вне форума  
Ответить с цитированием
Непрочитано 17.03.2009, 18:53   [включить плавающее окно]   #17
Max Ader
Мужской Заслуженный
 
Аватар для Max Ader
 
Регистрация: 18.02.2004
Адрес: ???
Был бы спрос хороший - все бы уже появилось... А так, маловата (с точки зрения индустрии) целевая база и ее возможности.
__________________
I'm in the way, aren't I?!
Max Ader вне форума  
Конфигурация ПК
Ответить с цитированием
Непрочитано 19.03.2009, 19:08   [включить плавающее окно]   #18
rquester
Мужской Новенький
 
Регистрация: 04.03.2009
Адрес: Санкт-Петербург
Max Ader
Цитата
Был бы спрос хороший - все бы уже появилось... А так, маловата (с точки зрения индустрии) целевая база и ее возможности.
На самом деле, целевая база работоспособной системы распознавания - практически все домашние пользователи. ДУ телевизором и музыкальным центром (гораздо проще сказать "TV, отключи звук", чем искать пульт), диктовка текста (дома, в офисе, конечно, этот вариант не подойдёт), голосовое управление ОС и программами ("Калькулятор, сколько будет 125 на 256?", "Какой сейчас курс доллара?","Какая завтра ожидается погода?"), играми и т.д.
Но это - для стабильно распознающей системы с минимальным процентом ложных срабатываний. Если синтез на данный момент уже достаточно хорош для использования на практике (хотя проблемы есть - относительно небольшое число голосов, одноязычность каждого голоса, отсутствие стандартов для движков в SAPI (например, не стандартизован символ ударения)), недостаточно интонаций и т.д., но проблемы решаемые в достаточно короткие сроки), то распознавание даёт сбои слишком часто. При таком проценте ошибок область применения оказывается действительно небольшой...

Последний раз редактировалось rquester; 19.03.2009 в 19:11.
rquester вне форума  
Ответить с цитированием
Непрочитано 20.03.2009, 14:58   [включить плавающее окно]   #19
Max Ader
Мужской Заслуженный
 
Аватар для Max Ader
 
Регистрация: 18.02.2004
Адрес: ???
Цитата (rquester) »
На самом деле, целевая база работоспособной системы распознавания - практически все домашние пользователи.
Готовой к применению, как сами же и отметили. А на какие шиши? Они за это заплатят? "Индейская национальная изба... Фиг-вам, называется!" (с) А слабовидящих и т.д. маловато будет, запросы у них несколько другие и они готовы и сами обучаться и машину учить. "Приплыли..." (с) Так что удивляться неспешному прогрессу в данной отрасли? Как правильно отметили - ИИ (его отсутствие) тут не при делах. С ним бы было то же самое.
__________________
I'm in the way, aren't I?!
Max Ader вне форума  
Конфигурация ПК
Ответить с цитированием
Непрочитано 21.03.2009, 01:01   [включить плавающее окно]   #20
abraxas
Женский Недосягаемый
 
Аватар для abraxas
 
Регистрация: 10.11.2003
Адрес: EU
Цитата (Max Ader) »
А на какие шиши? Они за это заплатят? "Индейская национальная изба... Фиг-вам, называется!" (с)
вы будете удивлены, но в основной массе своей пользователи платят за программное обеспечение. Именно поэтому компании, производящие платное ПО, живут и процветают.
abraxas вне форума  
Ответить с цитированием
Непрочитано 21.03.2009, 02:43   [включить плавающее окно]   #21
rquester
Мужской Новенький
 
Регистрация: 04.03.2009
Адрес: Санкт-Петербург
Max Ader
Цитата
Готовой к применению, как сами же и отметили. А на какие шиши? Они за это заплатят?
Первоначальные инвестиции окупятся достаточно быстро (если, конечно, сделать нормальную систему). Тот же Fine Reader же сделали, и вроде не в убыток...
Цитата
А слабовидящих и т.д. маловато будет
Даже их - вполне достаточно, чтобы окупить разработку. А ещё есть фирмы, где распознавание требуется (автоответ по телефону, протоколирование и т.д.). А бизнес-решения всегда стоят дорого...
Кстати, в некоторые устройства, распознавание и практически в текущем виде можно встраивать - игрушки там или фоторамки, скажем... С одной стороны - ошибки совершенно некритичны, с другой - решение становится очень привлекательно для покупателя всяких имиджевых решений...
Цитата
Так что удивляться неспешному прогрессу в данной отрасли?
Удивляться, конечно, не следует, но не из-за недостатка денег в отрасли. Проблема стандартная - крупные фирмы не способны разработать ничего нового (так как это риск, то лучше вложить деньги в предсказуемую область (скажем, выпуск программы в яркой обёртке или бесконечное перерисовывание иконок для уже готовых программ под видом новых версий), а если подвернётся небольшая фирма, разработавшая распознавание - купить её), а малым фирмам под такие рискованные разработки никто кредит не даёт.
По сути, надежда только на индивидуалов-энтузиастов (которые в конечном счёте либо организуют свою фирму, либо продают разработку) и, возможно, крупные западные институты (хотя там тоже грантовая система, которая требует либо предсказуемости, либо рекламы (в большинстве случаев не по делу), так что надееться особо не на что)...

Последний раз редактировалось rquester; 21.03.2009 в 02:48.
rquester вне форума  
Ответить с цитированием
Непрочитано 23.03.2009, 17:42   [включить плавающее окно]   #22
Max Ader
Мужской Заслуженный
 
Аватар для Max Ader
 
Регистрация: 18.02.2004
Адрес: ???
Цитата (rquester) »
Тот же Fine Reader же сделали, и вроде не в убыток...
Эээ... Не очень-то и корректно. Тут и невооруженным глазом видно что спрос выше на пару порядков, минимум, при значительно меньшей сложности самой задачи. Программы распознавание образов уже и тест Тьюринга проходят... Правда, не стали от этого разумными
Цитата
Даже их - вполне достаточно, чтобы окупить разработку.
А их оно уже устраивает, по большему счету. И запросы у них, как бы это описать, специфические (судя по знакомому слепому).
Цитата
А ещё есть фирмы, где распознавание требуется...
А они готовы заплатить столько сколько это будет стоить ? Я же наблюдаю, что нет. А кому надо уже используют имеющиеся решения и не жужжат.
Цитата
А бизнес-решения всегда стоят дорого...
А тож - Dragon NSM 10 стоит ~2000 у.е. а начинали с 9000 у.е. за одну лицензию
Цитата
Кстати, в некоторые устройства, распознавание и практически в текущем виде можно встраивать - игрушки там или фоторамки, скажем... С одной стороны - ошибки совершенно некритичны, с другой - решение становится очень привлекательно для покупателя всяких имиджевых решений...
Вы не очень удивитесь тому что оно как-то вот уже встречается, но не влияет на прогресс? Я вот видел детскую игрушку с управлением голосом... аж в 97-ом году
Цитата
Проблема стандартная - крупные фирмы не способны разработать ничего нового...
Ай ай ай... Опять Бил во всем виноват, оказывается А может быть 27 лет копания темы на деньги военных и министерства здравоохранения показали не очень высокую целесообразность данного поступка со стороны чисто коммерческой точки зрения? Вот и подрабатывают по чуть-чуть (дюжина компаний в этой области же на что-то живет... софт там пишет... продает алгоритмы всяким Nokia-Sony...), а не сломя голову... на стену...
__________________
I'm in the way, aren't I?!

Последний раз редактировалось Max Ader; 23.03.2009 в 17:56.
Max Ader вне форума  
Конфигурация ПК
Ответить с цитированием
Непрочитано 23.03.2009, 17:44   [включить плавающее окно]   #23
Max Ader
Мужской Заслуженный
 
Аватар для Max Ader
 
Регистрация: 18.02.2004
Адрес: ???
abraxas
Цитата
вы будете удивлены
Да ни разу Вы просто не поняли мою мысль.
__________________
I'm in the way, aren't I?!
Max Ader вне форума  
Конфигурация ПК
Ответить с цитированием
Непрочитано 23.03.2009, 19:30   [включить плавающее окно]   #24
rquester
Мужской Новенький
 
Регистрация: 04.03.2009
Адрес: Санкт-Петербург
Max Ader
Цитата
Эээ... Не очень-то и корректно. Тут и невооруженным глазом видно что спрос выше на пару порядков, минимум, при значительно меньшей сложности самой задачи.
Я бы сказал, что сложность меньше, но незначительно. Пожалуй, разработка программы распознавания текста более предсказуема ( хотя бы на конкретном шрифте да будет работать) - это да.
Спрос, на самом деле приблизительно такой же (хотя более смещён в бизнес-область, это, конечно, плюс) - сканер есть у небольшого числа домашних пользователей и, в среднем, один на предприятие... Микрофон же есть у большинства пользователей (гарнитуры - проводные и Bluetooth, обычные микрофоны, web-camer'ы со встроенным микрофоном...). Не говоря уж об MP3-плеерах с диктофоном. И почти все эти пользователи с радостью воспользуются системой распознавания (естественно, она должна быть достаточно точной, но, в принципе, с распознаванием текста стояла та же проблема).

Цитата
А их оно уже устраивает, по большему счету. И запросы у них, как бы это описать, специфические (судя по знакомому слепому).
Насколько я знаю (в интернете контактировал), сейчас они, в основном, распознаванием речи не пользуются - просто учатся печатать десятипальцевым методом и ставят программы для проговаривания буфера обмена/экрана/активного окна - на практике такой вариант получается гораздо надежнее, чем имеющиеся программы распознавания.
Цитата
А они готовы заплатить столько сколько это будет стоить?
Насколько я понимаю ситуацию - да, согласны (оплата пяти-десяти человек и года работы - не такие большие, по меркам бизнеса, деньги). Но им нужны гарантии, что не получится система не распознающая ничего. А такой гарантии разработчики дать не могут - как и у всякого исследования, 90% разработок идут в мусорную корзину (это не считая желающих получить деньги и ничего не делать, отмазавшись что ничего не получилось).

Цитата
А кому надо уже используют имеющиеся решения и не жужжат.
Если имеющиеся решения устраивают... Но в подавляющем большинстве случаев они не устраивают, даже если очень надо...

Цитата
А тож - Dragon NSM 10 стоит ~2000 у.е. а начинали с 9000 у.е. за одну лицензию
Так если он ничего не распознаёт... А все, кого устраивал ("да" от "нет" отличать, скажем) - уже купили... Да и конкуренты (впрочем, с такими же не работающими системами) появились...
Цитата
Вы не очень удивитесь тому что оно как-то вот уже встречается, но не влияет на прогресс? Я вот видел детскую игрушку с управлением голосом... аж в 97-ом году
Если разработчик не может предоставить заметно лучшего распознавания чем в 97-ом - то естественно прогресса не будет... Но если предложит лучшее - игрушки перейдут на него...
Цитата
Ай ай ай... Опять Бил во всем виноват, оказывается
Не Бил, а сами принципы, положенные в основу бизнеса (особенно крупного) - требуется предсказуемость... Вот закон Мура придумали - появилась предсказуемость, полупроводниковая промышленность стала развиваться. Причем даже если была где-то возможность ускорить прогресс, бизнес этот вариант отметал - всё рассчитано именно на такие темпы.
Цитата
А может быть 27 лет копания темы на деньги военных и министерства здравоохранения показали не очень высокую целесообразность данного поступка со стороны чисто коммерческой точки зрения?
Так я и говорю почему. Поэтому и приходится ждать индивидуала-энтузиаста...
Цитата
Вот и подрабатывают по чуть-чуть (дюжина компаний в этой области же на что-то живет... софт там пишет... продает алгоритмы всяким Nokia-Sony...), а не сломя голову... на стену...
На самом деле, если компания начинает подрабатывать, то она в этих подработках и увязает. То есть, для нее получается выгоднее пополнить словарь, сделать красивее интерфейс..., а не улучшить распознавание... Это и видим на практике...

Последний раз редактировалось rquester; 23.03.2009 в 19:34.
rquester вне форума  
Ответить с цитированием
Непрочитано 24.03.2009, 15:02   [включить плавающее окно]   #25
Max Ader
Мужской Заслуженный
 
Аватар для Max Ader
 
Регистрация: 18.02.2004
Адрес: ???
Цитата (rquester) »
Я бы сказал, что сложность меньше, но незначительно.
И поэтому с этой задачей (выдать очередную распозновалку) справляются да же одиночки-студенты на карманные деньги... ага... незначительно
Цитата
И почти все эти пользователи с радостью воспользуются системой распознавания (естественно, она должна быть достаточно точной, но, в принципе, с распознаванием текста стояла та же проблема).
И почему не пользуются ? Обучи тот же Dragon и пользуйся на здоровье. Мой ПК замечательно им рулился году так в 95-ом.
Цитата
оплата пяти-десяти человек и года работы - не такие большие, по меркам бизнеса, деньги
А вот мне кажется, что там ни разу ни год работы нужен и ни разу ни десяток человек. А сильно и сильно больше нужно для Вашего ожидаемого результата.
Цитата
Но в подавляющем большинстве случаев они не устраивают, даже если очень надо...
А может просто кто-то слишком много хочет сразу ?
Цитата
Так если он ничего не распознаёт...
Он замечательно распознает.
Цитата
Но если предложит лучшее - игрушки перейдут на него...
А Вы не боитесь, что алгоритм+софт способный справиться с блеянием любого ребенка будет стоить как серия авианосцев ?
Цитата
Вот закон Мура придумали - появилась предсказуемость, полупроводниковая промышленность стала развиваться.
Она прекрасно собе развивалась и до Мура. Не путайте причину и следствие.
Цитата
Поэтому и приходится ждать индивидуала-энтузиаста...
Ага... щазззз... Они и синтез-то на уровне поделок десятилетней давности выдать не могут.
__________________
I'm in the way, aren't I?!

Последний раз редактировалось Max Ader; 24.03.2009 в 15:12.
Max Ader вне форума  
Конфигурация ПК
Ответить с цитированием
Непрочитано 24.03.2009, 22:22   [включить плавающее окно]   #26
rquester
Мужской Новенький
 
Регистрация: 04.03.2009
Адрес: Санкт-Петербург
Цитата
И поэтому с этой задачей (выдать очередную распозновалку) справляются да же одиночки-студенты на карманные деньги... ага... незначительно
А что, с распознаванием текста было лучше?
Цитата
И почему не пользуются ? Обучи тот же Dragon и пользуйся на здоровье. Мой ПК замечательно им рулился году так в 95-ом.
Во-первых, как раз версию Горыныча где-то 95 года, я пробовал обучать - не удалось добиться даже базовых результатов (из трёх слов не могла даже правильно выбрать подходящее, а для нормальной работы нужно хотя бы сотню слов с 99% распознаванием и 0% ложных срабатываний). Во-вторых, для режима диктовки, обучать каждому слову вообще нереально - в русском языке их несколько миллионов (если все формы считать).
Цитата
А вот мне кажется, что там ни разу ни год работы нужен и ни разу ни десяток человек. А сильно и сильно больше нужно для Вашего ожидаемого результата.
Для этого нужен правильный алгоритм, а не много народу. На самом деле вполне могут справиться один-два человека. Если же алгоритм не правильный, то хоть сотню людей бери...
Цитата
А может просто кто-то слишком много хочет сразу?
Нет, на данный момент внятное распознавание уже назрело.
Цитата
Он замечательно распознает.
Мои опыты с Горынычем и Майкрософтовским распознавателем показали, что нет. Насколько я знаю, эксперименты подавляющего большинства людей закончились тем же...
Цитата
А Вы не боитесь, что алгоритм+софт способный справиться с блеянием любого ребенка будет стоить как серия авианосцев?
Нет. Если он будет стоить как серия авианосцев - придёт конкурент (вполне возможно, что и бесплатный) и решит проблему.
Цитата
Она прекрасно собе развивалась и до Мура. Не путайте причину и следствие.
Закон Мура - причина. То есть, конечно, развитие было и до него, но если бы этот бизнес-закон не появился, то с компьютерами всё было бы гораздо хуже. А так - производители софта закладываются на конкретный рост, производители оборудования для литографии закладываются, сборщики компьютеров закладываются...
Цитата
Ага... щазззз... Они и синтез-то на уровне поделок десятилетней давности выдать не могут
Мой алгоритм различия омографов для русского языка (ну и вообще расстановки ударений), насколько я знаю, на данный момент лучший Сделан в одиночку.
http://www.bludnikov.ru/soft2.htm

Последний раз редактировалось rquester; 24.03.2009 в 22:45.
rquester вне форума  
Ответить с цитированием
Непрочитано 30.03.2009, 12:35   [включить плавающее окно]   #27
Max Ader
Мужской Заслуженный
 
Аватар для Max Ader
 
Регистрация: 18.02.2004
Адрес: ???
Цитата (rquester) »
Для этого нужен правильный алгоритм, а не много народу. На самом деле вполне могут справиться один-два человека.
Щаззззз Вот в этой области такого не светит принципиально.
Цитата
Нет. Если он будет стоить как серия авианосцев - придёт конкурент (вполне возможно, что и бесплатный) и решит проблему.
Блажен кто верует.... (с)
Цитата
Закон Мура - причина.
То есть, Мур взял миллиметровку, нарисовал на ней график ДЛЯ НАБЛЮДАЕМОЙ ДИНАМИКИ и оба-на, создал "причину"
Цитата
Мой алгоритм различия омографов для русского языка (ну и вообще расстановки ударений), насколько я знаю, на данный момент лучший Smile Сделан в одиночку.
Он настолько "лучший", что из надцати попробовавших на хоботе никто не смог понять что же оно там говорит Нет, безусловно, по сравнению с тем что Вы показали нам почти год назад имеется положительная динамика... Но... Один из десяти сможет понять (с трудом и исходным текстом) что же оно там бубнит - все равно не результат достойный восхищения (с точки зрения потенциального пользователя, естественно - давать оценку с точки зрения разработчика, лингвиста и т.д. я не берусь по понятным причинам)
Цитата
Во-первых, как раз версию Горыныча где-то 95 года, я пробовал обучать - не удалось добиться даже базовых результатов ...
Если Ваша речь похожа хотя бы отдаленно на результат Книгодела - не удивлен, я и сам это не могу разобрать
__________________
I'm in the way, aren't I?!

Последний раз редактировалось Max Ader; 30.03.2009 в 13:18.
Max Ader вне форума  
Конфигурация ПК
Ответить с цитированием
Непрочитано 31.03.2009, 19:04   [включить плавающее окно]   #28
rquester
Мужской Новенький
 
Регистрация: 04.03.2009
Адрес: Санкт-Петербург
Цитата
Щаззззз Вот в этой области такого не светит принципиально
А я думаю, что будет. Как только найдут правильный алгоритм.
Цитата
То есть, Мур взял миллиметровку, нарисовал на ней график ДЛЯ НАБЛЮДАЕМОЙ ДИНАМИКИ и оба-на, создал "причину"
Именно так. То есть по некоторым первым цифрам выходило увеличение транзисторов примерно в два раза, это были предпосылки для закона. Мур на основе этого дал прогноз (так как это выходило очень выгодно для фирмы). Дальнейшая же динамика уже благодаря закону Мура - эти цифры оказались оптимальными для индустрии.
Цитата
Он настолько "лучший", что из надцати попробовавших на хоботе никто не смог понять что же оно там говорит
Я говорил об алгоритме расстановки ударений. Он действительно лучший (из тех программ, что доступны, как минимум). Посмотреть результаты работы этого алгоритма можно командой Export (при этом только расставляется ударение, синтез, который не понравился, не производится). Претензий к этому алгоритму на хоботе не было, а было несколько положительных отзывов. На форуме mytts отзывы положительные (хотя там представлено большинство имеющихся программ), более того многие пользователи оттуда используют эту программу (и выдают данные для выхода еще лучших версий)...
Что касается непосредственно синтеза, то он еще далёк от идеала, но если учесть что на данный момент используется версия звука, записанного в ванной на диктофон (с жутким эхом) (иначе в домашних условиях не удавалось убрать шумы), то еще не факт что проблема в алгоритме... В ближайшее время собираюсь переписать звуки, вполне возможно, что результат будет неплохим...

Последний раз редактировалось rquester; 31.03.2009 в 19:12.
rquester вне форума  
Ответить с цитированием
Непрочитано 31.03.2009, 19:45   [включить плавающее окно]   #29
Max Ader
Мужской Заслуженный
 
Аватар для Max Ader
 
Регистрация: 18.02.2004
Адрес: ???
Цитата (rquester) »
Как только найдут правильный алгоритм.
Шутка юмора такая ? Правильный алгоритм чего? Люди, знаете ли, все говорят по своему. Для дикторов с радио вот современные алгоритмы уже "правильные". Под остальных нужны алгоритмы работы с толстенными базами, тематического анализа и обучения. Чуда не будет. Не надейтесь.
Цитата
Именно так.
Как все запущенно...
Цитата
Я говорил об алгоритме расстановки ударений.
Это Вы уже на этот форум умудренные предыдущим опытом пришли. Как Вы свое детище анонсировали ранее я могу и процитировать
Цитата
Претензий к этому алгоритму на хоботе не было, а было несколько положительных отзывов.
Согласен.
Цитата
Что касается непосредственно синтеза...
Ну вот не надо и тут этого Я, конечно, понимаю - раз за год Вам никто не смог это вдолбить то и тут я в одиночку нифига не исправлю. Собеседник видит только свое, сомнения отметает и опять бросается грудью на амбразуру А уж тему с распознаванием можно смело сворачивать
__________________
I'm in the way, aren't I?!
Max Ader вне форума  
Конфигурация ПК
Ответить с цитированием
Непрочитано 31.03.2009, 20:56   [включить плавающее окно]   #30
rquester
Мужской Новенький
 
Регистрация: 04.03.2009
Адрес: Санкт-Петербург
Цитата
правильный алгоритм чего?
Правильный алгоритм - это алгоритм дающий результат близкий к человеческому. Основная проблема, на мой взгляд, из-за того, что все алгоритмы не физиологичны, то есть классифицируют звуки непохожим на человека образом. Анализ временных характеристик, спектров, вэйвлетов и т.п. слишком далеки от того, что происходе в мозгу человека, использование нейронных сетей для распознавания так же не совсем корректно.
Цитата
Люди, знаете ли, все говорят по своему.
По своему. Но человек подстраивается практически под любой новый голос с первого слова... Хотя на его голосе не обучался... Причём даже если вырос где-нибудь в глуши, слыша голос только небольшого числа носителей языка...
Цитата
Для дикторов с радио вот современные алгоритмы уже "правильные".
Может для какого-то конкретно диктора... А так люди (на том же хоботе была соответствующая тема) пробовали даже для английского языка распознавать речь именно дикторов... На одном голосе процент был еще приличный, на другом постоянно сыпались ошибки... И это лучшие распознавалки для английского языка...
Цитата
Под остальных нужны алгоритмы работы с толстенными базами, тематического анализа и обучения.
Вот здесь и кроется, по все видимости, ошибка в алгоритме... Именно толстенных баз не должно быть, по крайней мере, очень на это похоже (судя по распознаванию человеком). Просто распознавание сейчас идет не по тем признакам, которым надо... Когда именно научатся распознавать именно по тем - другой вопрос.
Цитата
Это Вы уже на этот форум умудренные предыдущим опытом пришли. Как Вы свое детище анонсировали ранее я могу и процитировать
Да, но шел я и там впервую очередь от алгоритма расстановки ударения (тема посвященная Ударятелю примерно на год старше, чем Книгодел). Просто лично я распознаю практически все тексты Книгодела и для меня он понятен даже при таких некачественных базах, думал что и у других процент будет аналогичный...
rquester вне форума  
Ответить с цитированием
Непрочитано 31.03.2009, 22:02   [включить плавающее окно]   #31
Max Ader
Мужской Заслуженный
 
Аватар для Max Ader
 
Регистрация: 18.02.2004
Адрес: ???
Уже представил себе как энтузиаст на досуге разрешает надцать проблем современной нейрофизиологии и пишет пару десятков мюльонов строк кода "правильного алгоритма"
__________________
I'm in the way, aren't I?!
Max Ader вне форума  
Конфигурация ПК
Ответить с цитированием
Непрочитано 01.04.2009, 02:33   [включить плавающее окно]   #32
rquester
Мужской Новенький
 
Регистрация: 04.03.2009
Адрес: Санкт-Петербург
Max Ader
Энтузиаст - не значит ничего не знающий. Он может, например, учиться в аспирантуре и заниматься близкой темой (прикладная математика, исследование работы мозга, нейронные сети, фонетика....). Либо просто случайно наткнуться...
rquester вне форума  
Ответить с цитированием
Непрочитано 01.04.2009, 12:59   [включить плавающее окно]   #33
Max Ader
Мужской Заслуженный
 
Аватар для Max Ader
 
Регистрация: 18.02.2004
Адрес: ???
rquester
Цитата
Он может, например, учиться в аспирантуре и заниматься близкой темой (прикладная математика, исследование работы мозга, нейронные сети, фонетика....).
Ему это не поможет занимайся он этим хоть одновременно.
Цитата
Либо просто случайно наткнуться...
Случайно наткнуться на такой... писец... как ряд комплексных процессов в нашем мозге - такого не может быть. В принципе. Вообще. Это очень сложный и не оптимальный по своей природе черный ящик да же для специалистов.
__________________
I'm in the way, aren't I?!
Max Ader вне форума  
Конфигурация ПК
Ответить с цитированием
Непрочитано 01.04.2009, 22:21   [включить плавающее окно]   #34
rquester
Мужской Новенький
 
Регистрация: 04.03.2009
Адрес: Санкт-Петербург
Цитата
Случайно наткнуться на такой... писец... как ряд комплексных процессов в нашем мозге - такого не может быть.
Очень многие открытия делались, по сути, случайно, при исследовании совершенно других явлений. Для распознавания голоса достаточно исследуя какой-нибудь алгоритм обработки данных попробовать преобразовать с помощью него голос - если в результате большинство звуков (фонем или переходов между фонемами) будут резко отличаться от остальных, то это уже хорошо (на базе этого легко сделать систему распознавания зависимую от диктора), а если еще и разные голоса после обработки алгоритмом дают похожую картину... Дальше - уже дело техники. Поскольку со всякими вейвлетами и нейронными сетями аспиранты (а иногда и студенты) достаточно активно работают (и звук достаточно часто используется для проверки алгоритмов), то вероятность успеха достаточно высока. В любом случае, она выше, чем у фирм, которые обычно пытаются усовершенствовать один алгоритм...
rquester вне форума  
Ответить с цитированием
Непрочитано 02.04.2009, 13:41   [включить плавающее окно]   #35
Max Ader
Мужской Заслуженный
 
Аватар для Max Ader
 
Регистрация: 18.02.2004
Адрес: ???
Цитата (rquester) »
а если еще и разные голоса после обработки алгоритмом дают похожую картину...
Мечтать не вредно
__________________
I'm in the way, aren't I?!
Max Ader вне форума  
Конфигурация ПК
Ответить с цитированием
Непрочитано 02.04.2009, 19:41   [включить плавающее окно]   #36
rquester
Мужской Новенький
 
Регистрация: 04.03.2009
Адрес: Санкт-Петербург
Цитата
Мечтать не вредно
Но ведь у человека именно так... Почему же должны быть проблемы с этим у компьютера? Тем более, большинство звуков получаются разным способом (в принципе, лингвисты описали для всех звуков как движется язык, зубы...)... По происхождению звуки настолько разные, что должен быть способ их отличать.
Скорость обработки вообще не имеет значения (на начальном этапе) (для некоторых применений и распознавание в течении суток пары часов лекций на самом быстром компьютере - вполне нормально, особенно учитывая прогресс компьютеров).
Если разные алгоритмы будут чётко различать разные звуки (например, один - для гласных, другой для звонких согласных, третий для глухих, четвертый для шипящих, пятый - классифицирующий по классам) - их можно соединить (вот соединение разных алгоритмов, распознающих разные звуки может взять на себя и коммерческая фирма)...
rquester вне форума  
Ответить с цитированием
Непрочитано 15.04.2009, 14:39   [включить плавающее окно]   #37
rquester
Мужской Новенький
 
Регистрация: 04.03.2009
Адрес: Санкт-Петербург
Кстати, если кто-то хочет попробовать распознавание голоса, можно поставить Opera и в Настройка/Дополнительно/Голос допоставить голосовой модуль (10Мб). Правда, только англоязычный движок, но для базовой проверки и этого достаточно. Желательно выбрать режим "Клавиша не задействована", чтобы не надо было держать Scroll Lock при произнесении команд.
Теперь можно говорить команды (их можно посмотреть там же в Настройка/Дополнительно/Голос Правка). Opera speak, Opera back, Opera help, Opera page up, Opera dial 1..9.... Насколько реально пользоваться - смотрите сами. У меня она несколько раз вместо одной команды делала другую (например, Opera close all, а Opera dial four срабатывает вместо Opera dial two вообще в 90% случаев), и очень часто команда срабатывает через раз (а то и через несколько), а так - нормально.
Но это только выбор команды из нескольких вариантов (по сути - программе нужно угадать в сказанном пару звуков) и то временами ошибается...

P.S.: Некоторые команды мне не удалось активировать - например, Opera zoom in/zoom out у меня вообще ни разу не сработали, так же не работала Opera paste and go, перемещение по ссылкам...

Последний раз редактировалось rquester; 15.04.2009 в 14:50.
rquester вне форума  
Ответить с цитированием
Ответ Создать новую тему

Опции темы
Опции просмотра

Ваши права в разделе
Вы не можете создавать новые темы
Вы не можете отвечать в темах
Вы не можете прикреплять вложения
Вы не можете редактировать свои сообщения

BB коды Вкл.
Смайлы Вкл.
[IMG] код Вкл.
HTML код Выкл.

Быстрый переход


Текущее время: 23:09. Часовой пояс GMT +3.


Powered by vBulletin® Version 3.8.4
Copyright ©2000 - 2019, Jelsoft Enterprises Ltd. Перевод: zCarot
Copyright © 2000-2017 3DNews. All Rights Reserved.
Администрация 3DNews требует соблюдения на форуме правил и законов РФ
Серверы размещены в Hostkey