User Tag List

Страница 1 из 2 12 ПоследняяПоследняя
Показано с 1 по 10 из 20

Тема: Как на ZX делали синтез голоса? (размышления об ИИ)

  1. #1
    Member
    Регистрация
    18.06.2010
    Адрес
    г. Рязань
    Сообщений
    62
    Спасибо Благодарностей отдано 
    8
    Спасибо Благодарностей получено 
    4
    Поблагодарили
    3 сообщений
    Mentioned
    0 Post(s)
    Tagged
    0 Thread(s)

    По умолчанию Как на ZX делали синтез голоса? (размышления об ИИ)

    Здравствуйте!
    Не нашёл более подходящего раздела.
    В свободное время от работы и мыслей о Dizzy я очень люблю поразмышлять на тему распознавания и синтеза речи, распознавания образов и вообще искусственном интеллекте. Здесь хочу поделиться своими мыслями и запросить некоторой помощи связанной напрямую с платформой ZX.

    Сперва немного о задаче распознавания образов. Кто-то считает что эта задача уже неплохо решается нейронными сетями, но у меня несколько другой взгляд на эту тему.
    Первое. Посмотрите что может наш мозг. Взгляд человека легко выхватывает множество подобных предметов на изображении. В том числе глядя на слово "молоко" быстро бросается в глаза как много букв "о" в этом слове. Объекты могут различаться размером, цветом или ориентацией в пространстве, но человек всё равно легко объединяет их в "подобные". Глядя например на зебру, мы не просто классифицируем объект как зебра, мы можем также сказать где у неё уши, глаза, рот и т.д. Видя незнакомый объект мы тем не менее можем описать его форму через знакомые примитивы. Глядя на кучу подобных объектов, например игрушечных машинок, мы тем не менее можем представить как выглядит модель целиком, хотя и ни один объект не видим разом со всех сторон. Фактически мы умеем "достраивать" трёхмерную модель по 2-хмерному изображению. В этой в связи было бы интересно каким-либо образом создать композицию на самом деле различных объектов сложенных в кучу тем не менее воспринимаемых разумом как одно и тоже. Всё что умеют нейронные сети это решать задачу "классификации" объектов и то без уверенности. Человек никогда не меряет свою уверенность в процентах, всё что он может сказать, это то что он уверен или всё ещё сомневается и это отнюдь не похоже на установленный предел "уверен если какой-то там синтетический математический параметр больше 90%".
    Второе. Обучение. Человеку не нужно увидеть 100 изображений кабарги, в разных контекстах, чтобы научиться распознавать её. Достаточно одного чтобы уверенно распознавать взрослую особь и может быть ещё одного чтобы различать детёнышей. Где это в хвалёных нейронных сетях?
    Третье. Здесь начинается конструктив. Если представить изображение в виде капелек воды, то всё что пытаются сделать современные нейронные сети, это фактически согнать всю воду в одну точку в зависимости от изображения, прогнав её через какой-то фильтр. В разные точки в зависимости от желаемой классификации, но в одну. А если одной точки не получилось (а не получается на самом деле на любом примере не из выборки на которой нейронная сеть обучалась), то решить что верна та точка на которой воды скопилось больше всего. Стоит ли удивляться быстрому росту числа ошибок при возрастании числа классов при таком подходе? Как мне кажется истина в том что у современных сетей просто перепутаны немного входы и выходы. Не изображение на входе, классификация на выходе и обучение (подбор фильтра) до распознавания, а шаблон на входе, изображение на выходе и подбор такого фильтра, чтобы капельки воды из шаблона легли на изображение при каждом распознавании. Не смогли подобрать фильтр? Значит шаблона на изображении не представлено. Получилось? Конфигурация фильтра и есть ответ на все вопросы об изображении. При таком подходе вы сможете сказать "где ухо?"

    Теперь о задаче распознавания речи. Знаете чем звук похож на цвет? Тем что если с детства вы приучены называть и коралловый и перламутровый и цвет кожи поросёнка одним словом "розовый", то вы перестаёте их различать. Точно также при изучении языка эсперанто русский человек не может уловить разницы в звуках h и ĥ. А китайцу изучающему русский очень сложно уловить суть звука "р". На самом деле и звук и свет суть есть волна. Эта особенность восприятия через названия есть особенность восприятия волн человеческой психикой.
    Весь воспринимаемый диапазон цветов человеческим глазом укладывается в одну "октаву", т.е. минимальная длина воспринимаемой световой волны нашим глазом примерно в два раза меньше максимальной длины волны. И на "световую октаву" в нашем глазу 3 рецептора, а цветов в радуге человек интуитивно называет 7. Точно также на звуковую октаву интуитивно человек назвал семь нот. А звуковых октав человек воспринимает до 10. И я подозреваю что точно также как со светом в мозге человека запрятано по три рецептора звуков на каждую октаву. Как каждый рецептор реагирует на какую-либо частоту и как это вызнать у меня нет ответа, но подозреваю копать нужно в сторону восприятия аккордов.

    Теперь наконец к теме. Мне думается что задача распознавания голоса и его синтеза связаны не разрывно, нельзя решать одну задачу без другой. В современных вроде бы успешных решениях меня не устраивает примерно тоже что и в решениях для распознавания образов: сложность обучения, странная неточность в определении границ слов, отсутствие различения интонаций.

    Так вот в этой теме я хотел спросить знающих людей как устроен музыкальный сопроцессор ZX? Какие вообще звуки он способен воспроизводить кроме тех что доступны через BASIC (помню в детстве воспроизводили несколько мелодий из папиного пособия по игре на баяне по нотам) и как на этих звуках удалось построить синтез голоса в таких играх как Robocop и даже какой-то части Dizzy? Я понимаю, что это и не синтез вовсе, а просто аппроксимация готового звукового сигнала средствами музыкального сопроцессора. Просто интересно, а можно ли например наиграть какие-то слова, чтобы они были узнаваемыми на фортепьяно или гитаре? И какие ноты в этом случае бы были у того же слова "Dizzy" или "Robocop". А если нельзя, то всё же задавшись целью какие музыкальные инструменты подошли бы для этой цели?

  2. #1
    С любовью к вам, Yandex.Direct
    Размещение рекламы на форуме способствует его дальнейшему развитию

  3. #2
    Guru
    Регистрация
    27.02.2005
    Адрес
    москва
    Сообщений
    13,801
    Записей в дневнике
    1
    Спасибо Благодарностей отдано 
    148
    Спасибо Благодарностей получено 
    1,192
    Поблагодарили
    785 сообщений
    Mentioned
    18 Post(s)
    Tagged
    0 Thread(s)

    По умолчанию

    Цитата Сообщение от unDEFER Посмотреть сообщение
    как на этих звуках удалось построить синтез голоса в таких играх как Robocop и даже какой-то части Dizzy?
    тупо играется семпл.
    с более хорошим качеством 4бита - (RoboCop/SWIV) c AtariST,
    в DIZZY3 вообще однобитный с с64

  4. #3
    Member
    Регистрация
    18.06.2010
    Адрес
    г. Рязань
    Сообщений
    62
    Спасибо Благодарностей отдано 
    8
    Спасибо Благодарностей получено 
    4
    Поблагодарили
    3 сообщений
    Mentioned
    0 Post(s)
    Tagged
    0 Thread(s)

    По умолчанию

    Ну в смысле сэмпл? Что это означает в данном контексте?
    В моём PC-шном понимании сэмпл - это один отчёт. Число от -32768 до 32767 если звук просэмплирован с разрешением 16 бит.
    Знаю, что кажется в трэковой музыке есть понятие сэмпла просто как какого-то произвольного звука.
    Был опыт когда я по спектру в музыкальном языке программирования Chuck составлял звук хохота из отдельных частотных составляющих.
    А как в ZX задаются эти сэмплы я не знаю. Вроде там до трёх каналов сопроцессор может воспроизводить одновременно. А что именно может быть воспроизведено в одном канале, какой там набор звуков, я не знаю.
    Можете пояснить своими словами, пожалуйста, или дать ссылку где почитать?

  5. #4
    Guru
    Регистрация
    27.02.2005
    Адрес
    москва
    Сообщений
    13,801
    Записей в дневнике
    1
    Спасибо Благодарностей отдано 
    148
    Спасибо Благодарностей получено 
    1,192
    Поблагодарили
    785 сообщений
    Mentioned
    18 Post(s)
    Tagged
    0 Thread(s)

    По умолчанию

    Цитата Сообщение от unDEFER Посмотреть сообщение
    Вроде там до трёх каналов сопроцессор может воспроизводить одновременно. А что именно может быть воспроизведено в одном канале, какой там набор звуков, я не знаю.
    там не звуки, а громкость.
    принцип работы АЦП / ЦАП известен ?

  6. #5
    Member
    Регистрация
    18.06.2010
    Адрес
    г. Рязань
    Сообщений
    62
    Спасибо Благодарностей отдано 
    8
    Спасибо Благодарностей получено 
    4
    Поблагодарили
    3 сообщений
    Mentioned
    0 Post(s)
    Tagged
    0 Thread(s)

    По умолчанию

    Да, известен. Я правильно понимаю что понятие сэмпла как такового и не изменилось вовсе?
    Вы указали 4 бита и даже 1 бит. Это же значение от -8 до 7 или вообще +/-1.
    Даже не верится что при таком разрешении вообще возможно воспроизвести что-то вменяемое.
    А какова частота дискретизации в таком случае?
    Т.е. все эти каналы/ноты это лишь программная надстройка, а музыкальный сопроцессор ничего про это и не знает вовсе?

  7. #6
    Guru
    Регистрация
    27.02.2005
    Адрес
    москва
    Сообщений
    13,801
    Записей в дневнике
    1
    Спасибо Благодарностей отдано 
    148
    Спасибо Благодарностей получено 
    1,192
    Поблагодарили
    785 сообщений
    Mentioned
    18 Post(s)
    Tagged
    0 Thread(s)

    По умолчанию

    Цитата Сообщение от unDEFER Посмотреть сообщение
    Даже не верится что при таком разрешении вообще возможно воспроизвести что-то вменяемое.
    https://archive.org/download/World_o...Crash).tap.zip
    вот пример однобитного вывода на бипер (слушайте после выбора StartMission в меню)

  8. Эти 2 пользователя(ей) поблагодарили goodboy за это полезное сообщение:

    Oleg N. Cher (29.03.2021), unDEFER (28.03.2021)

  9. #7
    Сибирский антропоморфн Аватар для Black Cat / Era CG
    Регистрация
    06.05.2010
    Адрес
    Бердск, НСО
    Сообщений
    4,574
    Спасибо Благодарностей отдано 
    941
    Спасибо Благодарностей получено 
    896
    Поблагодарили
    660 сообщений
    Mentioned
    5 Post(s)
    Tagged
    0 Thread(s)

    По умолчанию

    В Dizzy вроде эта фраза на бипере проигрывается, а не на AY, емнип.
    Личка заполнена! И чистить я ее не буду! Пользуйтесь адекватными средствами связи! Спасибо.

    Seamos realistas y hagamos lo imposible!

    Ernesto Che Guevara
    Переехал сюда: SteinBlume (ex ATM CP/M Explorer)
    http://era-cg.su

    Скрытый текст

    Speccy2010 r2 (Спасибо m.d. & xlat),
    Sinclair ZX Spectrum + (Спасибо stepmotor),
    ZX Evolution rev.C + 5'25 FDD Epson SD-700AA + NedoPC PAL-Coder (Спасибо m.d. & xlat)
    [свернуть]

  10. Этот пользователь поблагодарил Black Cat / Era CG за это полезное сообщение:

    unDEFER (28.03.2021)

  11. #8
    Guru
    Регистрация
    27.02.2005
    Адрес
    москва
    Сообщений
    13,801
    Записей в дневнике
    1
    Спасибо Благодарностей отдано 
    148
    Спасибо Благодарностей получено 
    1,192
    Поблагодарили
    785 сообщений
    Mentioned
    18 Post(s)
    Tagged
    0 Thread(s)

    По умолчанию

    Цитата Сообщение от Black Cat / Era CG Посмотреть сообщение
    В Dizzy вроде эта фраза на бипере проигрывается, а не на AY, емнип.
    в какой именно ?

  12. #9
    Сибирский антропоморфн Аватар для Black Cat / Era CG
    Регистрация
    06.05.2010
    Адрес
    Бердск, НСО
    Сообщений
    4,574
    Спасибо Благодарностей отдано 
    941
    Спасибо Благодарностей получено 
    896
    Поблагодарили
    660 сообщений
    Mentioned
    5 Post(s)
    Tagged
    0 Thread(s)

    По умолчанию

    Цитата Сообщение от goodboy Посмотреть сообщение
    в какой именно ?
    Во 2.
    Личка заполнена! И чистить я ее не буду! Пользуйтесь адекватными средствами связи! Спасибо.

    Seamos realistas y hagamos lo imposible!

    Ernesto Che Guevara
    Переехал сюда: SteinBlume (ex ATM CP/M Explorer)
    http://era-cg.su

    Скрытый текст

    Speccy2010 r2 (Спасибо m.d. & xlat),
    Sinclair ZX Spectrum + (Спасибо stepmotor),
    ZX Evolution rev.C + 5'25 FDD Epson SD-700AA + NedoPC PAL-Coder (Спасибо m.d. & xlat)
    [свернуть]

  13. #10
    Veteran Аватар для Raydac
    Регистрация
    16.08.2005
    Адрес
    Estonia,Tallinn
    Сообщений
    1,129
    Спасибо Благодарностей отдано 
    52
    Спасибо Благодарностей получено 
    233
    Поблагодарили
    183 сообщений
    Mentioned
    1 Post(s)
    Tagged
    0 Thread(s)

    По умолчанию

    Цитата Сообщение от unDEFER Посмотреть сообщение
    Так вот в этой теме я хотел спросить знающих людей как устроен музыкальный сопроцессор ZX? Какие вообще звуки он способен воспроизводить кроме тех что доступны через BASIC (помню в детстве воспроизводили несколько мелодий из папиного пособия по игре на баяне по нотам) и как на этих звуках удалось построить синтез голоса в таких играх как Robocop и даже какой-то части Dizzy?
    вот например синтез речи на AY 8910

Страница 1 из 2 12 ПоследняяПоследняя

Информация о теме

Пользователи, просматривающие эту тему

Эту тему просматривают: 1 (пользователей: 0 , гостей: 1)

Похожие темы

  1. Ответов: 42
    Последнее: 22.11.2021, 02:55
  2. Как делали мультики Жуки?
    от Enigmatic в разделе Графика
    Ответов: 22
    Последнее: 22.02.2014, 00:01
  3. Ответов: 1
    Последнее: 04.05.2009, 14:36
  4. Заводы, на которых делали спектрумы
    от BYTEMAN в разделе Разный софт
    Ответов: 12
    Последнее: 13.08.2008, 19:16
  5. синтезатор голоса
    от Almaz в разделе Софт
    Ответов: 14
    Последнее: 31.05.2008, 00:04

Ваши права

  • Вы не можете создавать новые темы
  • Вы не можете отвечать в темах
  • Вы не можете прикреплять вложения
  • Вы не можете редактировать свои сообщения
  •