Здесь при анализе нужен другой подход. Забыл как это называется, когда люди голосом имитируют муз. инструменты? В этом случае голос трудно выделить. Но слово, любое, на любом языке выделяется по характерным признакам. Поэтому на "первом проходе" выделяем в спектре те компоненты, которые "отвечают" за пропетые слова. Это может быть, конечно не человек "вживую", а даже синтезированное пение голосом. Неважно. Назовем это "поющий инструмент". Теперь задача выделить из общего трека те части, где он присутствует. Ясно, что простой инверсией и сложением, мы получим "тишину" в других фрагментах. Конечно останутся участки, где голоса не было слышно. Пока не будем с этим замарачиваться. Обратимся к другим, "подозрительным на голос". Вот тут уже нужна умная программа, распознающая слова, которые поют. Конечно певцы поют и всякое там "ля-ля-фа", но и это можно занести в словарь. А так, определив язык(а проще задав его принудительно), на котором поют, подключаем 1)словарь;
2) базу с фонемами и "погнали" на "сопоставление с образцом".
Теперь мы получили "синтезированный трек голоса", в котором понятны все слова(есть в словаре) и который суть последовательность спетых фонем ( не знаю, как это правильно называется) "ты размааааахом необъяяяяятнаааа" это примерно так выглядит а не "ты размахом необъятна". Теперь вычитаем этот трек из исходного. Что в исходном остается? Кажется всё, кроме этого голоса. Это конечно простейший случай, когда кто-то солирует.