60МГц это немного. STM32F405 бывают до 168, удобно будет завести его на 120 - 10х пиксельклок. Это Cortex-M4, у него нету полноценного NEON, но есть FPU и какое-то подмножество SIMD инструкций, которые наверняка можно употребить для линейной фильтрации. Уж удвоить каждый третий пиксель он точно справится.
Чтобы цифровать видео с пиксельклоком 12 МГц достаточно иметь микроконтроллер с периферийным клоком 12МГц. Например, настраивается канал DMA на копирование из порта в память и автоматической перезагрузкой процесса. Примерно так же будет устроено и выдавливание данных наружу. Использование DMA обеспечивает регулярность процесса. Если бы не растягивание по горизонтали, можно было бы настроить все периферийные устройства так, что процессору буквально нечем было б заняться.
Если на плате уже стоит какой-то ARM, есть шанс, что ему можно настроить PLL на 48 МГц, это даст кратную частоту. Вопрос в том, насколько гибкая у него периферия и сколько палок в колеса вставит имеющаяся на плате разводка.
Независимо от выбранной элементной базы, писать и читать одновременно один и тот же буфер я бы все же не советовал. По крайней мере начинать с этого точно не стоит.
- - - Добавлено - - -
Линейная фильтрация будет что-то типа:Код:out_pixel[x] = (in_pixel[0.66 * x - 1] + 2 * in_pixel[0.66 * x] + in_pixel[0.66 * x + 1]) / 4