SaraKIT - это плата расширения для Raspberry Pi CM4. Он оснащен 3 микрофонами с функцией определения местоположения звука и стереовыходом для реализации проектов, связанных с искусственным интеллектом и голосом. Два независимых контроллера BLDC обеспечивают бесшумное и точное управление двигателями в конструкциях устройств. Он оснащен интерфейсом CSI с двумя камерами и двумя акселерометрами, гироскопом и датчиком температуры.
создавайте современные, мощные и гибкие голосовые продукты с помощью Raspberry Pi, интегрированные с Amazon Alexa, Google Assistant, ChatGPT и т. д.
создавайте роботов с голосовым управлением. Общайтесь с бытовой техникой, офисом или другими вещами в повседневной жизни, используя свой голос.
применение
- интеллектуальный динамик
- интеллектуальные системы голосовых помощников
- голосовые регистраторы
- система голосовых конференций
- встреча с оборудованием связи
- голосовой интерактивный робот
- автомобильный голосовой помощник
- другие сценарии требуют голосовых команд
- другие сценарии, требующие тихих и точных двигателей
распознавание речи с помощью sarakit
sarakit оснащен тремя микрофонами и специализированным звуковым процессором, который очищает голос и поддерживает распознавание речи на Raspberry Pi, предлагая значительный шаг в предоставлении автономных функций голосовых команд, не зависящих от облака. Хотя многие инструменты распознавания речи доступны в интернете, а облачные инструменты анализа данных, такие как Google Speech to Text, являются одними из лучших и наиболее эффективных, как обсуждалось в другом моем руководстве, в этой статье основное внимание уделяется распознаванию речи в автономном режиме — без необходимости подключение к интернету.
в поисках лучшего и самого простого в настройке инструмента я нашел замечательное решение, которое в настоящее время рекомендуется для автономного распознавания речи - VOSK API:
набор инструментов распознавания речи vosk
Vosk-это набор инструментов распознавания речи с открытым исходным кодом в автономном режиме, облегчающий распознавание речи на более чем 20 языках и диалектах, включая английский, немецкий, французский, испанский и многие другие. Его модели компактны (около 50 Мб), но поддерживают непрерывную транскрипцию большого словарного запаса, предлагают отклик без задержек с помощью потокового API, предлагают Реконфигурируемый словарный запас и идентифицируют говорящих. Vosk поддерживает ряд приложений, от чат-ботов и интеллектуальных домашних устройств до виртуальных помощников и создания субтитров, масштабируя от небольших устройств, таких как Raspberry Pi или смартфоны Android, до больших кластеров.
Главная страница Vosk: https://alphacephei.com/vosk /
GitHub Vosk: https://github.com/alphacep/vosk-api
установка на SaraKIT:
предполагая, что основные драйверы SaraKIT уже установлены https://sarakit.saraai.com/getting-started/software , выполните следующие действия для установки:
sudo apt-get install pip sudo apt-get install-y python3-pyaudio sudo pip3 install vosk git clone https://github.com/SaraEye/SaraKIT-Speech-Recognition-Vosk-Raspberry-Pi SpeechRecognition cd SpeechRecognition
чтобы использовать язык, отличный от английского, загрузите требуемую языковую модель с сайта https://alphacephei.com/vosk/models и поместите его в каталог "модели".
начать распознавание речи, запустив:
python SpeechRecognition.py
ниже приведен сценарий распознавания речи на выбранном вами языке, доступный на
https://github.com/SaraEye/SaraKIT-Speech-Recognition-Vosk-Raspberry-Pi
может случиться так, что вы используете всю мощь Raspberry Pi, например, для анализа изображений, и тогда вы можете обнаружить, что вам не хватает вычислительной мощности для распознавания речи. В этих случаях необходимо будет использовать облачную аналитику на более мощном компьютере. Вы можете настроить свой собственный сервер и по-прежнему использовать Vosk, или вы можете выбрать другие инструменты, такие как Google Speech to Text.
текст в речь с помощью SaraKIT
SaraKIT оснащен тремя микрофонами и специализированным звуковым процессором, который очищает звук голоса и поддерживает распознавание речи на Raspberry Pi на расстоянии до 5 метров, как описано в нашем разделе „распознавание речи”. Однако, чтобы завершить настройку, мы теперь обращаем внимание на обработку текста в речь (TTS), которая может быть чрезвычайно полезна при создании голосовых помощников, говорящих устройств или интеграции с системами домашней автоматизации (HA). Хотя лучшими системами TTS, доступными в настоящее время, являются онлайн-сервисы, такие как ElevenLabs (платные), которые предлагают высочайшее качество голоса, или Google Text to Speech (подробности см. В отдельном разделе), здесь мы сосредоточимся на обработке текста в речь в автономном режиме.
после поиска в Интернете лучшей, быстрой и простой в установке автономной опции Piper выделяется как лучший выбор (если вы найдете что-то лучшее, дайте нам знать).
Piper работает быстро, генерирует высококачественный голос в реальном времени и оптимизирован для Raspberry Pi 4. Хотя его установка проста, я дополнительно упростил ее для вас, и вы найдете демонстрацию с описанием ниже.
вы можете проверить Piper по адресу
https://rhasspy.github.io/piper-samples/
Пайпер на Github
https://github.com/rhasspy/piper
https://github.com/rhasspy/piper-phonemize (дополнительный компонент)
голоса для Piper:
https://huggingface.co/rhasspy/piper-voices/tree/main
GitHub:
https://github.com/SaraEye (C++, Python examples)
YouTube SaraKIT Playlist:
https://www.youtube.com/playlist?list=PLOJbQ7GTI25qS3W62p32KOe1jh8DDpwMb