Stan rozpoznawania głosu w Linuksie

Rozpoznawanie mowy w Linuksie podąża za platformami Windows i Mac, ponieważ zarówno Microsoft, jak i Apple zainwestowały znaczną ilość czasu i środków w dodanie oprogramowania do poleceń głosowych lub asystenta głosowego do swoich podstawowych systemów operacyjnych.

Chociaż sytuacja nie jest ponura w przypadku Linuksa, podobnie jak w przypadku wielu nowatorskich technologii, wolny i otwarty wszechświat pozostaje o krok w tyle, szczególnie w przypadku narzędzi poleceń głosowych.


Natywne rozpoznawanie mowy w systemie Linux

Żadna dystrybucja Linuksa nie koncentruje się na rozpoznawaniu mowy. Jednak aplikacje obsługujące funkcję rozpoznawania mowy opierają się na kilku bibliotekach open source, w tym Sphinx, Kaldi, Julius i Mozilla Deepspeech.

Negativespace / Mockup.Photos

Biblioteki te polegają na korpusie mowy, aby oferować różne warianty dźwięków do szkolenia sztucznej inteligencji, a tym samym poprawne tłumaczenie mowy na tekst. Jednak projekty open source są mniej wyrafinowane (ponieważ cieszą się mniejszym wkładem w szkolenie AI), co oznacza, że ​​większość aplikacji do zamiany tekstu na mowę dla Linuksa często psuje konwersję. Zwykle spartaczają to tak dokładnie, że nie jest jasne, jakie mogło być oryginalne przemówienie.

Opcje dla Linux Speech to Text

Użyj jednej z pięciu ścieżek rozwiązań.

  • Polegaj na natywnych aplikacjach dla systemu Linux dostępnych w repozytoriach dystrybucji - jeśli takie się pojawią.
  • Amazon udostępnił Alexę dla Linuksa, w tym dla Raspberry Pi. Będziesz musiał wykonać wiele niestandardowych poprawek, aby ten układ działał, ale zadziała.
  • Uzyskaj dostęp do interfejsu API Google Speech w przeglądarce za pośrednictwem DictationIO. Ta usługa działa tylko do dyktowania; nie możesz go używać do poleceń głosowych. Jest zasilany przez sztuczną inteligencję Google, więc jakość jest dobra.

  • Użyj usługi takiej jak Alexa lub Asystent Google jako narzędzia poleceń głosowych dla systemu Linux za pośrednictwem usługi Triggercmd. Triggercmd działa na Twoim komputerze; użyj go do wywołania Alexy lub Asystenta Google i pozwól, aby te narzędzia wykonały określone skrypty Bash na podstawie twojego polecenia. Powiedz na przykład „OK Google, poproś o polecenie wyzwalacza, aby otworzyć kalkulator”. Asystent Google służy jako pośrednik z Triggercmd do uruchamiania skryptu Bash określonego przez wyrażenie „otwórz kalkulator”.
  • Użyj Wine lub maszyny wirtualnej z oprogramowaniem dla Windows, takim jak Dragon NaturallySpeaking. Przy odpowiednim dostosowaniu możesz użyć silnika Dragon do transkrypcji, chociaż to rozwiązanie nie działa w aplikacjach poleceń głosowych.

Dodaj komentarz