Um novo aplicativo de controle de voz totalmente local chamado EasySpeak chegou ao desktop Linux, com acessibilidade e controle mãos-livres para usuários que executam ambientes GNOME modernos. Desenvolvido por Matt Hartley, o EasySpeak é gratuito, de código aberto e projetado para transformar comandos de voz em ação.
O EasySpeak deve preencher uma lacuna notável no ecossistema Linux, onde muitas ferramentas de voz existentes são proprietárias, dependem de tecnologia X11 desatualizada ou dependem de serviços em nuvem. Este projeto foi desenvolvido desde o início para ser nativo do Wayland, o que significa que funciona corretamente em desktops Linux contemporâneos, onde as ferramentas X11 mais antigas geralmente falham.
O EasySpeak foi projetado para qualquer pessoa com lesões por esforços repetitivos (LER), necessidades específicas de acessibilidade ou para aqueles que simplesmente precisam operar o computador quando as mãos estão ocupadas. Você pode ativar todo o sistema com as mãos livres simplesmente dizendo a palavra de ativação, “Ei, Jarvis”.
Uma característica importante que diferencia o EasySpeak é o seu compromisso com a privacidade. Todo o aplicativo é executado totalmente localmente. Ele usa OpenWakeWord para ativação, a ferramenta de sussurro mais rápido para transcrever comandos e o mecanismo Piper para feedback de conversão de texto em fala. Isso significa que absolutamente nenhum dado de voz sai de sua máquina, o que é uma jogada fantástica para usuários que são céticos em relação à escuta de serviços de IA baseados em nuvem.
Uma vez ativado, o EasySpeak permite que os usuários controlem os principais aspectos de sua área de trabalho. Um dos recursos mais detalhados e impressionantes é o Mouse Grid. Dizer “grade” sobrepõe um layout numerado 3×3 na tela, semelhante ao teclado de um telefone. Você pode ampliar zonas específicas dizendo o número correspondente, encadeando vários números para mover-se rapidamente, como “3-6-3”.
Depois de posicionar sobre o alvo, você diz “clique” para selecioná-lo. O sistema de grade também lida com ações de arrastar e soltar usando os comandos “marcar” e “arrastar”.
EasySpeak também inclui controles para funções e aplicativos do sistema. Você pode abrir e fechar aplicativos por nome e existem comandos para gerenciar arquivos como “abrir documentos” ou “abrir downloads”. Ele também possui integração MPRIS, permitindo controlar a reprodução com comandos como “reproduzir”, “pausar” e “próximo”.
O desenvolvedor também está adicionando mais controles GNOME, incluindo maximizar e minimizar janelas. Essas atualizações incluirão comandos principais do sistema, como ajuste de volume, brilho e ativação do recurso “não perturbe”.
O aplicativo atualmente possui forte integração com o navegador Qutebrowser. Essa integração permite navegar na Internet usando dicas de links, alternar entre guias, navegar no histórico e pesquisar na Web usando sua voz. Embora o recurso de ditado esteja atualmente em andamento, ele já suporta entrada de voz para texto em qualquer campo, completo com comandos de pontuação como “vírgula” e “nova linha”.
Para quem gosta de mexer, o sistema é altamente extensível graças a uma arquitetura simples de plugins Python. Você pode colocar um arquivo Python no diretório de plug-ins para adicionar comandos personalizados e integrações para aplicativos específicos. Hartley trabalha neste projeto há mais de um ano e disse que a extensibilidade é uma parte essencial do design.
EasySpeak ainda está em desenvolvimento inicial, então você deve esperar alguns pequenos bugs e alterações à medida que o projeto amadurece. Requer uma distribuição Linux executando GNOME Shell 47 ou mais recente no Wayland e atualmente requer Python 3.13 para instalação devido a problemas de dependência com Python 3.14.
A instalação envolve clonar o repositório GitHub, instalar vários pacotes de sistema, configurar um ambiente virtual Python e habilitar uma extensão GNOME Shell. EasySpeak está disponível gratuitamente sob a licença GPL-3.0 no GitHub.
Fonte: Matt Hartley/fosstodon