O Google explica como foi retirado a tradução ao vivo do encontro

por Nada Em Troca
3 minutos de leitura
O Google explica como foi retirado a tradução ao vivo do encontro

O Google recuou a cortina sobre como desenvolveu o recurso de tradução ao vivo para o Google Meet. As equipes de engenharia de áudio e gerenciamento de produtos da empresa, juntamente com o Google Deepmind, conseguiram alcançar o que aparentemente era uma meta de cinco anos em apenas dois anos.

Fredric, que lidera a equipe de engenharia de áudio do Meet, explicou que o Google sabia que a tradução instantânea era necessária para chamadas ao vivo, e os avanços em grandes modelos tornaram isso possível. Não é segredo que a tradução ao vivo tem sido uma meta nos serviços do Google, mas engenheiros de Pixel, Cloud e Chrome trabalharam com o Google DeepMind para tornar a tradução da fala em tempo real uma realidade.

A maneira antiga de fazer as coisas era aparentemente desajeitada, para dizer o mínimo. Tecnologia anterior de tradução de áudio teve que passar por um processo de várias etapas: transcreveria o discurso, traduzia o texto e o converteria de volta à fala. Como você pode imaginar, isso levou a alguns problemas graves de latência, com atrasos de 10 a 20 segundos. Tornou a conversa natural praticamente impossível. Além disso, as vozes traduzidas eram genéricas, então não tinham as inflexões e maneirismos de uma pessoa falando, o que tira a experiência geral.

De acordo com Huib, que é o líder do gerenciamento de produtos no lado da qualidade do áudio, o verdadeiro avanço veio de “grandes modelos”, que são diferentes dos grandes modelos de idiomas (LLMS) sobre os quais ouvimos muito. Esses modelos são capazes de tradução “um tiro”, o que significa que você envia em áudio e o modelo quase imediatamente começa a produzir o áudio traduzido.

Isso reduz drasticamente a latência para algo que realmente imita um intérprete humano. A empresa encontrou um ponto ideal de dois a três segundos de latência, o que é tempo suficiente para o cérebro processar o que está sendo dito e não ficar confuso com uma resposta imediata, mas não muito tempo que parece estranho. Com esse momento, o novo modelo no Google Meet possibilita ter uma conversa simultânea com pessoas que falam idiomas diferentes.

Obviamente, construir algo que esse complexo não estava sem seus desafios. Um dos maiores obstáculos era garantir que as traduções fossem de alta qualidade, pois coisas como sotaque de um falante, ruído de fundo ou problemas de rede podem lançar uma chave inglesa em andamento. As equipes Meet and DeepMind tiveram que trabalhar juntas para refinar esses modelos e ajustá-los com base no desempenho do mundo real. As equipes até trouxeram linguistas e outros especialistas em idiomas para ajudá -los a entender todas as pequenas nuances de tradução e sotaques.

Alguns idiomas, como espanhol, italiano, português e francês, são mais fáceis de integrar, pois têm uma afinidade mais próxima. Por outro lado, idiomas com diferentes estruturas, como o alemão, eram muito mais desafiadores por causa de coisas como gramática e expressões comuns.

No momento, o modelo traduz a maioria das expressões literalmente, o que às vezes pode levar a alguns mal -entendidos muito engraçados. Mas Huib e Frederic esperam que as atualizações futuras, usando LLMs mais avançadas, poderão entender e traduzir essas nuances com mais precisão, até mesmo buscando coisas como tom e ironia. Até então, apenas ter um tradutor ao vivo em que você pode confiar é um grande negócio, por isso é uma vitória no geral.

Fonte: Google

Este artigo foi útil?
Gostei0Não Gostei0

Deixe um comentário

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
-
00:00
00:00
Update Required Flash plugin
-
00:00
00:00