NotíciasTecnologia

Meta treinou nova IA que reconhece mais de 4 mil idiomas usando a Bíblia

Compartilhar:

A Meta apresentou nesta semana um modelo de inteligência artificial que foge do padrão, diferenciando-se dos “clones” do ChatGPT. O projeto Massively Multilingual Speech (MMS) da empresa tem a capacidade de reconhecer mais de 4 mil idiomas falados e gerar síntese de fala (texto para fala) em mais de 1.100 idiomas.

Em busca de preservar a diversidade linguística e incentivar a pesquisa, a Meta disponibilizou o MMS como código aberto, ampliando as possibilidades para o desenvolvimento de novas aplicações por parte dos pesquisadores.

Treinamento peculiar da IA

Fonte:  Meta/Divulgação 

Tradicionalmente, os modelos de reconhecimento de fala e síntese de fala requerem um extenso treinamento com milhares de horas de áudio e transcrições correspondentes. Entretanto, para os idiomas menos utilizados, muitos dos quais correm o risco de desaparecer nas próximas décadas, os dados necessários não existem.

Consciente dessa lacuna, a Meta adotou uma abordagem curiosa para coletar dados de áudio, utilizando gravações de textos religiosos, como a Bíblia, traduzidos. A empresa descobriu que essas traduções, amplamente estudadas para pesquisas de tradução de texto, possuem gravações disponíveis de pessoas lendo os textos em diferentes idiomas.

Uma preocupação natural seria se esse enfoque poderia gerar um viés religioso no modelo. No entanto, a Meta assegura que isso não ocorre. Devido à utilização de uma abordagem de classificação temporal baseada em conexões (CTC), o modelo é mais restrito em comparação com os grandes modelos de linguagem, o que impede o viés religioso.

"Tecnologias existentes exigem uma grande quantidade de dados de cada idioma, o que não está disponível para a maioria dos idiomas".
“Tecnologias existentes exigem uma grande quantidade de dados de cada idioma, o que não está disponível para a maioria dos idiomas”.

Comparando o MMS com o Whisper, da OpenAI, a Meta constatou que os modelos treinados com os dados do MMS têm metade da taxa de erro de palavra e abrangem 11 vezes mais idiomas. É importante ressaltar que a Meta reconhece que seus novos modelos não são perfeitos e podem gerar algumas transcrições imprecisas ou ofensivas. Porém, a empresa acredita que a colaboração entre a comunidade de IA é fundamental para o desenvolvimento responsável dessas tecnologias.

Com essa iniciativa, a Meta espera fazer sua contribuição para a preservação da incrível diversidade linguística mundial.

Fonte:  Meta

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo