Governos promovem revitalização do euskera com IA

Governos promovem revitalização do euskera com IA

Governos promovem revitalização do euskera com IA

Os governos da Espanha e do País Vasco assinaram um acordo com um investimento de 10,5 milhões de euros visando a criação de um corpus linguístico para revitalizar o euskera, uma língua considerada "em perigo de extinção digital". O projeto, que se estenderá até 2028, busca aumentar a presença do euskera no contexto digital, focando principalmente em sua aplicação na Inteligência Artificial.

A iniciativa contempla a coleta de milhares de horas de gravações e milhões de trechos de texto que serão etiquetados para reconhecimento por softwares. O objetivo é treinar algoritmos de aprendizado supervisionado, permitindo que aplicativos e dispositivos consigam interagir em euskera, desde assistentes virtuais até sistemas de reconhecimento de voz.

Essa estratégia foi destacada por Imanol Pradales, lehendakari do País Vasco, que afirmou: "O euskera terá um papel central na construção do novo ambiente digital". Sua afirmação enfatiza a importância da inclusão da língua em novas tecnologias digitais para evitar que ela caia em desuso.

Dentre os parceiros do projeto está a associação sem fins lucrativos Euskorpora, que conta com a colaboração de empresas como Vicomtech, Euskaltel e Iberdrola. A execução do corpus linguístico ocorrerá em três fases, visando a transferência e exploração dos recursos compilados para empresas e plataformas europeias de dados.

A construção do corpus digital está prevista para ser concluída em um prazo não determinado, e os investimentos estão divididos entre o governo local e os departamentos de Cultura e Ciência, totalizando 5,55 milhões de euros do governo vasco.

No entanto, a iniciativa recebeu críticas. Pello Otxandiano, porta-voz do partido Bildu, expressou preocupações sobre a exclusão de entidades que têm contribuído significativamente para o desenvolvimento de tecnologias de linguagem, sugerindo que essa decisão poderia comprometer a eficácia do projeto. Otxandiano afirmou: "É um erro estratégico deixar de lado o importante conhecimento acumulado nesse setor".

O objetivo dos governos com esse acordo é promover a geração e o desenvolvimento metódico de corpora digitais em euskera, facilitando sua conservação e evolução. Esse movimento se alinha ao projeto Alia, um modelo de linguagem desenvolvido para incorporar não apenas o espanhol, mas também as línguas cooficiais da Espanha, abordando lacunas em modelos amplamente utilizados como o ChatGPT e outros.

A iniciativa Alia, conforme detalhado na Estratégia de Inteligência Artificial 2024, destina 10 milhões de euros à criação de um modelo que preverá o uso de até 175 bilhões de parâmetros, com foco em garantir que o patrimônio linguístico dos idiomas espanhóis e suas variações sejam plenamente representados na tecnologia. O ministério responsável está empenhado em assegurar que os direitos autorais dos textos usados sejam respeitados, embora a metodologia aplicada precise ser ainda mais clara em relação ao uso de obras protegidas.

O projeto ILENIA, iniciado em 2021, também ambiciona desenvolver corpora para todas as línguas cooficiais da Espanha, numa tentativa de enriquecer o modelo de linguagem Alia. O euskera, por sua vez, enfrenta desafios específicos devido à escassez de documentação escrita, o que complexifica sua inclusão como um corpus linguístico robusto.

Assim, com investimentos direcionados e um marco estratégico claro, o euskera busca garantir sua presença na nova era digital, um passo crucial para a revitalização de uma língua rica em história e cultura.