O que é reconhecimento de fala e quais são os benefícios para sua empresa?

A popularização das tecnologias que permitiram o uso da voz humana no relacionamento direto com máquinas — primeiro os computadores e mais recentemente, os smartphones — proporcionou uma revolução na forma de comandar esses objetos. A evolução foi tanta que hoje o reconhecimento de fala é considerado uma das principais tendências tecnológicas e o seu uso já acontece tanto no ambiente doméstico quanto no corporativo.

Antes de falar mais sobre o presente e compreender o que será o futuro, porém, é importante fazer um resgate histórico. Essa movimentação começou a ganhar corpo há cerca de dez anos, quando a Google lançou a pesquisa por voz (Voice Search) com a ideia de acelerar o tempo dedicado às buscas nos dispositivos móveis. A inovação de outrora inspirou novidades como a Siri, assistente pessoal lançada pela Apple que vinha pré-instalada nos celulares inteligentes da marca, e começava a esboçar o que seriam “conversas” entre as pessoas e os equipamentos. Pouco tempo depois, em 2015, o lançamento de itens como o Google Home elevou esse relacionamento a outro patamar: o fluxo das “conversas” ficou mais natural e hoje já não é mais necessário que o usuário force uma fala pausada e muito mais clara que o normal para ser entendido — e obedecido, obviamente.

Esse ritmo é bem diferente do que o que marcou as primeiras experiências e ditou como se comportariam os sistemas do passado. Anos atrás era comum que para ser entendido, o usuário precisasse praticamente soletrar as palavras e frases, que mesmo assim só seriam reconhecidas se estivessem num banco de dados previamente constituído. A quantidade de tempo dedicado à programação de plataformas para que o reconhecimento de fala acontecesse nos anos 90 era muito maior, o que automaticamente invalidava qualquer tentativa de interação ou mudança de comando depois da vocalização pelo interlocutor. Evolutivamente essa situação mudou e hoje é possível trabalhar com o conceito de processamento de linguagem natural, que é um método computacional de análise de textos feitos por máquinas (em geral computadores, mas não só eles) que abrange uma série de teorias e tecnologias. Ela só é possível por meio do aprendizado que as plataformas de computação em nuvem (cloud computing) e análise de dados (analytics) tornaram possível a partir da avaliação de textos que foram previamente escritos usando a linguagem como as pessoas realmente falam em diversas situações.

Esse tipo de trabalho começou dentro da Ciência da Computação, mas dada a sua relevância e a quantidade quase infinita de possibilidades, expandiu-se para áreas como Inteligência Artificial, Linguística e Ciência da Informação. O aumento da abrangência favoreceu o surgimento de pesquisas com focos diferentes e isso nos trouxe até os dias atuais em que conversar com os dispositivos não é mais a grande novidade — mas sim o fato de eles nos responderem com elevada inteligibilidade.

Reconhecimento de fala como recurso de segurança

Muito diferente do que aconteceu na primeira metade do século XX, quando estudiosos desenvolveram a primeira máquina de tradução (Machine Translation) para identificar e estudar particularidades entre idiomas e encontrar problemas de sintaxe com a aplicação das palavras em frases, o processamento da voz e da fala humana por aparelhos tem diversos outros propósitos hoje. Um dos mais importantes é o que a utiliza como um recurso de segurança de altíssima precisão.

A chamada biometria da voz é um processo que analisa variáveis mínimas do som produzido na laringe para dar autenticidade a processos, por exemplo. Em determinados países do mundo, o próprio sistema financeiro tem preferido adicionar esta camada de segurança às transações para pôr fim às fraudes milionárias calculadas anualmente pelas autoridades bancárias.

Os especialistas garantem que a voz é uma forma dinâmica de biometria, e isso dá a essa forma de expressão diversos pontos positivos em relação aos métodos tradicionais — sobretudo os estáticos — de identificação. Ao apresentar padrões variáveis com o tempo e a circunstância, a possibilidade de falsificações é praticamente anulada; Impressões digitais, pelo contrário, podem ser copiadas, reproduzidas e usadas para conceder acesso indevido a alguém que esteja mal intencionado.

A voz humana gravada em formato digital tem mais de cem elementos de identificação que podem passar despercebidos pela audição das pessoas, mas a capacidade de aprendizado dos sistemas baseados na nuvem, na análise e no armazenamento de dados permite confirmar 97 identidades a cada universo de 100 pessoas. A acuracidade é válida inclusive para quem tem o mesmo DNA, como gêmeos.

Tamanha confiabilidade pode ser atribuída ainda ao desenvolvimento constante dos sistemas que fazem o reconhecimento, de modo que plataformas multinacionais como a criada e operada pelo Google consiga ter uma taxa de precisão superior a 95% de tudo o que “escuta”. Isso habilita os sistemas a serem classificados como detentores da capacidade de entendimento do mesmo nível humano.

Facilidade de uso e aceitação do público

Um levantamento feito há poucas semanas pelo instituto de estudos Opinion Box apurou que 65% dos brasileiros que têm smartphones já interagiram com o dispositivo por meio de palavras faladas. As ações mais executadas ainda são comandos relativamente simples como fazer uma ligação, reproduzir um conteúdo de áudio ou vídeo ou ainda pesquisar na internet, mas os especialistas interpretam que esse comportamento ajuda a assimilar a preferência e a simpatia dos usuários pelo recurso.

Até pessoas que podem ter menos habilidades com a tecnologia conseguem incorporar a “conversa” com os gadgets às atividades diárias, já que para eles pode ser mais fácil simplesmente falar do que apertar teclas e botões virtuais. Esse tipo de experiência também potencializa o uso de dispositivos ao integrá-los ao contexto do usuário, eliminando a necessidade de atenção exclusiva por parte de quem o utiliza.

Aplicações no ambiente corporativo

Empresas de todos os portes têm uma preocupação em comum: segurança. Ela abrange os esforços em torno da manutenção dos dados em local sem o risco de invasões, a criação de cópias (backups) de arquivos e sistemas, as condições e negociações tratadas com os clientes e até as conversas entre os membros da diretoria e acionistas.

Manter essas informações protegidas faz parte do plano de compliance das organizações, que não podem correr o risco da falta de documentação de uma ata ou da transcrição incorreta de um determinado trecho de uma reunião. A tecnologia de reconhecimento de fala pode ser usada para evitar falhas no cumprimento destas demandas.

O mercado já oferece ferramentas avançadas destinadas à transcrição de áudio voltadas ao aumento da produtividade desta tarefa que faz parte dos processos de diferentes atividades profissionais. Graças ao avanço no reconhecimento de fala, soluções baseadas na computação em nuvem conseguem transcrever falas dos participantes de reuniões, manifestações de legisladores (vereadores, deputados estaduais, federais e senadores), depoentes (polícia e Justiça) e diversas outras situações.

Uma destas soluções é capaz de, por meio de um pequeno dispositivo acoplado a um computador, captar o áudio do ambiente, reconhecer cada um dos participantes e converter para texto o que foi dito de forma clara, fácil e imediata. A infraestrutura permite ainda coletar e gravar o áudio, editar o texto e catalogar os arquivos para ouvi-los novamente depois.

Essa característica única que permite identificar cada interlocutor individualmente e sincronizar áudio e texto em tempo real é o que garante a altíssima precisão do processo. Imagine que dessa forma, tanto o sistema quanto as pessoas que precisarem ouvir o material gravado terão uma fonte muito mais clara e menos sujeita a interpretações ou entendimentos equivocados — geralmente causados pela baixa qualidade do áudio e pela mistura de todas as vozes.

Veja a relação entre cada característica e os benefícios proporcionados para o usuário:

reconhecimento de fala

Para conhecer mais sobre esse tipo de sistema ou ler sobre as formas que o reconhecimento de fala pode transformar a sua empresa, acesse o nosso site e leia o nosso blog.


Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *