Alexa, como o Siri funciona? Controle por voz explicado

O mundo está se movendo em direção a comandos de voz para tudo, mas como exatamente o controle de voz funciona? Por que é tão glitchy e restrito? Aqui está o que você precisa saber como usuário leigo.

O mundo está se movendo em direção a comandos de voz para tudo, mas como exatamente o controle de voz funciona?  Por que é tão glitchy e restrito?  Aqui está o que você precisa saber como usuário leigo.
Propaganda

Podemos conversar com quase todos os nossos gadgets agora, mas exatamente como funciona? Quando você pergunta “Que música é essa?” Ou diz “Ligue para a mamãe”, um milagre da tecnologia moderna está acontecendo. E embora pareça estar na vanguarda, essa ideia de falar com dispositivos remonta décadas - quase tanto quanto os jetpacks na ficção científica!

Hoje, a maior parte da atenção dada à computação por voz está nos smartphones. Apple, Amazon, Microsoft e Google estão no topo da cadeia, cada uma oferecendo seu próprio jeito de falar com a eletrônica. Você sabe quem são: Siri, Alexa, Cortana e o nome “Ok, Google”. O que levanta uma grande questão ...

Como um dispositivo pega palavras faladas e as transforma em comandos que ele pode entender? Em essência, trata-se de combinar padrões e fazer previsões com base nesses padrões. Mais especificamente, o reconhecimento de voz é uma tarefa complexa, proveniente de modelagem acústica e modelagem de linguagem .

Modelagem acústica: formas de onda e telefones

forma de onda

Modelagem acústica é o processo de tomar uma forma de onda da fala e analisá-la usando modelos estatísticos. O método mais comum para isso é o Hidden Markov Modeling, que é usado no que é chamado de modelagem de pronúncia para dividir a fala em componentes chamadas de telefones (não confundir com dispositivos telefônicos reais). A Microsoft tem sido um pesquisador líder nesse campo por muitos anos.

Modelagem oculta de Markov: estados de probabilidade

Oculto Markov Modeling é um modelo matemático preditivo, onde o estado atual é determinado pela análise da saída. A Wikipedia tem um ótimo exemplo usando dois amigos.

Imagine dois amigos - Amigo Local e Amigo Remoto - que moram em cidades diferentes. O Local Friend quer descobrir como está o tempo em que o Remote Friend vive, mas o Remote Friend só quer falar sobre o que ele fez naquele dia: caminhar, fazer compras ou limpar. A probabilidade de cada atividade, dependendo do tempo do dia.

Modelagem oculta de Markov

Finja que esta é a única informação disponível. Com ele, a Local Friend pode encontrar tendências sobre como o tempo mudou de dia para dia e, usando essas tendências, ela pode começar a adivinhar com cuidado o que será o clima de hoje com base na atividade de sua amiga ontem. (Você pode ver um diagrama do sistema acima.)

Se você quiser um exemplo mais complexo, confira este exemplo no Matlab. No reconhecimento de voz, este modelo essencialmente compara cada parte da forma de onda com o que vem antes e o que vem depois, e contra um dicionário de formas de onda para descobrir o que está sendo dito.

Essencialmente, se você fizer um som “th”, ele irá checar aquele som contra os sons mais prováveis ​​que normalmente vêm antes e depois dele. Talvez isso signifique checar o som “e”, o som “at” e assim por diante. Quando o padrão corresponde corretamente, ele tem toda a sua palavra. Esta é uma simplificação excessiva, mas você pode ver toda a explicação da Microsoft aqui.

Modelagem de Linguagem: Mais que Som

A modelagem acústica ajuda muito seu computador a entender você, mas e os homônimos e as variações regionais na pronúncia? É aí que o Language Modeling entra em cena. O Google conduziu muitas pesquisas nessa área, principalmente por meio do uso da modelagem de N-gramas .

Quando o Google está tentando entender seu discurso, ele o faz com base em modelos derivados de seu enorme banco de pesquisas de voz e transcrições do YouTube. Todas essas legendas de vídeo hilárias realmente ajudaram o Google a desenvolver seus dicionários. Além disso, eles usaram o GOOG-411 para coletar informações sobre como as pessoas falam.

shutterstock_70757203

Toda essa coleção de idiomas criou uma vasta gama de pronúncias e dialetos, o que resultou em um robusto dicionário de palavras e como elas soam. Isso permite que correspondências com uma taxa de erro bastante reduzida sejam comparadas com as comparações de força bruta baseadas em probabilidades brutas. Você pode ler um breve artigo descrevendo seus métodos aqui.

Enquanto o Google é líder neste campo, existem outros modelos matemáticos sendo desenvolvidos, incluindo modelos espaciais contínuos e modelos de linguagem posicional, que são técnicas mais avançadas nascidas da pesquisa em inteligência artificial. Esses métodos são baseados na replicação do tipo de raciocínio que os humanos fazem quando ouvem um ao outro. Estes são muito mais avançados, tanto em termos de tecnologia por trás deles, mas também a matemática e programação necessária para mapear esses modelos.

Modelagem N-Gram: Probabilidade Atende Memória

A modelagem de N-gram funciona com base em probabilidades, mas usa um dicionário de palavras existente para criar uma árvore de possibilidades de ramificação, que é então suavizada por uma questão de eficiência. De certa forma, isso significa que a Modelagem N-gram elimina muito da incerteza na Modelagem Oculta de Markov.

Como observado acima, a força deste método vem de ter um grande dicionário de palavras e uso, não apenas sons primitivos. Isso dá ao programa a capacidade de diferenciar os homófonos, como “beat” e “beet”. É contextual, o que significa que quando você está falando sobre as pontuações da noite passada, o programa não está falando palavras sobre borscht.

Mas esses modelos na verdade não são os melhores para a linguagem, principalmente devido a problemas com probabilidades de palavras em frases mais longas. À medida que você adiciona mais palavras a uma sentença, esse modelo fica um pouco errado, pois é improvável que suas primeiras palavras tenham carregado todo o necessário para o seu pensamento completo.

No entanto, é simples e fácil de implementar, o que o torna uma ótima opção para uma empresa como o Google, que gosta de jogar servidores em problemas computacionais. Você pode ler mais sobre N-gram Modelieng na Universidade de Washington, ou assistir a uma palestra no Coursera.

Gritando em Nuvens: Aplicativos e Dispositivos

Qualquer um que tenha usado Siri sabe da frustração de uma conexão de rede lenta. Isso ocorre porque seus comandos para a Siri são enviados pela rede para serem decodificados pela Apple. Cortana para Windows Phone também requer uma conexão de rede para funcionar corretamente. Em contraste, no entanto, o Amazon's Echo é apenas um alto-falante Bluetooth sem qualquer Internet.

Por que a diferença? Porque Siri e Cortana precisam de servidores pesados ​​para decodificar seu discurso. Isso poderia ser feito no seu telefone ou tablet? Claro, mas você mataria seu desempenho e duração da bateria no processo. Faz mais sentido descarregar o processamento em máquinas dedicadas.

SIGCHI_Conference_Paper_Format _-_ KumarSpeechRecognitionForMobileApps_pdf

Pense desta maneira: seu comando é um carro preso na lama. Você provavelmente poderia fazer isso com tempo e esforço suficientes, mas levará horas e deixará você exausto. Em vez disso, você chama assistência na estrada e eles puxam seu carro em apenas alguns minutos. A desvantagem é que você tem que fazer a chamada e esperar por eles, mas ainda é mais rápido e menos desgastante.

Modelos de desktop como a Nuance tendem a usar recursos locais devido ao hardware mais potente. Afinal, nas palavras de Steve Jobs, seu desktop é um caminhão. (O que torna um pouco estúpido que o OS X esteja usando servidores para seu processamento.) Portanto, quando você precisa processar o idioma e a voz, ele já está bem equipado o suficiente para lidar com isso sozinho.

Por outro lado, o Android permite que os desenvolvedores incluam o reconhecimento de fala off-line em seus aplicativos. O Google gosta de ficar à frente da tecnologia e você pode apostar que as outras plataformas ganharão essa capacidade à medida que seu hardware se tornar mais poderoso. Ninguém gosta quando a má cobertura ou má recepção lobotomiza seu dispositivo.

Comece a usar comandos de voz agora

Agora que você conhece os conceitos fundamentais, você deve brincar com seus vários dispositivos. Experimente a nova digitação de voz no Google Docs Como a digitação de voz é a nova melhor característica do Google Docs Como a digitação por voz é a nova melhor característica do Google Docs O reconhecimento de voz melhorou aos trancos e barrancos nos últimos anos. No início desta semana, o Google finalmente introduziu a digitação de voz no Google Docs. Mas isso é bom? Vamos descobrir! Consulte Mais informação . Como se o conjunto do Web office ainda não fosse suficientemente poderoso, o controle por voz permite ditar e formatar completamente seus documentos. Isso expande a poderosa tecnologia que eles já criaram para o Chrome e o Android.

Outras idéias incluem configurar o seu Mac para usar comandos de voz Como usar comandos de fala no seu Mac Como usar comandos de fala no seu Mac Leia mais e configurar o Amazon Echo com checkout automatizado Como Amazon Echo pode tornar sua casa um lar inteligente Como Amazon Echo pode tornar a sua casa uma casa inteligente A tecnologia de casa inteligente ainda está em seus primeiros dias, mas um novo produto da Amazon chamado "Echo" pode ajudar a trazê-lo para o mainstream. Consulte Mais informação . Viva no futuro e aproveite para conversar com seus gadgets - mesmo que você esteja apenas solicitando mais toalhas de papel. Se você é um viciado em smartphones, nós também temos tutoriais para Siri 8 coisas que você provavelmente não percebeu Siri poderia fazer 8 coisas que você provavelmente não realizou Siri poderia fazer Siri tornou-se um dos recursos definidores do iPhone, mas para muitas pessoas, nem sempre é o mais útil. Enquanto isso é devido às limitações do reconhecimento de voz, a estranheza de usar ... Leia mais, Cortana 6 Coisas mais legais que você pode controlar com a Cortana no Windows 10 6 Coisas mais legais que você pode controlar com a Cortana no Windows 10 A Cortana pode ajudá-lo viva-voz no Windows 10. Você pode deixá-la pesquisar seus arquivos e a Web, fazer cálculos ou visualizar a previsão do tempo. Aqui nós cobrimos algumas de suas habilidades mais legais. Leia mais, e Android OK, Google: 20 + coisas úteis que você pode dizer para o seu telefone Android OK, Google: 20 + coisas úteis que você pode dizer para o seu telefone Android Lentamente, sem nos apercebermos, o futuro chegou. Consulte Mais informação .

Qual é o seu uso favorito de controle de voz? Deixe-nos saber nos comentários.

Créditos da Imagem: T-flex via Shutterstock, Terencehonles via Wikimedia Foundation, Estado do Arizona, Cienpies Design via Shutterstock

In this article