O número de aplicativos e a importância das interfaces de voz estão crescendo rapidamente

Conteúdo

quatro grandes
Americanos querem comprar
Lavar, assar, limpar!
Conceito antigo. A hora dela finalmente chegou?
pergunta tecnicamente difícil
Voz? Artes gráficas? Ou talvez ambos?
Cuidado com a segurança!

Uma família americana em Portland, Oregon, soube recentemente que o assistente de voz de Alex gravou seus bate-papos particulares e os enviou para um amigo. A dona da casa, apelidada de Danielle pela mídia, disse a repórteres que "nunca ligaria aquele dispositivo novamente porque não é confiável".

Alexa, fornecido pelos alto-falantes Echo (1) e outros gadgets em dezenas de milhões de lares nos EUA, começa a gravar quando ouve seu nome ou "palavra de chamada" falada pelo usuário. Isso significa que, mesmo que a palavra "Alexa" seja mencionada em um anúncio de TV, o dispositivo poderá iniciar a gravação. Foi exatamente o que aconteceu neste caso, diz a Amazon, distribuidora de hardware.

"O resto da conversa foi interpretado pelo assistente de voz como um comando para enviar uma mensagem", disse a empresa em comunicado. “Em algum momento, Alexa perguntou em voz alta: “Para quem?” A continuação da conversa familiar sobre o piso de madeira deveria ter sido percebida pela máquina como um item da lista de contatos do cliente.” Pelo menos é o que pensa a Amazon. Assim, a tradução fica reduzida a uma série de acidentes.

A ansiedade, no entanto, permanece. Porque por algum motivo, em uma casa onde ainda nos sentíamos à vontade, temos que entrar em algum tipo de “modo de voz”, ver o que dizemos, o que a TV está transmitindo e, claro, o que esse novo alto-falante no peito gavetas diz. nós.

no entanto Apesar das imperfeições da tecnologia e das preocupações com a privacidade, com o aumento da popularidade de dispositivos como o Amazon Echo, as pessoas estão começando a se acostumar com a ideia de interagir com computadores usando sua voz..

Como Werner Vogels, CTO da Amazon, observou durante sua sessão AWS re:Invent no final de 2017, a tecnologia até agora limitou nossa capacidade de interagir com computadores. Digitamos palavras-chave no Google usando o teclado, pois essa ainda é a maneira mais comum e fácil de inserir informações na máquina.

disse Vogels. -

quatro grandes

Ao usar o mecanismo de pesquisa do Google no telefone, provavelmente notamos um sinal de microfone com uma chamada para falar há muito tempo. Esse Google agora (2), que pode ser usado para ditar uma consulta de pesquisa, inserir uma mensagem por voz, etc. Nos últimos anos, Google, Apple e Amazon melhoraram muito tecnologia de reconhecimento de voz. Assistentes de voz como Alexa, Siri e Google Assistant não apenas gravam sua voz, mas também entendem o que você diz a eles e respondem a perguntas.

O Google Now está disponível gratuitamente para todos os usuários do Android. O aplicativo pode, por exemplo, definir um alarme, verificar a previsão do tempo e verificar a rota no Google maps. Extensão conversacional dos estados do Google Now Google Assistente () – atendimento virtual ao usuário do equipamento. Está disponível principalmente em dispositivos móveis e domésticos inteligentes. Ao contrário do Google Now, ele pode participar de uma troca bidirecional. O assistente estreou em maio de 2016 como parte do aplicativo de mensagens do Google Allo, bem como no alto-falante de voz do Google Home (3).

3. Página inicial do Google

O sistema IOS também possui seu próprio assistente virtual, Siri, que é um programa incluído nos sistemas operacionais iOS, watchOS, homepod do tvOS e macOS da Apple. A Siri estreou com o iOS 5 e o iPhone 4s em outubro de 2011 na conferência Let's Talk iPhone.

O software é baseado em uma interface conversacional: reconhece a fala natural do usuário (com o iOS 11 também é possível inserir comandos manualmente), responde perguntas e conclui tarefas. Graças à introdução do aprendizado de máquina, um assistente ao longo do tempo analisa preferências pessoais o usuário para fornecer resultados e recomendações mais relevantes. A Siri requer uma conexão constante com a Internet - as principais fontes de informação aqui são Bing e Wolfram Alpha. O iOS 10 introduziu suporte para extensões de terceiros.

Mais um dos quatro grandes Cortana. É um assistente pessoal inteligente criado pela Microsoft. É compatível com as plataformas Windows 10, Windows 10 Mobile, Windows Phone 8.1, Xbox One, Skype, Microsoft Band, Microsoft Band 2, Android e iOS. A Cortana foi apresentada pela primeira vez na Microsoft Build Developer Conference em abril de 2014 em San Francisco. O nome do programa vem do nome de um personagem da série de jogos Halo. A Cortana está disponível em inglês, italiano, espanhol, francês, alemão, chinês e japonês.

Usuários do programa já mencionado Alexa eles também devem considerar as restrições de idioma - o assistente digital só fala inglês, alemão, francês e japonês.

O Amazon Virtual Assistant foi usado pela primeira vez nos alto-falantes inteligentes Amazon Echo e Amazon Echo Dot desenvolvidos pela Amazon Lab126. Ele permite interação por voz, reprodução de música, criação de lista de tarefas, configuração de alarme, streaming de podcast, reprodução de audiolivro e tempo real, trânsito, esportes e outras informações de notícias, como notícias (4). Alexa pode controlar vários dispositivos inteligentes para criar um sistema de automação residencial. Também pode ser usado para fazer compras convenientes na loja da Amazon.

4. Para que os usuários usam o Echo (de acordo com a pesquisa)

Os usuários podem aprimorar a experiência do Alexa instalando as "habilidades" do Alexa (), recursos adicionais desenvolvidos por terceiros, mais comumente chamados de aplicativos, como clima e programas de áudio em outras configurações. A maioria dos dispositivos Alexa permite que você ative seu assistente virtual com uma senha de ativação, chamada de .

A Amazon definitivamente domina o mercado de alto-falantes inteligentes hoje (5). A IBM, que lançou um novo serviço em março de 2018, está tentando entrar no top quatro assistente de Watson, projetado para empresas que desejam criar seus próprios sistemas de assistentes virtuais com controle de voz. Qual é a vantagem da solução IBM? De acordo com representantes da empresa, em primeiro lugar, em oportunidades muito maiores para personalização e proteção da privacidade.

Primeiro, o Watson Assistant não tem marca. As empresas podem criar suas próprias soluções nesta plataforma e rotulá-las com sua própria marca.

Em segundo lugar, eles podem treinar seus sistemas assistivos usando seus próprios conjuntos de dados, o que a IBM diz que torna mais fácil adicionar recursos e comandos a esse sistema do que outras tecnologias VUI (interface de usuário de voz).

Em terceiro lugar, o Watson Assistant não fornece à IBM informações sobre a atividade do usuário - os desenvolvedores de soluções na plataforma só podem manter dados valiosos para si mesmos. Enquanto isso, qualquer pessoa que construa dispositivos, por exemplo com Alexa, deve estar ciente de que seus dados valiosos acabarão na Amazon.

O Watson Assistant já possui várias implementações. O sistema foi utilizado, por exemplo, pela Harman, que criou um assistente de voz para o carro-conceito Maserati (6). No aeroporto de Munique, um assistente da IBM aciona um robô Pepper para ajudar os passageiros a se movimentarem. O terceiro exemplo é a Chameleon Technologies, onde a tecnologia de voz é usada em um medidor doméstico inteligente.

6. Watson Assistant em um carro conceito Maserati

Vale acrescentar que a tecnologia subjacente aqui também não é nova. O Watson Assistant inclui recursos de criptografia para produtos IBM existentes, Watson Conversation e Watson Virtual Agent, bem como APIs para análise de linguagem e bate-papo.

A Amazon não é apenas líder em tecnologia de voz inteligente, mas está transformando-a em um negócio direto. No entanto, algumas empresas experimentaram a integração do Echo muito antes. A Sisense, uma empresa do setor de BI e análise, introduziu a integração Echo em julho de 2016. Por sua vez, a startup Roxy decidiu criar seu próprio software e hardware com controle de voz para o setor hoteleiro. No início deste ano, o Synqq lançou um aplicativo de anotações que usa processamento de voz e linguagem natural para adicionar notas e entradas de calendário sem precisar digitá-las em um teclado.

Todas essas pequenas empresas têm grandes ambições. Acima de tudo, porém, eles aprenderam que nem todo usuário deseja transferir seus dados para Amazon, Google, Apple ou Microsoft, que são os atores mais importantes na construção de plataformas de comunicação de voz.

Americanos querem comprar

Em 2016, a pesquisa por voz representou 20% de todas as pesquisas móveis do Google. As pessoas que usam essa tecnologia diariamente citam sua conveniência e multitarefa entre seus maiores benefícios. (por exemplo, a capacidade de usar um mecanismo de pesquisa enquanto dirige um carro).

Os analistas da Visiongain estimam o valor de mercado atual dos assistentes digitais inteligentes em US$ 1,138 bilhão.Existem cada vez mais mecanismos desse tipo. Segundo o Gartner, no final de 2018 já 30% de nossas interações com a tecnologia será por meio de conversas com sistemas de voz.

A empresa de pesquisa britânica IHS Markit estima que o mercado de assistentes digitais com inteligência artificial chegará a 4 bilhões de dispositivos até o final deste ano, e esse número pode subir para 2020 bilhões até 7.

De acordo com relatórios da eMarketer e VoiceLabs, 2017 milhões de americanos usaram o controle de voz pelo menos uma vez por mês em 35,6. Isso significa um aumento de quase 130% em relação ao ano anterior. Só o mercado de assistentes digitais deverá crescer 2018% em 23. Isso significa que você já estará usando-os. 60,5 milhões de americanos, o que resultará em dinheiro concreto para seus produtores. A RBC Capital Markets estima que a interface Alexa gerará até US$ 2020 bilhões em receita para a Amazon até 10.

Lavar, assar, limpar!

As interfaces de voz estão entrando cada vez mais ousadamente nos mercados de eletrodomésticos e eletrônicos de consumo. Isso já pôde ser visto durante a exposição IFA 2017 do ano passado. A empresa americana Neato Robotics apresentou, por exemplo, um aspirador de pó robô que se conecta a uma das várias plataformas domésticas inteligentes, incluindo o sistema Amazon Echo. Ao falar com o alto-falante inteligente Echo, você pode instruir a máquina a limpar toda a sua casa em horários específicos do dia ou da noite.

Outros produtos ativados por voz foram exibidos na feira, desde smart TVs vendidas sob a marca Toshiba pela empresa turca Vestel até cobertores aquecidos pela empresa alemã Beurer. Muitos desses dispositivos eletrônicos também podem ser ativados remotamente usando smartphones.

No entanto, de acordo com os representantes da Bosch, é muito cedo para dizer qual das opções de assistente doméstico se tornará dominante. Na IFA 2017, um grupo técnico alemão apresentou máquinas de lavar (7), fornos e máquinas de café que se conectam ao Echo. A Bosch também quer que seus dispositivos sejam compatíveis com as plataformas de voz do Google e da Apple no futuro.

7. Máquina de lavar Bosch que se conecta ao Amazon Echo

Empresas como Fujitsu, Sony e Panasonic estão desenvolvendo suas próprias soluções de assistente de voz baseadas em IA. A Sharp está adicionando essa tecnologia a fornos e pequenos robôs que entram no mercado. A Nippon Telegraph & Telephone está contratando fabricantes de hardware e brinquedos para adaptar um sistema de inteligência artificial controlado por voz.

Conceito antigo. A hora dela finalmente chegou?

Na verdade, o conceito de Voice User Interface (VUI) existe há décadas. Qualquer um que assistiu Star Trek ou 2001: A Space Odyssey anos atrás provavelmente esperava que por volta do ano 2000 todos nós controlaríamos computadores com nossas vozes. Além disso, não foram apenas os escritores de ficção científica que viram o potencial desse tipo de interface. Em 1986, pesquisadores da Nielsen perguntaram aos profissionais de TI o que eles achavam que seria a maior mudança nas interfaces de usuário até o ano 2000. Na maioria das vezes, eles apontaram para o desenvolvimento de interfaces de voz.

Há razões para esperar por tal solução. Afinal, a comunicação verbal é a maneira mais natural de as pessoas trocarem pensamentos conscientemente, então usá-la para interação homem-máquina parece ser a melhor solução até agora.

Uma das primeiras VUIs, chamada caixa de sapatos, foi criado no início dos anos 60 pela IBM. Foi o precursor dos sistemas de reconhecimento de voz de hoje. No entanto, o desenvolvimento de dispositivos VUI foi limitado pelos limites do poder de computação. Analisar e interpretar a fala humana em tempo real exige muito esforço e levou mais de cinquenta anos para chegar ao ponto em que realmente se tornou possível.

Dispositivos com interface de voz começaram a aparecer na produção em massa em meados dos anos 90, mas não ganharam popularidade. O primeiro telefone com comando de voz (discagem) foi Philips Sparklançado em 1996. No entanto, este dispositivo inovador e fácil de usar não estava isento de limitações tecnológicas.

Outros telefones equipados com formas de interface de voz (criadas por empresas como RIM, Samsung ou Motorola) chegam regularmente ao mercado, permitindo aos usuários discar por voz ou enviar mensagens de texto. Todos eles, porém, exigiam memorizar comandos específicos e pronunciá-los de forma forçada, artificial, adaptada às capacidades dos aparelhos da época. Isso gerou um grande número de erros, que, por sua vez, levaram à insatisfação do usuário.

No entanto, agora estamos entrando em uma nova era da computação, na qual os avanços no aprendizado de máquina e o desenvolvimento da inteligência artificial estão desbloqueando o potencial da conversação como uma nova maneira de interagir com a tecnologia (8). O número de dispositivos que suportam a interação por voz tornou-se um fator importante que teve um grande impacto no desenvolvimento da VUI. Hoje, quase 1/3 da população mundial já possui smartphones que podem ser usados para esse tipo de comportamento. Parece que a maioria dos usuários está finalmente pronta para adaptar suas interfaces de voz.

8. História moderna do desenvolvimento da interface de voz

No entanto, antes de podermos falar livremente com um computador, como fizeram os heróis de Uma Odisseia no Espaço, precisamos superar uma série de problemas. As máquinas ainda não são muito boas em lidar com nuances linguísticas. Além do mais muitas pessoas ainda se sentem desconfortáveis em dar comandos de voz a um mecanismo de pesquisa.

As estatísticas mostram que os assistentes de voz são usados principalmente em casa ou entre amigos próximos. Nenhum dos entrevistados admitiu usar busca por voz em locais públicos. No entanto, é provável que esse bloqueio desapareça com a disseminação dessa tecnologia.

pergunta tecnicamente difícil

O problema que os sistemas (ASR) enfrentam é extrair dados úteis de um sinal de fala e associá-los a uma determinada palavra que tem um determinado significado para uma pessoa. Os sons produzidos são diferentes a cada vez.

Variabilidade do sinal de fala é sua propriedade natural, graças à qual, por exemplo, reconhecemos um acento ou entonação. Cada elemento do sistema de reconhecimento de voz tem uma tarefa específica. Com base no sinal processado e seus parâmetros, é criado um modelo acústico, que é associado ao modelo de linguagem. O sistema de reconhecimento pode funcionar com base em um pequeno ou grande número de padrões, o que determina o tamanho do vocabulário com o qual trabalha. Eles podem ser pequenos dicionários no caso de sistemas que reconhecem palavras ou comandos individuais, bem como grandes bancos de dados contendo o equivalente do conjunto de linguagem e levando em consideração o modelo de linguagem (gramática).

Problemas enfrentados pelas interfaces de voz em primeiro lugar entender a fala corretamente, em que, por exemplo, sequências gramaticais inteiras são frequentemente omitidas, ocorrem erros linguísticos e fonéticos, erros, omissões, defeitos de fala, homônimos, repetições injustificadas, etc. Todos esses sistemas ACP devem funcionar de forma rápida e confiável. Pelo menos essas são as expectativas.

A fonte de dificuldades também são sinais acústicos diferentes da fala reconhecida que entram na entrada do sistema de reconhecimento, ou seja, todos os tipos interferência e ruído. No caso mais simples, você precisa deles filtrar. Essa tarefa parece rotineira e fácil - afinal, vários sinais são filtrados e todo engenheiro eletrônico sabe o que fazer em tal situação. No entanto, isso deve ser feito com muito cuidado e cuidado para que o resultado do reconhecimento de fala atenda às nossas expectativas.

A filtragem atualmente utilizada permite remover, juntamente com o sinal de fala, o ruído externo captado pelo microfone e as propriedades internas do próprio sinal de fala, que dificultam o seu reconhecimento. No entanto, um problema técnico muito mais complexo surge quando a interferência no sinal de fala analisado é... outro sinal de fala, ou seja, por exemplo, discussões barulhentas ao redor. Essa questão é conhecida na literatura como a chamada . Isso já exige o uso de métodos complexos, os chamados. deconvolução (desvendando) o sinal.

Os problemas com o reconhecimento de fala não terminam aí. Vale a pena perceber que a fala carrega muitos tipos diferentes de informação. A voz humana sugere o sexo, a idade, as diferentes características do dono ou o estado de saúde dele. Existe um extenso departamento de engenharia biomédica que lida com o diagnóstico de várias doenças com base nos fenômenos acústicos característicos encontrados no sinal de fala.

Existem também aplicações em que o principal objetivo da análise acústica de um sinal de fala é identificar o locutor ou verificar se ele é quem afirma ser (voz em vez de chave, senha ou código PUK). Isso pode ser importante, especialmente para tecnologias de construção inteligente.

O primeiro componente de um sistema de reconhecimento de voz é microfone. No entanto, o sinal captado pelo microfone geralmente permanece de pouca utilidade. Estudos mostram que a forma e o curso da onda sonora variam muito dependendo da pessoa, da velocidade da fala e, em parte, do humor do interlocutor - enquanto, em pequena medida, refletem o próprio conteúdo dos comandos falados.

Portanto, o sinal deve ser processado corretamente. A acústica moderna, a fonética e a ciência da computação juntas fornecem um rico conjunto de ferramentas que podem ser usadas para processar, analisar, reconhecer e entender um sinal de fala. O espectro dinâmico do sinal, o chamado espectrogramas dinâmicos. Eles são bastante fáceis de obter, e a fala apresentada na forma de um espectrograma dinâmico é relativamente fácil de reconhecer usando técnicas semelhantes às usadas no reconhecimento de imagens.

Elementos simples da fala (por exemplo, comandos) podem ser reconhecidos pela simples semelhança de espectrogramas inteiros. Por exemplo, um dicionário de celular ativado por voz contém apenas algumas dezenas a algumas centenas de palavras e frases, geralmente pré-empilhadas para que possam ser identificadas com facilidade e eficiência. Isso é suficiente para tarefas de controle simples, mas limita severamente a aplicação geral. Os sistemas construídos de acordo com o esquema, como regra, suportam apenas alto-falantes específicos para os quais as vozes são especialmente treinadas. Portanto, se houver alguém novo que queira usar sua voz para controlar o sistema, provavelmente não será aceito.

O resultado desta operação é chamado Espectrograma 2-W, ou seja, um espectro bidimensional. Há outra atividade neste bloco que vale a pena prestar atenção - segmentação. De um modo geral, estamos falando de dividir um sinal de fala contínuo em partes que podem ser reconhecidas separadamente. É somente a partir desses diagnósticos individuais que se faz o reconhecimento do todo. Esse procedimento é necessário porque não é possível identificar um discurso longo e complexo de uma só vez. Volumes inteiros já foram escritos sobre quais segmentos distinguir em um sinal de fala, então não decidiremos agora se os segmentos distinguidos devem ser fonemas (equivalentes sonoros), sílabas ou talvez alofones.

O processo de reconhecimento automático sempre se refere a algumas características dos objetos. Centenas de conjuntos de parâmetros diferentes foram testados para o sinal de voz. dividido em quadros reconhecidos e tendo recursos selecionadosem que esses quadros são apresentados no processo de reconhecimento, podemos realizar (para cada quadro separadamente) categorização, ou seja atribuindo um identificador ao quadro, que o representará no futuro.

Próximo estágio montagem de quadros em palavras separadas - na maioria das vezes com base no chamado. modelo de modelos implícitos de Markov (HMM-). Então vem a montagem de palavras frases completas.

Agora podemos retornar ao sistema Alexa por um momento. Seu exemplo mostra um processo multi-estágio de "compreensão" da máquina de uma pessoa - mais precisamente: um comando dado por ele ou uma pergunta feita.

Entender palavras, entender o significado e entender a intenção do usuário são coisas completamente diferentes.

Portanto, o próximo passo é o trabalho do módulo de PNL (), cuja tarefa é reconhecimento de intenção do usuário, ou seja o significado da ordem/pergunta no contexto em que foi proferida. Se a intenção for identificada, então atribuição das chamadas habilidades e habilidades, ou seja, o recurso específico suportado pelo assistente inteligente. No caso de uma pergunta sobre o clima, as fontes de dados meteorológicos são chamadas, que ainda precisam ser processadas em fala (TTS - mecanismo). Como resultado, o usuário ouve a resposta para a pergunta feita.

Voz? Artes gráficas? Ou talvez ambos?

Os sistemas de interação modernos mais conhecidos são baseados em um intermediário chamado Interface gráfica do usuário (interface gráfica). Infelizmente, a GUI não é a maneira mais óbvia de interagir com um produto digital. Isso requer que os usuários primeiro aprendam a usar a interface e lembrem-se dessas informações a cada interação subsequente. Em muitas situações, a voz é muito mais conveniente, pois você pode interagir com a VUI simplesmente falando com o dispositivo. Uma interface que não força os usuários a memorizar e memorizar certos comandos ou métodos de interação causa menos problemas.

É claro que a expansão da VUI não significa abandonar as interfaces mais tradicionais - ao contrário, estarão disponíveis interfaces híbridas que combinam várias formas de interação.

A interface de voz não é adequada para todas as tarefas em um contexto móvel. Com ele, ligaremos para um amigo que está dirigindo um carro e até enviaremos um SMS para ele, mas verificar as últimas transferências pode ser muito difícil - devido à quantidade de informações transmitidas ao sistema () e geradas pelo sistema (sistema). Como sugere Rachel Hinman em seu livro Mobile Frontier, o uso da VUI torna-se mais eficaz ao executar tarefas em que a quantidade de informações de entrada e saída é pequena.

Um smartphone conectado à Internet é conveniente, mas também inconveniente (9). Toda vez que um usuário deseja comprar algo ou usar um novo serviço, ele precisa baixar outro aplicativo e criar uma nova conta. Foi criado aqui um campo para uso e desenvolvimento de interfaces de voz. Em vez de forçar os usuários a instalar muitos aplicativos diferentes ou criar contas separadas para cada serviço, os especialistas dizem que a VUI transferirá a carga dessas tarefas complicadas para um assistente de voz com inteligência artificial. Será conveniente para ele realizar atividades extenuantes. Só lhe daremos ordens.

9. Interface de voz via smartphone

Hoje, mais do que apenas um telefone e um computador estão conectados à Internet. Termostatos inteligentes, luzes, chaleiras e muitos outros dispositivos integrados à IoT também estão conectados à rede (10). Assim, existem dispositivos sem fio ao nosso redor que preenchem nossas vidas, mas nem todos se encaixam naturalmente na interface gráfica do usuário. O uso da VUI ajudará você a integrá-los facilmente ao nosso ambiente.

10. Interface de voz com a Internet das Coisas

Criar uma interface de usuário de voz logo se tornará uma habilidade chave do designer. Este é um problema real - a necessidade de implementar sistemas de voz vai incentivar você a focar mais no design proativo, ou seja, tentar entender as intenções iniciais do usuário, antecipando suas necessidades e expectativas em todas as etapas da conversa.

A voz é uma maneira eficiente de inserir dados - ela permite que os usuários emitam comandos rapidamente para o sistema em seus próprios termos. Por outro lado, a tela fornece uma maneira eficiente de exibir informações: permite que os sistemas exibam uma grande quantidade de informações ao mesmo tempo, reduzindo a carga na memória dos usuários. É lógico que combiná-los em um sistema parece encorajador.

Alto-falantes inteligentes como o Amazon Echo e o Google Home não oferecem uma exibição visual. Melhorando significativamente a precisão do reconhecimento de voz a distâncias moderadas, eles permitem a operação sem as mãos, o que por sua vez aumenta sua flexibilidade e eficiência - são desejáveis mesmo para usuários que já possuem smartphones com controle de voz. No entanto, a falta de uma tela é uma grande limitação.

Apenas bipes podem ser usados para informar os usuários sobre possíveis comandos, e ler a saída em voz alta torna-se tedioso, exceto para as tarefas mais básicas. Definir um temporizador com um comando de voz durante o cozimento é ótimo, mas fazer você perguntar quanto tempo resta não é necessário. Obter uma previsão do tempo regular torna-se um teste de memória para o usuário, que precisa ouvir e absorver uma série de fatos durante toda a semana, em vez de pegá-los na tela de relance.

Os desenhistas já solução híbrida, Echo Show (11), que adicionou uma tela de exibição ao alto-falante inteligente Echo básico. Isso expande muito a funcionalidade do equipamento. No entanto, o Echo Show ainda é muito menos capaz de realizar as funções básicas que há muito estão disponíveis em smartphones e tablets. Ele não pode (ainda) navegar na web, mostrar avaliações ou exibir o conteúdo de um carrinho de compras da Amazon, por exemplo.

Uma exibição visual é inerentemente uma maneira mais eficaz de fornecer às pessoas uma riqueza de informações do que apenas som. Projetar com prioridade de voz pode melhorar muito a interação por voz, mas, a longo prazo, não usar arbitrariamente o menu visual para interagir será como lutar com uma mão amarrada nas costas. Devido à crescente complexidade das interfaces inteligentes de voz e exibição de ponta a ponta, os desenvolvedores devem considerar seriamente uma abordagem híbrida para as interfaces.

O aumento da eficiência e velocidade dos sistemas de geração e reconhecimento de voz tornou possível usá-los em aplicações e áreas como, por exemplo:

• militares (comandos de voz em aviões ou helicópteros, por exemplo, F16 VISTA),

• transcrição automática de texto (fala para texto),

• sistemas de informação interativos (Prime Speech, portais de voz),

• dispositivos móveis (telefones, smartphones, tablets),

• robótica (sistemas Cleverbot - ASR combinados com inteligência artificial),

• automotivo (controle mãos-livres de componentes do carro, como Blue & Me),

• aplicações domésticas (sistemas domésticos inteligentes).

Cuidado com a segurança!

Automotivos, eletrodomésticos, sistemas de aquecimento/resfriamento e segurança doméstica e uma série de eletrodomésticos estão começando a usar interfaces de voz, geralmente baseadas em IA. Nesta fase, os dados obtidos de milhões de conversas com máquinas são enviados para nuvens de computação. É claro que os profissionais de marketing estão interessados neles. E não só eles.

Um relatório recente dos especialistas em segurança da Symantec recomenda que os usuários de comandos de voz não controlem recursos de segurança, como travas de portas, muito menos sistemas de segurança doméstica. O mesmo vale para armazenar senhas ou informações confidenciais. A segurança da inteligência artificial e dos produtos inteligentes ainda não foi suficientemente estudada.

Quando os dispositivos em toda a casa ouvem cada palavra, o risco de invasão e uso indevido do sistema se torna uma grande preocupação. Se um invasor obtiver acesso à rede local ou aos endereços de e-mail associados, as configurações do dispositivo inteligente poderão ser alteradas ou redefinidas para as configurações de fábrica, o que levará à perda de informações valiosas e à exclusão do histórico do usuário.

Em outras palavras, os profissionais de segurança temem que a IA e a VUI orientadas por voz ainda não sejam inteligentes o suficiente para nos proteger de possíveis ameaças e manter a boca fechada quando um estranho pede algo.