Cinco perguntas sobre o "Project HoloLens" da Microsoft

O novo headset de Realidade Aumentada da Microsoft é muito emocionante - mas eles podem resolver os problemas fundamentais do AR?

O novo headset de Realidade Aumentada da Microsoft é muito emocionante - mas eles podem resolver os problemas fundamentais do AR?
Propaganda

Na manhã de quarta-feira, a Microsoft mostrou um projeto em que trabalha há sete anos, um fone de realidade aumentada chamado Project HoloLens .

A visão é ambiciosa: eles querem mudar fundamentalmente a forma como as pessoas interagem com os computadores, construindo um par de óculos que podem misturar de forma fluida o conteúdo virtual e real juntos no espaço físico do usuário. Isso é como a tecnologia de realidade virtual Por que a tecnologia de realidade virtual vai explodir sua mente em 5 anos Por que a tecnologia de realidade virtual vai explodir sua mente em 5 anos O futuro da realidade virtual inclui rastreamento de cabeça, olhos e expressão, toque simulado e muito mais. Essas incríveis tecnologias estarão disponíveis para você em 5 anos ou menos. Leia mais, mas fundamentalmente mais poderoso. Além disso, eles querem fazer todo o processamento localmente nos óculos - sem computador, sem telefone, sem cabos. Eles estão lançando uma versão especial do Windows apenas para o novo hardware. Este é o próximo estágio na evolução tecnológica para todos aqueles jogos AR Apps de Realidade Aumentada: Útil, ou apenas hype? Testes MakeUseOf Apps de Realidade Aumentada: Útil, ou apenas hype? Testes MakeUseOf Em 2011, os analistas previram o aumento de aplicativos móveis de Realidade Aumentada. A tecnologia nascente revolucionaria a maneira como interagimos com nossos dispositivos móveis. Flash forward dois anos e dezenas de aplicativos AR preencher todos ... Leia mais você instalou em seu telefone que uma vez e não tocou desde então.

Seu prazo é ainda mais ambicioso do que seus objetivos: eles querem enviar kits para desenvolvedores nesta primavera e o produto de consumo “durante o período do Windows 10”. Aqui está o tom.

Tudo isso parece ótimo, mas admito um grau bastante alto de ceticismo.

As tecnologias que a Microsoft está usando têm sérios desafios fundamentais, e até agora a Microsoft tem sido muito discreta sobre como (ou se) elas foram resolvidas. Se eles não os resolveram, então o objetivo deles de enviar dentro de um ano é muito preocupante. A última coisa que o VR e o AR precisam é de uma grande empresa vendendo outro produto meio cozido como o Kinect. Lembre-se da demonstração do Project Natal de 2009?

Sem mais delongas, aqui estão as cinco coisas mais importantes que eu gostaria de saber sobre o HoloLens.

Esta é uma exibição de campo de luz?

Para entender isso, temos que olhar um pouco mais para o 3D e como ele funciona. Para obter a sensação de um mundo 3D real e tangível, nossos cérebros integram muitos tipos diferentes de informações. Nós obtemos dicas de profundidade sobre o mundo de três maneiras principais:

  • Profundidade estéreo - a disparidade entre o que ambos os nossos olhos vêem. Fingindo isso é como funcionam os filmes em 3D
  • Paralaxe de movimento - movimentos sutis de nossa cabeça e tronco nos dão pistas adicionais de profundidade para objetos que estão mais distantes
  • Foco óptico - quando nos concentramos em algo, as lentes dos nossos olhos se deformam fisicamente até entrar em foco; objetos de campo próximo exigem mais distorção de lente, o que fornece informações detalhadas sobre o que estamos vendo

O foco óptico é fácil de verificar por si mesmo: feche um olho e mantenha o polegar na frente de uma parede do outro lado da sala. Em seguida, mude o foco da miniatura para a superfície atrás dela. Ao olhar além do polegar, o polegar fica fora de foco porque a lente do olho está agora menos deformada e não consegue coletar corretamente a luz que vem dele.

Os headsets VR como o Oculus Rift fornecem as duas primeiras pistas com extrema precisão, mas não a última, que funciona surpreendentemente bem: nossos olhos ficam completamente relaxados, já que a ótica foca as imagens porque a luz vinha de infinitamente distante. A falta da sugestão de foco ótico é irrealista, mas normalmente não distrai. Você ainda pode ter experiências de jogo muito legais 5 Oculus Rift Gaming Experiências que vão acabar com você 5 Oculus Rift Gaming Experiências que vão acabar com você Agora que a segunda geração do kit de desenvolvimento Oculus Rift está nas mãos de desenvolvedores em todo o mundo, vamos ver algumas das melhores coisas que atingiram o Rift até agora. Leia mais sem ele.

Na realidade aumentada, o problema é diferente, porque você tem que misturar a luz de objetos reais e virtuais. A luz do mundo real será naturalmente focada em uma variedade de profundidades. O conteúdo virtual, no entanto, será todo focado em uma distância fixa e artificial ditada pela ótica - provavelmente no infinito. Objetos virtuais não parecerão que são realmente parte da cena. Eles estarão fora de foco quando você olhar para as coisas reais na mesma profundidade e vice-versa. Não será possível mover o olho de maneira fluida pela cena, mantendo-o em foco, como faz normalmente. Os sinais de profundidade conflitantes serão, na melhor das hipóteses, confusos e na pior das hipóteses.

Para corrigir isso, você precisa de algo chamado de exibição de campo de luz. As exibições de campo de luz são exibições que usam uma série de lentes minúsculas para exibir a luz focada em várias profundidades simultaneamente. Isso permite que o usuário se concentre naturalmente no monitor e (para realidade aumentada) resolve o problema descrito acima.

Há, no entanto, um problema: os displays de campo de luz mapeiam essencialmente uma única tela 2D em um campo de luz tridimensional, o que significa que cada “pixel de profundidade” que o usuário percebe (e existe em uma profundidade focal específica na cena) é realmente feito de luz de muitos pixels na tela original. Quanto mais fina for a profundidade que você deseja retratar, mais resolução terá de desistir.

Geralmente, os campos de luz têm uma redução de resolução de cerca de oito vezes para fornecer precisão de profundidade adequada. Os melhores microvisores disponíveis têm uma resolução de cerca de 1080p. Supondo um microdisplay high-end dirigindo cada olho, isso faria a resolução real do headset da Microsoft apenas cerca de 500 x 500 pixels por olho, menos até do que o Oculus Rift DK1. Se a exibição tiver um alto campo de visão, os objetos virtuais serão blocos de pixels incompreensíveis. Se isso não acontecer, a imersão sofrerá proporcionalmente. Nós nunca conseguimos enxergar através das lentes (apenas recriações de computador do que o usuário está vendo), então não temos idéia de como é a experiência do usuário.

É possível que a Microsoft tenha encontrado uma solução inovadora para esse problema, para permitir o uso de uma exibição de campo de luz sem a compensação da resolução. No entanto, a Microsoft tem sido extremamente cuidadosa com sua tecnologia de exibição, o que me faz suspeitar que não. Aqui está a melhor explicação que temos até agora (da demo WIRED ).

Para criar imagens do Project HoloLens, as partículas de luz refletem milhões de vezes no chamado motor de luz do dispositivo. Em seguida, os fótons entram nas duas lentes dos óculos de proteção, onde eles ricocheteam entre camadas de vidro azul, verde e vermelho antes de chegarem à parte de trás de seu olho.

Esse tipo de descrição da tecnologia pode significar praticamente qualquer coisa (embora, para ser justo com a Microsoft, o hardware tenha impressionado WIRED, embora o artigo tenha sido claro em detalhes).

Nós não saberemos mais com certeza até que a Microsoft comece a lançar especificações técnicas, provavelmente daqui a meses. Em uma nota mais a respeito da escolha do nit, é realmente necessário afogar o projeto nessa linguagem de marketing? O processador dedicado que eles estão usando para rastreamento da cabeça é chamado de “processador holográfico” e as imagens são chamadas de “hologramas”, sem nenhum motivo específico. O produto é fundamentalmente legal o suficiente para que não seja necessário dourá-lo assim.

O rastreamento é bom o suficiente?

O headset Project HoloLens tem uma câmera de alta profundidade FOV montada nele (como o Kinect), que ele usa para descobrir onde o fone de ouvido está no espaço (tentando alinhar a imagem de profundidade que está vendo com seu modelo do mundo, de imagens de profundidade anteriores). Aqui está sua demonstração ao vivo do fone de ouvido em ação.

O rastreamento é impressionante, considerando que ele não usa marcadores ou outras fraudes, mas mesmo nesse vídeo (sob condições altamente controladas), você pode ver uma certa quantidade de oscilação: o rastreamento não é completamente estável. Isso é de se esperar: esse tipo de rastreamento de dentro para fora é extremamente difícil.

No entanto, a grande lição dos vários protótipos do Oculus Rift Veja-nos Experimente o Oculus Rift Crescent Bay no CES 2015 Veja-nos Experimente o Oculus Rift Crescent Bay no CES 2015 O Oculus Rift Crescent Bay é um novo protótipo que mostra algumas melhorias interessantes em tecnologia de realidade virtual. Nós experimentamos na CES 2015. Read More é que a precisão do rastreamento é muito importante. O rastreamento nervoso é meramente irritante quando se trata de alguns objetos em um mundo real estável, mas em cenas como a demo de Marte que eles mostraram em seu vídeo conceitual, onde quase tudo que você vê é virtual, o rastreamento impreciso pode levar a uma falta de presença ”na cena virtual, ou até doença do simulador. A Microsoft pode obter o rastreamento para o padrão definido pela Oculus (precisão de rastreamento submilimétrica e latência total de menos de 20 ms) até a data de envio no final deste ano?

Aqui está Michael Abrash, um pesquisador de RV que trabalhou para a Valve e o Oculus, falando sobre o problema

[Porque há sempre um atraso na geração de imagens virtuais, [...] é muito difícil obter imagens reais e virtuais para registrar de perto o suficiente para que o olho não perceba. Por exemplo, suponha que você tenha uma lata de Coca-Cola que você queira transformar em uma AR Pepsi, desenhando um logotipo da Pepsi no logotipo da Coca-Cola. Se forem necessárias dúzias de milissegundos para redesenhar o logotipo da Pepsi, toda vez que você girar a cabeça, o efeito será que o logotipo da Pepsi mudará alguns graus em relação à lata, e parte do logotipo da Coca-Cola se tornará visível; então o logo da Pepsi voltará ao lugar certo quando você parar de se mover. Isso claramente não é bom o suficiente para AR

O mostrador pode desenhar preto?

Outra questão ao lado da profundidade e do acompanhamento focal está relacionada ao desenho de cores escuras. Adicionar mais luz a uma cena é relativamente simples, usando divisores de feixe. Tirar a luz é muito mais difícil. Como você seletivamente escurece partes do mundo real? Colocar uma tela LCD seletivamente transparente não a cortará, já que nem sempre pode estar no foco correto para bloquear o que você está olhando. As ferramentas ópticas para resolver este problema, a menos que a Microsoft as tenha inventado secretamente, simplesmente não existem.

Isso é importante porque, para muitos dos aplicativos que a Microsoft está exibindo (como assistir à Netflix em sua parede), o headset precisa realmente da capacidade de remover a luz da parede, ou seu filme sempre terá um padrão de estuque visível sobreposto. com ele: será impossível que as imagens bloqueiem objetos reais na cena, tornando o uso do fone de ouvido altamente dependente das condições de iluminação do ambiente. Voltar a Michael Abrash:

Até aqui, nada disso surgiu na indústria de AR ou na literatura, e a menos que isso aconteça, uma AR dura, no sentido de que todos nós conhecemos e amamos, não pode acontecer, exceto na escuridão.

Isso não significa que o AR está fora da mesa, só que por um tempo ainda será suave AR, com base na mistura aditiva [...] Novamente, pense translúcido como "Ghostbusters". Imagens virtuais de alta intensidade sem áreas escuras também funcionam, especialmente com a ajuda do escurecimento regional ou global - eles simplesmente não parecerão parte do mundo real.

E sobre oclusão?

"Oclusão" é o termo para o que acontece quando um objeto passa na frente do outro e impede você de ver o que está por trás dele. Para que o cenário virtual pareça uma parte tangível do mundo, é importante que objetos reais ocludam objetos virtuais: se você segurar a mão na frente de uma peça de imagem virtual, não conseguirá vê-la sua mão. Por causa do uso de uma câmera de profundidade no fone de ouvido, isso é realmente possível. Mas, assista a demonstração ao vivo novamente:

Em geral, eles controlam cuidadosamente os ângulos da câmera para evitar que objetos reais passem na frente dos virtuais. No entanto, quando o demonstrador interage com o menu do Windows, você pode ver que a mão dela não o obstrui. Se isso está além do alcance de sua tecnologia, isso é um péssimo sinal para a viabilidade de seu produto de consumo.

E falando dessa interface do usuário ...

Esta é realmente a última interface do usuário?

A interface do usuário mostrada pela Microsoft em seus vídeos de demonstração parece funcionar usando uma combinação de rastreamento de olhar e mão para controlar um cursor na cena virtual, enquanto usa controles de voz para selecionar entre diferentes opções. Isso tem duas grandes desvantagens: faz você parecer o garotinho do Shining que fala com o dedo, mas, mais importante, também representa um paradigma de design fundamentalmente falho.

Historicamente, as melhores interfaces de usuário foram aquelas que trazem intuições físicas sobre o mundo para o mundo virtual. O rato trouxe clicando, arrastando e janelas. Interface de toque trouxe furto para rolar e beliscar para ampliar. Ambos foram críticos para tornar os computadores mais acessíveis e úteis para a população em geral - porque eram fundamentalmente mais intuitivos do que os que vieram antes.

VR e AR dão a você muito mais liberdade como designer: você pode colocar elementos de interface do usuário em qualquer lugar em um espaço 3D e fazer com que os usuários interajam naturalmente com eles, como se fossem objetos físicos. Um grande número de metáforas óbvias se sugere. Toque em um elemento da interface do usuário virtual para selecioná-lo. Aperte-o para pegá-lo e mova-o. Deslize para fora do caminho para armazená-lo temporariamente. Esmagá-lo para excluí-lo. Você pode imaginar criar uma interface de usuário tão intuitiva que não exija nenhuma explicação. Algo que sua avó pode pegar instantaneamente, porque é construído sobre uma base de intuições físicas básicas que todos constroem ao longo da vida interagindo com o mundo. Tome um minuto e ouça essa pessoa inteligente descrever quais interfaces imersivas poderiam ser.

Em outras palavras, parece óbvio (para mim) que uma interface de usuário imersiva deve ser pelo menos tão intuitiva quanto as interfaces de toque criadas pelo iPhone para telas multitoque 2D. Construir uma interface em torno da manipulação de um “mouse” de realidade virtual é um passo para trás e expõe falhas tecnológicas profundas em sua tecnologia de rastreamento de mãos ou um mal-entendido fundamental sobre o que é interessante sobre esse novo meio. De qualquer maneira, é um sinal muito ruim para este produto ser mais do que um colapso colossal, em escala Kinect.

Espero que a Microsoft tenha tempo para obter feedback sobre isso e fazer um trabalho melhor. Como exemplo, aqui está uma interface projetada por um amador para o Oculus Rift DK2 e o Leap Motion. Uma interface imersiva projetada por uma grande empresa deve ser pelo menos tão boa.

Um sinal do que está para vir

No geral, sou extremamente cético em relação ao Projeto HoloLens como um todo. Fico muito feliz que uma empresa com recursos da Microsoft esteja investigando esse problema, mas estou preocupado com o fato de eles tentarem apressar um produto sem resolver alguns problemas técnicos subjacentes críticos ou descobrir um bom paradigma de interface do usuário. O HoloLens é um sinal do que está por vir, mas isso não significa que o produto em si proporcionará uma boa experiência aos consumidores.

Crédito de imagem: cortesia da Microsoft

In this article