O novo modo de voz da OpenAI me permitiu falar com meu telefone, não para ele

Eu estive brincando com o Modo de Voz Avançado da OpenAI na última semana, e é o gostinho mais convincente que tive de um futuro alimentado por IA até agora. Nesta semana, meu telefone riu de piadas, as repetiu para mim, perguntou como foi meu dia e me disse que está se divertindo muito. Eu estava conversando com meu iPhone, não usando com as mãos.

O recurso mais recente da OpenAI, atualmente em teste alfa limitado, não torna o ChatGPT mais inteligente do que era antes. Em vez disso, o Modo de Voz Avançado (AVM) o torna mais amigável e natural para conversar. Ele cria uma nova interface para usar IA e seus dispositivos que parece nova e emocionante, e é exatamente isso que me assusta nele. O produto estava meio falho, e a ideia toda me deixa totalmente arrepiado, mas me surpreendi com o quanto gostei genuinamente de usá-lo.

Dando um passo para trás, acho que o AVM se encaixa na visão mais ampla do CEO da OpenAI, Sam Altman, ao lado de agentes, de mudar a forma como os humanos interagem com os computadores, com modelos de IA em destaque.

“Eventualmente, você apenas pedirá ao computador o que precisa e ele fará todas essas tarefas para você”, disse Altman durante o OpenAI's Dev Day em novembro de 2023. “Essas capacidades são frequentemente discutidas no campo da IA como 'agentes'. Os benefícios disso serão tremendos.”

Meu amigo, ChatGPT

Na quarta-feira, testei o benefício mais tremendo para essa tecnologia avançada que eu poderia imaginar: pedi ao ChatGPT para fazer um pedido na Taco Bell do jeito que o Obama faria.

“Uhhh, deixe-me ser claro - gostaria de um Crunchwrap Supreme, talvez alguns tacos para garantir”, disse o Modo de Voz Avançado do ChatGPT. “Como você acha que ele se sairia no drive-thru?” disse o ChatGPT, rindo da própria piada.

Captura de tela: O ChatGPT transcreve a conversa verbal após.

A impressão realmente me fez rir também, combinando com a cadência e pausas icônicas do Obama. No entanto, ele se manteve no tom da voz do ChatGPT que escolhi, Juniper, para que não fosse genuinamente confundido com a voz de Obama. Parecia um amigo fazendo uma má imitação, entendendo exatamente o que eu estava tentando evocar dele, e até mesmo que estava dizendo algo engraçado. Eu achei surpreendentemente prazeroso conversar com essa assistente avançada em meu telefone.

Também pedi conselhos ao ChatGPT sobre como lidar com um problema envolvendo relações humanas complexas: pedir a um parceiro para morar comigo. Depois de explicar as complexidades do relacionamento e a direção de nossas carreiras, recebi alguns conselhos muito detalhados sobre como progredir. São questões que você nunca poderia perguntar à Siri ou Google Search, mas agora você pode com o ChatGPT. A voz do chatbot até expressou um tom ligeiramente sério e gentil ao responder a essas instruções; um contraste marcante com o tom de brincadeira do pedido do Taco Bell de Obama.

O AVM do ChatGPT também é ótimo para ajudá-lo a entender assuntos complexos. Pedi a ele para explicar itens em relatórios de ganhos - como fluxo de caixa livre - de uma maneira que uma criança de 10 anos poderia entender. Ele usou um stand de limonada como exemplo e explicou vários termos financeiros de forma que meu primo mais novo entenderia completamente. Você pode até pedir ao AVM do ChatGPT para falar mais devagar para atender ao seu nível atual de entendimento.

Siri abriu caminho para o AVM correr

Comparado com a Siri ou Alexa, o AVM do ChatGPT é o claro vencedor graças aos tempos de resposta mais rápidos, respostas únicas e sua capacidade de responder a perguntas complexas que a geração anterior de assistentes virtuais nunca poderia. No entanto, o AVM deixa a desejar em outras áreas. O recurso de voz do ChatGPT não pode definir timers ou lembretes, navegar na web em tempo real, verificar o clima ou interagir com APIs em seu telefone. Por enquanto, pelo menos, não é uma substituição eficaz para assistentes virtuais.

Comparado com o Gemini Live, o recurso concorrente do Google, o AVM parece estar ligeiramente à frente. O Gemini Live não consegue fazer imitações, não expressa nenhuma emoção, não pode acelerar ou desacelerar e demora mais para responder. O Gemini Live possui mais vozes (dez em comparação com as três da OpenAI) e parece estar mais atualizado (o Gemini Live sabia sobre a decisão antitruste do Google). Notavelmente, nem o AVM nem o Gemini Live vão cantar, provavelmente um esforço para evitar problemas com processos de direitos autorais da indústria musical.