OpenAI u potpunosti ulaže u “Audio-First”: AI hardver koji mijenja način interakcije

Prema industrijskim izvorima, OpenAI planira iduće godine lansirati tajanstveni AI uređaj koji će staviti audio kao primarni način interakcije. Ovo je korak dalje od tekstualnih chat modela i glasovnih asistenata kakve danas poznajemo. Fokus nije samo na komunikaciji, već na stvaranju neprekidnog, “always-on” iskustva – AI koji je stalno prisutan, razumije korisnika i reagira u stvarnom vremenu, bez potrebe za otvaranjem aplikacije ili ekrana.

Problem trenutnih glasovnih AI sustava

Većina današnjih AI glasovnih asistenata (uključujući ChatGPT Voice, Siri i Google Assistant) radi po principu:
Govor → Tekst (STT) → Obrada modela → Tekst → Govor (TTS)

Ovaj prijelaz kroz tekst povećava latenciju, što znači da korisnik osjeća zakašnjenje u odgovoru.
Osim toga, ovakav pristup otežava precizno prenošenje emocionalnih nijansi i intonacije govora.
Rezultat: interakcija je formalna i “hladna”, često manje prirodna nego razgovor s ljudskim sugovornikom.

OpenAI želi riješiti ove probleme kroz izvorni audio model, koji direktno razumije i generira zvuk.

“Audio-First” AI: izravno razumijevanje i generiranje zvuka

Novi AI model OpenAI-a ne koristi STT/TTS pipeline.
Model je treniran da direktno analizira glas, kontekst i ton, te generira odgovor u audio obliku.

• Prednosti:

Smanjena latencija – razgovor gotovo u stvarnom vremenu
Bolja interpretacija emocija, intonacije i naglasaka
Prirodnija, ljudskija komunikacija s AI-em

Ovo znači da AI može osjetiti kontekst okoline i prilagoditi svoj odgovor, primjerice smanjiti glas u tišim prostorima ili koristiti entuzijastičan ton u interakciji s korisnikom.

Hardverski uređaj: više od naočala

OpenAI planira fizički uređaj koji podržava ovaj audio model.
Naglasak je na funkciji “Always-On Stand-Ready” – uređaj stalno sluša i reagira, bez potrebe za buđenjem ili otključavanjem.
Glavni cilj je neprimjetna integracija u svakodnevni život – korisnik može komunicirati s AI-em dok vozi, kuha, radi ili se odmara.
Glasine spominju tri dizajna uređaja, uključujući kodno ime “Gumdrop”, koji bi mogao biti AI olovka ili nosivi uređaj poput Humane AI Pin.
Ovo je dio trenda Screenless Computing, gdje računalo više nije ograničeno na ekran ili tipkovnicu, već funkcionira u pozadini i pojavljuje se samo kad je potrebno.

Proizvodnja i globalna logistika

Uređaj će se najvjerojatnije proizvoditi putem Foxconna, što omogućuje skalabilnu proizvodnju i smanjenje troškova zbog trgovinskih napetosti između SAD-a i Kine.
Lokacije montaže uključuju Vijetnam i Sjedinjene Države, s ciljem izbjegavanja visokih carina i ograničenja na proizvode “Made in China”.
OEM strategija također omogućuje fleksibilnost u proizvodnji različitih varijanti uređaja.

Tehnički i strateški značaj

Problemi kod prethodnih AI nosivih uređaja (Humane AI Pin, Rabbit R1) uključivali su:
- Preveliku latenciju
- Nedovoljnu inteligenciju i prilagodljivost
OpenAI-jev audio model mogao bi omogućiti interakciju “nulte latencije”, s emotivnim i kontekstualno prilagođenim odgovorima.
Hardver je sekundaran – pravi fokus je algoritamska inteligencija i brzina odziva.
Ako uspije, OpenAI bi mogao stvoriti prvi stvarni “iPhone trenutak” u AI hardveru, gdje korisnici mogu komunicirati s AI-em bez mobitela, tipkovnice ili ekrana, u svakodnevnim situacijama.

Potencijalni utjecaji na tržište i AI ekosustav

1. Transformacija korisničkog iskustva: AI koji stalno sluša i reagira mijenja način interakcije s tehnologijom tes manjuje potrebu za multitaskingom i oslanjanjem na ekrane.
2. Novi oblik nosive tehnologije: Uređaji više nisu samo pametne naočale ili slušalice, već višefunkcionalni AI asistenti.
3. Audio kao ključni medij u AI-u: Omogućuje bržu integraciju AI-a u fizički svijet, poput kućnih aparata, automobila, medicinskih uređaja i industrijskih strojeva.
4. Ubrzanje inovacija u AI modelima: Izvorni audio model može otvoriti vrata razvoju emocionalno inteligentnog AI-a, što je važno za asistente, edukaciju i terapijske uređaje.

Zaključak

OpenAI-jev fokus na Audio-First interakciju predstavlja potencijalnu revoluciju:

Softver: AI razumije i generira zvuk bez konverzije u tekst
Hardver: Always-On, diskretan, integriran u svakodnevni život
Korisničko iskustvo: komunikacija prirodna, brza i emocionalno bogata

Problem trenutnih glasovnih AI sustava

“Audio-First” AI: izravno razumijevanje i generiranje zvuka

Hardverski uređaj: više od naočala

Proizvodnja i globalna logistika

Tehnički i strateški značaj

Potencijalni utjecaji na tržište i AI ekosustav

Zaključak

DRUGE NOVOSTI

Gamescom 2026 rasprodan mjesec dana prije početka – sav izložbeni prostor popunjen, stižu nova velika imena i premijere

NVIDIA i SEGA slave 30 godina inovacija, donoseći VIRTUA FIGHTER CROSSROADS na RTX Spark

Gears of War: E-Day izlazi 6. listopada s DLSS 4.5 i Ray Tracingom

Microsoft će implementirati procesore AMD Instinct i AMD EPYC sljedeće generacije u sklopu proširenja dugoročnog strateškog partnerstva dviju tvrtki