OpenAI u potpunosti ulaže u “Audio-First”: AI hardver koji mijenja način interakcije
Prema industrijskim izvorima, OpenAI planira iduće godine lansirati tajanstveni AI uređaj koji će staviti audio kao primarni način interakcije. Ovo je korak dalje od tekstualnih chat modela i glasovnih asistenata kakve danas poznajemo. Fokus nije samo na komunikaciji, već na stvaranju neprekidnog, “always-on” iskustva – AI koji je stalno prisutan, razumije korisnika i reagira u stvarnom vremenu, bez potrebe za otvaranjem aplikacije ili ekrana.
Problem trenutnih glasovnih AI sustava
Većina današnjih AI glasovnih asistenata (uključujući ChatGPT Voice, Siri i Google Assistant) radi po principu:
Govor → Tekst (STT) → Obrada modela → Tekst → Govor (TTS)
- Ovaj prijelaz kroz tekst povećava latenciju, što znači da korisnik osjeća zakašnjenje u odgovoru.
- Osim toga, ovakav pristup otežava precizno prenošenje emocionalnih nijansi i intonacije govora.
- Rezultat: interakcija je formalna i “hladna”, često manje prirodna nego razgovor s ljudskim sugovornikom.
OpenAI želi riješiti ove probleme kroz izvorni audio model, koji direktno razumije i generira zvuk.
“Audio-First” AI: izravno razumijevanje i generiranje zvuka
- Novi AI model OpenAI-a ne koristi STT/TTS pipeline.
- Model je treniran da direktno analizira glas, kontekst i ton, te generira odgovor u audio obliku.
• Prednosti:
- Smanjena latencija – razgovor gotovo u stvarnom vremenu
- Bolja interpretacija emocija, intonacije i naglasaka
- Prirodnija, ljudskija komunikacija s AI-em
Ovo znači da AI može osjetiti kontekst okoline i prilagoditi svoj odgovor, primjerice smanjiti glas u tišim prostorima ili koristiti entuzijastičan ton u interakciji s korisnikom.
Hardverski uređaj: više od naočala
- OpenAI planira fizički uređaj koji podržava ovaj audio model.
- Naglasak je na funkciji “Always-On Stand-Ready” – uređaj stalno sluša i reagira, bez potrebe za buđenjem ili otključavanjem.
- Glavni cilj je neprimjetna integracija u svakodnevni život – korisnik može komunicirati s AI-em dok vozi, kuha, radi ili se odmara.
- Glasine spominju tri dizajna uređaja, uključujući kodno ime “Gumdrop”, koji bi mogao biti AI olovka ili nosivi uređaj poput Humane AI Pin.
- Ovo je dio trenda Screenless Computing, gdje računalo više nije ograničeno na ekran ili tipkovnicu, već funkcionira u pozadini i pojavljuje se samo kad je potrebno.
Proizvodnja i globalna logistika
- Uređaj će se najvjerojatnije proizvoditi putem Foxconna, što omogućuje skalabilnu proizvodnju i smanjenje troškova zbog trgovinskih napetosti između SAD-a i Kine.
- Lokacije montaže uključuju Vijetnam i Sjedinjene Države, s ciljem izbjegavanja visokih carina i ograničenja na proizvode “Made in China”.
- OEM strategija također omogućuje fleksibilnost u proizvodnji različitih varijanti uređaja.
Tehnički i strateški značaj
- Problemi kod prethodnih AI nosivih uređaja (Humane AI Pin, Rabbit R1) uključivali su:
- Preveliku latenciju
- Nedovoljnu inteligenciju i prilagodljivost
- OpenAI-jev audio model mogao bi omogućiti interakciju “nulte latencije”, s emotivnim i kontekstualno prilagođenim odgovorima.
- Hardver je sekundaran – pravi fokus je algoritamska inteligencija i brzina odziva.
Ako uspije, OpenAI bi mogao stvoriti prvi stvarni “iPhone trenutak” u AI hardveru, gdje korisnici mogu komunicirati s AI-em bez mobitela, tipkovnice ili ekrana, u svakodnevnim situacijama.
Potencijalni utjecaji na tržište i AI ekosustav
1. Transformacija korisničkog iskustva: AI koji stalno sluša i reagira mijenja način interakcije s tehnologijom tes manjuje potrebu za multitaskingom i oslanjanjem na ekrane.
2. Novi oblik nosive tehnologije: Uređaji više nisu samo pametne naočale ili slušalice, već višefunkcionalni AI asistenti.
3. Audio kao ključni medij u AI-u: Omogućuje bržu integraciju AI-a u fizički svijet, poput kućnih aparata, automobila, medicinskih uređaja i industrijskih strojeva.
4. Ubrzanje inovacija u AI modelima: Izvorni audio model može otvoriti vrata razvoju emocionalno inteligentnog AI-a, što je važno za asistente, edukaciju i terapijske uređaje.
Zaključak
OpenAI-jev fokus na Audio-First interakciju predstavlja potencijalnu revoluciju:
- Softver: AI razumije i generira zvuk bez konverzije u tekst
- Hardver: Always-On, diskretan, integriran u svakodnevni život
- Korisničko iskustvo: komunikacija prirodna, brza i emocionalno bogata
