Amazon przedstawia nową Alexę: mówi i rozumie jak człowiek. Magia AI wkracza do Twojego domu

kiki

Sklep audiovideo.com.pl
Pomagam

Amazon przedstawia nową Alexę: mówi i rozumie jak człowiek. Magia AI wkracza do Twojego domu

1695398684571.jpeg



Amazon przedstawia nową Alexę: mówi i rozumie jak człowiek. Magia AI wkracza do Twojego domu
Podczas corocznego przeglądu nowych produktów Amazon ochrzcił nową Alexę: wyniki osiągnięte w zakresie interakcji z ludźmi, rozumienia języka i prowadzenia rozmów są imponujące.

Dave Limp jest wizualnie podekscytowany, bardziej podekscytowany niż wtedy, gdy spotkaliśmy go latem w jego domu w siedzibie Amazon w Seattle. Dziś jego ostatnia prezentacja w Amazonie, w sierpniu zapowiedział, że odejdzie z firmy, ale jednocześnie najważniejsza, bo jego córeczka Alexa w końcu dorasta.

Podczas corocznej imprezy inaugurującej nowe produkty i usługi Amazon Limp śledzi etapy podróży, która w ciągu ostatnich dwóch lat została przyspieszona przez wielki boom w dziedzinie sztucznej inteligencji: kiedy narzędzia takie jak Chat-GPT stają się powszechnie stosowane, jest to normalne że wszyscy zastanawiają się, dlaczego Alexa, Siri i inni inteligentni asystenci nie są tak inteligentni, jak nowe „chatboty” napędzane sztuczną inteligencją .


Pytanie, na które nie jest łatwo dać krótką odpowiedź: Alexa nie jest botem tekstowym, Alexa musi rozumieć, o co się ją pyta, a zrozumienie tego z prośby głosowej jest trudniejsze niż zrozumienie tego z prośby pisemnej, ale przede wszystkim Alexa nie może popełniać błędów .

Alexa „mieszka” w domu, przekaż nam to określenie, stworzyła atmosferę zaufania między nią a rodziną mieszkającą w domu, zna dom i oprócz odpowiadania musi także pomagać tym, którzy tam mieszkają kwestie praktyczne, takie jak zarządzanie oświetleniem, listą zakupów czy po prostu komunikacja pomiędzy wieloma pomieszczeniami lub wieloma osobami.

Krótko mówiąc, wiele elementów musiało ułożyć się na swoim miejscu, a Amazon w ostatnich latach, podczas gdy znana nam Alexa udoskonalała się z roku na rok, dodając nowe funkcje i nowe umiejętności, opracowywał zupełnie inną Alexę , Alexę, która w końcu odzwierciedlała to, czym Alexa powinna być od początku, ale czego nie można było zrobić ze względu na ograniczenia technologiczne tamtych czasów.
1695398464759.jpeg


Dziś, prawie 10 lat po premierze pierwszego Echo, Amazonowi w końcu udało się osiągnąć cel, który jeszcze kilka lat temu wydawał się nieosiągalny: asystent domowy, który jest bliski ideałowi prawdziwego asystenta, jaki wszyscy mają. Inteligentny, responsywny, godny zaufania, ale przede wszystkim z super mocami.

Limp mówi to wyraźnie: „ Gdyby w 2014 roku, kiedy wypuściliśmy na rynek urządzenie w kształcie puszki Pringles, powiedzieliśmy Wam, że to urządzenie stanie się zupełnie nową i inną platformą komputerową od tej, którą znamy dzisiaj, platformą dostępną głosowo, a nie z klawiaturą i myszą – platformą, z której korzystają miliony ludzi na całym świecie, nie wiedząc, jaki ma system operacyjny, można by pomyśleć, że zwariowałem .

Dziś, po prawie dziesięciu latach, istnieje prawie miliard urządzeń, które pozwalają dzwonić do Alexy, a Alexa wkrótce stanie się jednym z najpotężniejszych produktów, jakie kiedykolwiek trafiły do domów. To oczywiście zasługa sztucznej inteligencji.
Sztuczna inteligencja zaprogramowana przez sztuczną inteligencję

Alexa, jak i oczywiście urządzenia Echo, od zawsze wykorzystywały sztuczną inteligencję jako podstawowy element swojego działania. Rozpoznawanie intencji, czyli słów kluczowych żądania głosowego, odbywa się za pomocą modelu sztucznej inteligencji, a synteza głosowa odpowiedzi, która z biegiem lat uległa poprawie, niemal osiągając poziom prawdziwego języka naturalnego, jest wynikiem długie szkolenie, z setkami tysięcy różnych próbek głosu, które wygładzają nieco robotyczną fleksję normalnych syntezatorów wokalnych.

Jednak to nie wystarczyło: w ostatnich latach Amazon zaczął używać różnych modeli dużych języków: niektóre z nich, takie jak model nauczyciela Alexa, nauczyły Alexę udzielania dokładniejszych odpowiedzi i stworzył zupełnie nowy, oparty na miliardach parametry, aby nauczyć Alexę, jak być idealnym asystentem w domu.
Alexa Let's Chat, generatywna asystentka oparta na sztucznej inteligencji

Model ten, zoptymalizowany pod kątem głosu, opiera się na pięciu różnych filarach: ma możliwości dialogu człowieka, rozumie kontekst świata zewnętrznego jak dłoń, jest integralną częścią rodziny, ma swoją osobowość i przede wszystkim jest godny zaufania.

Narodziny Alexy Let's Chat.

To nie science fiction, choć przywołuje na myśl wiele przeżyć z filmów, to rzeczywistość, co pokazuje poniższy klip. Oczywiście do ulepszenia, ale nadal robi wrażenie.

Jak widać teraz można prowadzić prawdziwą rozmowę. Nie ma już potrzeby powtarzania Alexy za każdym razem, asystent rozumie po raz pierwszy, kiedy z nim rozmawiasz.

Osiągnięcie takiego celu – tłumaczy ze sceny Limp – nie jest proste. Amazon musiał zbadać sposoby, w jakie ludzie prowadzą rozmowy, i próbował wykorzystać sprzęt urządzeń Echo, aby zaoferować Alexie to, czego najwyraźniej brakuje asystentowi.

Pomiędzy dwojgiem rozmawiających osób toczy się gra spojrzeń i gest, który staje się integralną częścią kontekstu, a Amazon wykorzystał czujniki urządzenia, w tym kamerę wideo, aby spróbować przełamać tę barierę .
1695398485292.jpeg

Tak jak możemy zwrócić się do osoby, nie znając jej imienia, a ona rozumie, że próbujemy rozpocząć rozmowę, tak samo Alexa rozumie, jeśli prośba jest skierowana do niej: robi to za pomocą modeli akustycznych, które analizują kierunek głosu, a przede wszystkim wykorzystania obrazu komputerowego, dzięki któremu rozumie, czy ktoś patrzy na ekran Echo Show.

Istnieje również problem opóźnienia: rozmawiając z osobą, oczekujesz natychmiastowej odpowiedzi, a nowy model LLM firmy Amazon sobie z tym radzi, nawet uchylając się od sformułowania odpowiedzi.

Mało tego: choć dziś Alexa oczekuje, że zostaną użyte konkretne słowa, to wszystko będzie wymawiane dość wyraźnie, a przede wszystkim, aby w prośbie nie było przerw. Jeśli poczekamy kilka sekund na zastanowienie, urządzenie Echo rozpocznie przetwarzanie żądania.

W nowym modelu udaje się wydobyć kontekst nawet z szybko wypowiedzianego zdania, być może niejasnego lub ułamanego, z przerwami w środku. Według Amazona ten nowy model, wyszkolony na podstawie miliardów parametrów i godzin rozmów, jest najbardziej zaawansowanym modelem rozpoznawania głosu, jaki kiedykolwiek stworzono.

Zmienia się nie tylko sposób, w jaki Alexa rozumie, ale także sposób, w jaki Alexa mówi. Jeśli dzisiaj poprosimy Alexę, aby opowiedziała nam dowcip, jest to jedna z najczęstszych próśb, jej żart będzie płaski, bez nacisku. Jeśli zapytamy o wynik ulubionej drużyny, odpowie tak samo, czy drużyna wygrała, czy też przegrała. Alexa nie zna dziś dialektów, nie zna emocji, nie wie, jak zmienić ton głosu w zależności od sytuacji: dzięki nowemu modelowi Text-To-Speech nowa Alexa będzie mogła zmienić ton i prędkość, aby spróbować przekazać emocje podczas rozmowy.
1695398522286.jpeg

Cel ten, ważny z technicznego punktu widzenia, został osiągnięty poprzez wyeliminowanie klasycznych kroków stosowanych obecnie przez Alexę: żądania audio są najpierw konwertowane na tekst, następnie wyodrębniane są słowa kluczowe, są one rozumiane, generowana jest odpowiedź tekstowa za pomocą model LLM i ta odpowiedź jest wysyłana do Echo, które za pośrednictwem mechanizmu przetwarzania tekstu na mowę generuje dźwięk.

Model LLM, na którym opiera się nowa Alexa , ujednolica wszystkie te zadania i dlatego Amazon mówi o mowie na mowę: część tekstowa jest eliminowana, a przy tym zachowywane są również informacje, które zostały utracone podczas wyodrębniania intencji, na przykład ton konkretnej prośby.

Alexa również opiera się na umiejętnościach, a umiejętność to niewielka aplikacja, która często wykonuje połączenia z usługami zewnętrznymi.
1695398550483.jpeg

Zarządzanie umiejętnością jest czymś bardzo złożonym, ponieważ Amazon nie jest w stanie kontrolować szybkości reakcji na konkretne polecenie wysyłane do serwerów zewnętrznych, szczególnie jeśli akcja, np. procedura, odpowiada wielokrotnym wywołaniom API. Nowy model Alexa jest w stanie poprawnie zinterpretować kontekst, automatycznie tłumacząc nawet nieprecyzyjną prośbę: za pomocą ogólnego „ Włącz światło ”. Alexa rozumie, że użytkownik prawdopodobnie ma na myśli wyłączone światło tam, gdzie się znajduje lub gdzie jest ono bezpośrednie. .

Wciąż mieszcząc się w tym kontekście, nowa Alexa, oprócz tego, że jest w stanie odpowiedzieć na wiele pytań, dokładnie w taki sam sposób, w jaki odpowiada dzisiaj model LLM w stylu „chat-gpt”, może również dostarczać w czasie rzeczywistym informacji o meczach, koncertach, aktualnościach i wielu innych .

Wszystko to ze świadomością tego, co dzieje się w rodzinie: zna osobiste gusta, zna mieszkania w kalendarzu, zna miejsce, w którym się znajduje i usługi, z którymi na co dzień styka się każdy członek rodziny. Nowa Alexa, jeśli zajdzie taka potrzeba, również może wyrazić swoją opinię.

Nowa funkcja Let's Chat Alexy pojawi się jako podgląd technologiczny, obecnie tylko dla użytkowników amerykańskich i będzie można z niej korzystać na każdym urządzeniu Echo, nawet na pierwszej generacji.

Jednak rozszerzenie usługi Amazon na inne języki nie powinno zająć dużo czasu. Niektóre funkcje pokazane tutaj, w Waszyngtonie, nie są jeszcze gotowe i pojawią się dopiero w przyszłym roku.

W ciągu tych dziesięciu lat śledziliśmy rozwój Alexy od dziecka do nastolatka. Teraz, dzięki sztucznej inteligencji, Alexa nagle zyskała dziesięć lat i okazuje się, że jest już dorosła: udoskonalenie tego zajmie jeszcze lata, ale różnica między tym, co było do tej pory, a tym, co ogłosił dziś Amazon, jest naprawdę ogromna.
dday
 
Do góry