Artykuł – Seeing AI – Sztuczna inteligencja na usługach niewidomych

To już ostatni z cyklu moich artykułów, opublikowanych w czasopiśmie Mój Mac Magazyn, poświęconych tematyce aplikacji, służących do rozpoznawania różnych rzeczy. Osobiście jednak uważam, że ten właśnie jest tym najważniejszym, który koniecznie musicie przeczytać.
Oczywiście z całą zawartością numerów, zawierających wspomniane artykuły, możecie zapoznać się odwiedzając archiwum MMM
lub dział Artykuły w Mojej Szufladzie.
Logo Mój Mac Magazyn

Seeing AI – Sztuczna inteligencja na usługach niewidomych

Na łamach MMM, już kilkukrotnie opisywałem aplikacje, w różnym zakresie wspierające osoby z dysfunkcją wzroku. W głównej mierze bazowały one na wykorzystaniu obrazu pozyskanego z kamery iUrządzenia, a po jego analizie, udzielały informacji co znajduje się na zdjęciu, jaki to ma kolor, czy co tam zostało napisane. Na pierwszy rzut, nomen omen oka, aplikacja Seeing AI działa dokładnie tak samo, ale jak to zwykle bywa, diabeł tkwi w szczegółach.

A czemu od razu diabeł? Niestety, w taki właśnie sposób część osób postrzega dziś sztuczną inteligencję, a to właśnie oznaczają te dwie literki w nazwie aplikacji – AI (ang. Artificial Intelligence). Co prawda analogię tę niektórzy mogliby próbować rozciągnąć jeszcze na samego twórcę aplikacji, firmę Microsoft…Abstrahując jednakże od Waszych osobistych odczuć i przekonań, w tym miejscu chciałbym jedynie przybliżyć Wam stworzony przez firmę z Redmond doskonały produkt, który według mnie zasługuje na szczególną uwagę, i z pewnością zainteresuje on wielu użytkowników, posiadających określone, specyficzne potrzeby.

Seeing AI wyposażono w szereg funkcji, występujących również w innych aplikacjach tego typu. Tym jednak co stanowi o jego wartości, jest zasadnicza różnica w tempie pracy samego programu i jakość dostarczanych przez niego informacji zwrotnych. Wśród podstawowych funkcji aplikacji możemy wymienić:

  • Szybki odczyt krótkich tekstów (ang. Short Text).
  • Rozpoznawanie tekstu na wykonanych zdjęciach – OCR (ang. Document).
  • Rozpoznawanie kodów (ang. Product).
  • Opisywanie osób i ich emocji na wykonanych zdjęciach (ang. Person).
  • Rozpoznawanie walut (ang. Currency Preview).
  • Rozpoznawanie oraz opisywanie obiektów na wykonanych zdjęciach (ang. Scene Preview).
  • Rozpoznawanie kolorów (ang. Color Preview).
  • Rozpoznawanie odręcznego pisma na wykonanych zdjęciach (ang. Handwriting Preview).
  • Wykrywanie źródeł światła (ang. Light);

Short Text to jedna z najciekawszych opcji Seeing AI. Po jej włączeniu, wystarczy skierować oko kamery na jakikolwiek tekst, aby został on rozpoznany, i automatycznie odczytany syntetycznym głosem przez program odczytu ekranu VoiceOver. Funkcja działa błyskawicznie i rozpoznaje tekst z dowolnego źródła, kartki papieru, ekranu komputera, tablicy informacyjnej, itp. itd. Natychmiastowa informacja zwrotna umożliwia komfortowe i zupełnie odruchowe korygowanie ustawienia kamery. Po raz pierwszy użytkownik nie musi czekać na analizę procesu, która w przypadku Seeing AI odbywa się w locie. Co ciekawe, pomimo braku słowników OCR dla języka polskiego, z tekstami w naszej nadwiślańskiej mowie, aplikacja w tym trybie radzi sobie zdumiewająco dobrze.

Funkcja Document, czyli rozpoznawanie tekstu z wykonanych zdjęć działa podobnie do tych znanych z innych aplikacji. Seeing AI jedynie podpowiada użytkownikowi czy w kadrze znajdują się krawędzie fotografowanego dokumentu, a gdy warunki będą optymalne, program poprosi użytkownika tylko o nieruchome trzymanie iUrządzenia, w tym czasie samemu wykonując najlepsze zdjęcie. Niestety, jakość rozpoznanych tekstów pozostawia jeszcze wiele do życzenia. Wynika to oczywiście stąd, że Seeing AI puki co nie posiada słowników OCR dla języka polskiego.

Za to funkcja Product działa fantastycznie. I nie mam tu na myśli samego rozpoznawania kodów, bo tu podobnie jak w przypadku słowników OCR, program nie posiada zbyt wiele informacji z polskich baz danych. Na uwagę zasługuje jednak nowatorski sposób odnajdywania samych kodów. Seeing AI, wykorzystując sygnały dźwiękowe, naprowadza niewidomego użytkownika na kod znajdujący się na opakowaniu. Robi to do momentu, gdy kod znajdzie się w centrum kadru i aplikacja będzie mogła go bezbłędnie zeskanować. Odgłosy przypominają nieco namierzanie rakietą powietrze-powietrze ruchomego celu, ale efekty są znacznie bardziej konstruktywne. W ten sposób Seeing AI rozwiązał podstawowy problem jaki z rozpoznawaniem kodów posiadały osoby z dysfunkcją wzroku, tj. dostarcza informację gdzie znajduje się sam kod.

Z kolei funkcja Person stanowi bardzo ciekawe rozszerzenie informacji, jakie dotychczas dostarczały sieci neuronowe takich potęg informatycznych jak Facebook, czy Amazon. Sztuczna inteligencja Seeing AI jest w stanie określić płeć oraz przypuszczalny wiek osoby znajdującej się na wykonanej fotografii. Opisać w co jest ona ubrana, wliczając w to nakrycia głowy oraz w jakim nastroju była w momencie wykonywania danego zdjęcia. Przyznam się Wam, że gdy zrobiłem sobie selfie, a Seeing AI w jego opisie podał mi mój dokładny wiek, to z wrażenia szczęka mi opadła.

Funkcja Currency preview działa bardzo dobrze, lecz przynajmniej puki co, nie wspiera ona rozpoznawania polskich złotych. Co więcej, to użytkownik powinien w aplikacji wskazać jaką walutę chce rozpoznawać, a to już jest dość słabe rozwiązanie. Na tym polu lepiej wypadają aplikacje innych producentów.

Scene Preview to funkcja polegająca na rozpoznawaniu i opisywaniu obiektów znajdujących się na wykonanych fotografiach. Przypomina aplikację TapTapSee. Działa bardzo szybko, podając maksymalnie dużo szczegółowych informacji na temat rozpoznanego obiektu, np. „Stojący na środku pokoju, duży, brązowy pies”.

Rozpoznawanie kolorów, czyli funkcja Color Preview, niestety działa tak jak większość rozwiązań tego typu. Informacje podawane są bardzo szybko i ani przez chwilę nie można im ufać. Wystarczy lekki ruch obiektywu, cały czas skierowanego na ten sam obiekt, aby Seeing AI oznajmił użytkownikowi zmianę koloru. Nad poprawnym działaniem tej funkcji, sztuczna inteligencja Microsoftu musi jeszcze sporo pogłówkować.

Handwriting preview, jak sama nazwa wskazuje, to funkcja odpowiadająca za rozpoznawanie tekstu na fotografiach odręcznego pisma. Brzmi prosto, prawda? Tylko pozornie. Seeing AI to pierwsze rozwiązanie tego typu, które rzeczywiście działa. Oczywiście występuje tu ten sam problem co w przypadku zwykłego OCR, tj. brak słowników dla języka polskiego. Mimo to, nawet obecnie ta funkcja umożliwi osobie całkowicie niewidomej zorientowanie się, czego dotyczy np. odręczna notatka.

Ostatnia funkcja Light, czyli wykrywanie źródeł światła, działa bardzo sprawnie, ale w niczym nie odbiega w tym od innych rozwiązań tego typu. No, może ma nieco przyjemniejsze dźwięki anonsujące natężenie oraz wykryte źródła światła.

Reasumując, Seeing AI jest podręcznym kombajnem, który na pokładzie swojego iUrządzenia powinna posiadać każda osoba z poważną dysfunkcją wzroku. Aktualnie, program w wersji 2.0.1, traktować możemy jako doskonały odpowiednik cyfrowego, szwajcarskiego scyzoryka. Mam jednak nadzieję, że w miarę szybko pojawi się jego spolszczenie, zarówno dla interfejsu aplikacji, jak i słowników OCR, i że wtedy będziemy już mogli mówić o „polskim” scyzoryku-niezbędniku.

Aplikacja ma już za sobą wszystkie najważniejsze choroby wieku dziecięcego. Zaczynając od tej najpoważniejszej, czyli migrację z mobilnego środowiska Windows na iOS. Kolejnym problemem pierwszych wersji działających w mobilnych systemach Apple było bardzo duże zużycie energii. Aktualnie wszystko zostało już naprawione, więc możemy w pełni cieszyć się Seeing AI w języku angielskim, cierpliwie oczekując na polską lokalizację. A czas oczekiwania możemy umilić sobie obejrzeniem reklamy Seeing AI, opublikowanej przez Microsoft w serwisie YouTube.

A wszyscy zainteresowani działaniem Seeing AI w praktyce, mogą bezpłatnie zainstalować program korzystając z poniższego odnośnika:

Pobierz bezpłatnie Seeing AI z App Store

Jeden komentarz na temat “Artykuł – Seeing AI – Sztuczna inteligencja na usługach niewidomych

  1. Przetestowałem aplikację i naprawdę robi ona wrażenie. Oczywiście ma wiele niedoskonałości ale dla osoby niewidomej może stanowić jakąś pomoc. Skoro wziął się za to Microsoft to jest szansa, że będzie działać coraz lepiej i kiedyś doczekamy się wsparcia dla języka polskiego. Co do oceny wieku osoby na zdjęciu to zależy ona w dużej mierze od jakości zdjęcia i wyrazu twarzy osoby fotografowanej. Jeśli ostrość jest optymalna a mimika twarzy neutralna to aplikacja potrafi trafnie ocenić wiek. W przeciwnym razie rozrzut wiekowy może być spory. Poza tym działa szybko i sprawnie a interfejs jest prosty i przejrzysty.

Możliwość komentowania jest wyłączona