Artykuł – Oko kamery, czy kamera zamiast oka?

Tym razem zapraszam Was do lektury całego cyklu moich artykułów, opublikowanych w czasopiśmie Mój Mac Magazyn, poświęconych tematyce aplikacji, służących do rozpoznawania różnych rzeczy.
Oczywiście z całą zawartością numerów, w których pojawiły się moje artykuły, możecie zapoznać się odwiedzając archiwum MMM.
Logo Mój Mac Magazyn

Oko kamery, czy kamera zamiast oka?

Zmysł wzroku dostarcza człowiekowi według różnych źródeł, od 80 do 90% informacji o otaczającym nas świecie. Jak bardzo na nim polegamy możecie przekonać się po prostu zamykając oczy podczas zwykłego jedzenia zupy. Od razu zaznaczam, że nie biorę odpowiedzialności za powstanie ewentualnych poparzeń, ani że nie będę pokrywał kosztów pralni chemicznej. Gdybyście jednak chcieli w bezpieczny sposób przekonać się na własnej skórze, co oznacza funkcjonowanie bez zmysłu wzroku, zachęcam do odwiedzenia warszawskiej Niewidzialnej Wystawy (http://niewidzialna.pl). Tymczasem chciałbym jednak zastanowić się nad technicznymi możliwościami oraz stopniem, w jakim urządzenie mobilne w obecnych czasach może zastąpić nam wzrok.

Większość czytelników MMM ma szczęście potraktować ten tekst jako zwykłą ciekawostkę. Jest jednak duża grupa osób, która na co dzień całkowicie lub w znacznym stopniu nie może korzystać ze zmysłu wzroku. I właśnie tym ludziom z pomocą przychodzą nowoczesne technologie oraz niebojący się wyzwań i nowatorskich pomysłów programiści.

Ostatnio głośno zrobiło się o sieciach neuronowych i uczeniu maszynowym. Google wykorzystuje je do usprawnienia procesu rozpoznawania mowy oraz jej dalszego tłumaczenia na inne języki. Apple i Facebook używa ich do podstawowego rozpoznawania osób i obiektów na zdjęciach. Z kolei Amazon poszedł o krok dalej i udostępnił usługę, która jest w stanie nie tylko wykryć obecność na zdjęciu jakiejś osoby, ale również podać jej płeć i nastrój. Pomijając całe setki potencjalnych zastosowań sieci neuronowych, dziś skupię się tylko i wyłącznie na ich obecnie najpopularniejszej i najszerzej wykorzystywanej funkcji, czyli na wspomnianym rozpoznawaniu obiektów właśnie.

Zacznę od należącej do Polaka, małej lecz prężnej brytyjskiej firmy CamFind Inc. Jakiś czas temu nasz rodak wpadł na pomysł, że fajnie będzie stworzyć program, który po zrobieniu zdjęcia dowolnemu produktowi nie tylko go rozpozna, ale zaproponuje również alternatywną możliwość zakupu tego samego lub podobnych produktów w pobliżu i w internecie. Ucieleśnieniem tej wizji stała się aplikacja CamFind.

Ale czy ona na prawdę działa? Gdy napędzany ciekawością z poziomu samego programu od niechcenia cyknąłem fotkę mojej gitary, od razu dowiedziałem się, że jest to „Sunburst Gitara akustyczna” i otrzymałem namiary na kupno podobnego produktu online. Nie wierzycie? Sprawdźcie sami. Aplikacja jest darmowa i do pobrania z AppStore.

Zanim jednak program zyskał jakikolwiek sukces, jego możliwości zostały nomen omen dostrzeżone przez osoby niewidome i słabo widzące. Dzięki CamFind ludzie niemogący korzystać z własnego wzroku zyskali możliwość rozpoznawania najróżniejszych obiektów. Teraz bez najmniejszego problemu i bez otwierania opakowań mogli się przekonać jakie chipsy trzymają w ręku, jaka jest zawartość słoików w lodówce czy jaką herbatę mają w danym pudełku.

CamFind był jednak aplikacją kierowaną do innego klienta. Jej producent widząc rosnące zainteresowanie, możliwości oraz korzyści jakie rozpoznawanie obrazu przynosi osobom z dysfunkcją wzroku, postanowił stworzyć dla nich osobny program o nazwie TapTapSee. I jak się okazuje, zrobił to całkiem zgrabnie. Nowa aplikacja jest znacznie mniejsza i przyjaźniejsza. Została pozbawiona ekstra dodatków dla zakupoholików, a przez to korzysta się z niej znacznie szybciej i wygodniej.

Szczerze przyznam, że czasem TapTapSee potrafi mnie zaskoczyć. Przed chwilą pstryknąłem fotkę komputera na którym piszę ten tekst a aplikacja oznajmiła mi: Zdjęcie 3 to MacBook Air włączony. Na początku jakość rozpoznawania zdumiewa. Z nieoficjalnych informacji jakie posiadam wiem, iż w większości za rozpoznawanie obiektów na fotografii odpowiadają algorytmy stworzone przez CamFind Inc. Czasem jednak w sytuacjach gdy nie mogą sobie one z czymś poradzić, zdjęcie opisuje żywy pracownik firmy.

Myślę jednak, że dla osób niewidomych i słabo widzących nie ma żadnego znaczenia czy ich zdjęcia opisuje człowiek czy algorytm. Istotne jest to, że teraz gdy chcą poznać np. rodzaj napoju w puszce bez jej wcześniejszego otwierania, wystarczy że wezmą telefon do ręki i zrobią tej puszce zdjęcie za pomocą aplikacji TapTapSee. Nie muszą tworzyć indywidualnych audioetykiet czy polować na kody paskowe. Swoją drogą spróbujcie z zamkniętymi oczami odnaleźć kod paskowy na opakowaniu. Powodzenia życzę.

Oczywiście opisane powyżej aplikacje nie są jedynymi tego typu rozwiązaniami funkcjonującymi na rynku. W tym miejscu mógłbym wspomnieć chociażby włoski program ViaOptaDaily, który jednak, podobnie jak inne tego typu aplikacje pozostaje daleko w tyle za możliwościami i komfortem obsługi oferowanymi przez TapTapSee. Czy jednak chociażby najlepsze algorytmy świata mogą zastąpić nam naturalny, ludzki wzrok? Odpowiedź brzmi: oczywiście, że nie. Jeżeli jednak nieco zmienię to pytanie i zapytam: „Czy mobilne urządzenie może zastąpić nam naturalny, ludzki wzrok?”, odpowiedź na nie już nie jest tak oczywista i jednoznaczna. A wątpliwości wywołuje przede wszystkim duński program Be my Eyes (ang. Bądź moimi oczami). Aplikacja ta działa w najprostszy z możliwych sposób, łącząc w videorozmowie osobę niewidomą z wolontariuszem, który na chwilę dzieli się swoimi oczami.

Użytkownik potrzebujący pomocy z poziomu programu wysyła prośbę o nawiązanie połączenia. Z kolei wolontariusz od czasu do czasu na ekran swojego mobilnego urządzenia otrzymuje wyskakujące powiadomienie o potrzebie udzielenia pomocy. I jeśli wtedy ma na to czas, chęci oraz możliwości, odbiera połączenie i pomaga. Oczywiście cała pomoc sprowadza się do udzielenia głosowej informacji co się widzi na ekranie. Czasem wolontariusz proszony jest przez osobę dzwoniącą o szerszą, kontekstową informację. Przykładowo czy ten konkretny krawat kolorem pasuje do tej konkretnej
koszuli.

Aktualnie w programie zarejestrowanych jest już prawie pół miliona wolontariuszy z całego świata oraz nieco ponad 32 tysiące użytkowników z dysfunkcją wzroku, którzy od czasu do czasu zgłaszają się z prośbą o użyczenie oczu. Myślę jednak, że pomimo możliwości oferowanych obecnie przez Be my Eyes oraz innych, znacznie bardziej zaawansowanych rozwiązań nie znajdujemy się jeszcze na tym etapie rozwoju technologii, w którym w razie potrzeby, będzie nam ona mogła w pełni zastąpić naturalny, ludzki wzrok. Co oczywiście nie oznacza, że aktualnie nie możecie podzielić się z kimś swoimi oczami. Dołączając do polskojęzycznej grupy wolontariuszy Be my Eyes, skrócicie czas oczekiwania na połączenie i zwiększycie szanse na znalezienie pomocy w naszym ojczystym języku.

Linki do pobrania wspomnianych aplikacji z AppStore:

3 komentarzy na temat “Artykuł – Oko kamery, czy kamera zamiast oka?

  1. Przetestowałem aplikację TapTapSee i całkiem fajnie działa. Jeśli obiekt na zdjęciu jednoznacznie można opisać to rozpoznaje bezbłędnie. Gorzej gdy jest fragment czegoś co na podstawie zdjęcia trudno jednoznacznie opisać, wówczas robi błędy. Ale człowiek widzący też w takiej sytuacji będzie się zastanawiał co tam jest. W sumie aplikacja jest całkiem zgrabna i może stanowić dużą pomoc dla osoby niewidomej. Gratulacje dla autora za pomysł.

Możliwość komentowania jest wyłączona