OCR przez e-mail

Niestety bardzo często mamy do czynienia z dokumentami mającymi postać zeskanowanego obrazu. Nie zawsze posiadamy lub mamy pod ręką program OCR umożliwiający rozpoznanie tekstu na obrazku. W takiej sytuacji doskonałym rozwiązaniem może okazać się serwis OnlineOCR.net. Serwis ten rozpoznaje tekst na obrazie lub fotografii i udostępnia go nam w edytowalnym formacie. Ale jak to działa?

Korzystanie z serwisu jest banalnie proste. Wystarczy stworzyć nową wiadomość e-mail, zaadresować ją do ocr@onlineocr.net, załączyć plik graficzny, w treści wiadomości wpisać kilka parametrów i wysłać maila. Po chwili w odpowiedzi otrzymamy wiadomość z załącznikiem, w którym będzie znajdowała się rozpoznana treść.

Oczywiście, jak zwykle, jest jakiś haczyk, a nawet dwa. 😉

Aby móc korzystać z serwisu OnlineOCR.net musimy utworzyć sobie w nim konto. Możemy to zrobić wchodząc na ten adres:
http://www.onlineocr.net/unsecure/Registration.aspx
Podajemy login, hasło, adres e-mail z którego będziemy wysyłać pliki i niestety, musimy także przepisać kod z obrazka. Całość zatwierdzamy przyciskiem Sign up now. Rejestrację kończymy klikając w link aktywacyjny znajdujący się w wiadomości weryfikującej, która po chwili wpłynie na podane przez nas konto.

Drugi haczyk polega na możliwości darmowego rozpoznania jedynie 20 plików graficznych. Później pozostaje nam tylko albo założyć sobie konto z innego adresu albo zakupić tzw. Kredyty. Przykładowo 50 kredytów to koszt $5, 100 kredytów $7, 300 kredytów $15. Cały cennik na stronie serwisu.

Ogromną zaletą OnlineOCR.net jest możliwość rozpoznawania w wielu językach, różnych formatów wejściowych (PDF, JPG itp.) oraz zapisywanie wyników do edytowalnych formatów jak DOC, TXT, RTF czy XLS. Usługę można konfigurować w dowolny sposób. Wykorzystuje się do tego tzw. Parametry, które umieszczamy w treści wiadomości wysyłanej do serwisu. Na stronie usługi można zapoznać się ze wszystkimi parametrami a nawet skorzystać z prostego kreatora parametrów. Ja poniżej podam jeden zapis, który określa język rozpoznawania jako polski, nakazuje rozpoznać cały dokument i zapisać go w formacie RTF.

-lang:polish
-output:rtf
-tobw:true
-combine:false
-pagerange:all
-createzip:false

Parametry najwygodniej wkleić sobie do zaadresowanej wiadomości e-mail i zapisać ją w folderze z roboczymi mailami. Dzięki temu zawsze będzie pod ręką i jak nagle będziemy musieli zapoznać się z treścią tekstu znajdującego się na obrazku, będzie jak znalazł.

Więcej o usłudze OnlineOCR można poczytać pod poniższym adresem:
http://www.onlineocr.net/support/EmailOCR.aspx