Aiko – Czyli mobilny transkryptor w kieszeni! Twórz transkrypcję i napisy do nagrań audio-video!

Ostatnio bardzo dużo mówi się o stworzonym przez Open AI module Whisper. Fantastycznie rozpoznaje on tekst z nagrań audio-video, dzięki czemu możemy do nich automatycznie tworzyć transkrypcje i napisy. Jednak jego minusem jest konieczność używania komputerów z mocnymi procesorami, lub kartami graficznymi. Tymczasem norweski programista Sindre Sorhus stworzył aplikację Aiko, wykorzystującą moduł Whisper na urządzeniach mobilnych z systemem iOS, lub iPadOS. Zobaczcie jak to pięknie działa.

Okno aplikacji Aiko zawierające rozpoznany tekst z poniższego nagrania audio-video.

Ograniczenia Aiko

  1. Autor aplikacji nigdzie nie piszę o minimalnych wymaganiach sprzętowych, ale gdzieś mignęła mi informacja, że wymagany jest procesor minimum A15 Bionic. Aktualnie nie posiadam iUrządzenia ze słabszym procesorem, więc nie mogę tego zweryfikować. Jeśli jednak ktoś z Was to sprawdzi, to poproszę o informację w komentarzu. Przyda się innym zainteresowanym osobom.
  2. Prędkość transkrypcji przy dużych plikach to mniej więcej 1 do 1. Przy mniejszych plikach aplikacja działa nieco szybciej. Tu warto jednak uważać, ponieważ jeśli plik jest większy niż 1,5 godziny, to aplikacja może się samoczynnie zamknąć przed ukończeniem tworzenia transkrypcji, a wtedy utracimy dotychczas rozpoznaną treść.
  3. Aplikacja wymaga, aby okno programu w trakcie tworzenia transkrypcji było cały czas aktywne. Dlatego jeśli ustawioną mamy automatyczną blokadę ekranu, powinniśmy ją wyłączyć na czas rozpoznawania dłuższych plików.
  4. Przy rozpoznawaniu większych plików na pewno zauważymy, jak mocno grzeje się nasze urządzenie, oraz jak szybko spada poziom naładowania baterii. Dlatego w takiej sytuacji warto iUrządzenie od razu podłączyć do źródła zasilania. Oczywiście przy krótkich plikach, np. transkrypcji jakiegoś vloga, pewnie nawet nie zauważymy ani wzrostu temperatury, ani utraty energii baterii.
  5. Jedyną opcją dostarczenia materiału do transkrypcji jest umieszczenie go w aplikacji Pliki. I Nie oznacza to oczywiście, że musimy cokolwiek przerzucać na iUrządzenie. Wystarczy, że do aplikacji Pliki podłączoną mamy dowolną chmurę, w rodzaju Dropbox, Google Drive, czy One Drive. Za ich pośrednictwem możemy importować materiały do Aiko.

Aplikację Aiko możecie bezpłatnie pobrać z App Store korzystając z poniższego odnośnika:
Kliknij aby pobrać Aiko z App Store

Do opublikowanego nagrania od razu dodałem napisy stworzone z wykorzystaniem aplikacji Aiko. Dlatego jeśli ciekawi jesteście jak one sprawdzają się w praktyce, w odtwarzaczu YouTube wystarczy włączyć napisy.

Jeśli chcielibyście zobaczyć jak wygląda transkrypcja poniższego nagrania powstała przy pomocy Aiko, to możecie się z nią zapoznać pobierając poniższy plik w formacie RTF.
Kliknij aby pobrać plik Transkrypcja.RTF

A za informacje i pomysł na nagranie po raz kolejny dziękuję Pawłowi Masarczykowi.

Obejrzyj film

Aby śledzić kolejne nowości video pojawiające się w Mojej Szufladzie, wystarczy odwiedzić mój kanał w serwisie YouTube i kliknąć przycisk Subskrybuj. Od tej pory, jeśli niczego nie zmienialiście w ustawieniach, będziecie otrzymywać powiadomienia o nowych filmach publikowanych w Mojej Szufladzie.

A jeśli mielibyście jakieś pytania lub propozycje na kolejne filmy tego typu, dajcie proszę znać w komentarzach lub na mojego maila.

Nie zapominajcie również o polubieniu obejrzanego odcinka, zasubskrybowaniu kanału – jeśli jeszcze tego nie zrobiliście, oraz polecaniu go wszystkim osobom poszukującym informacji na temat technologii asystujących dostępnych w środowisku mac lub iOS/iPadOS.

7 komentarzy na temat “Aiko – Czyli mobilny transkryptor w kieszeni! Twórz transkrypcję i napisy do nagrań audio-video!

  1. Dzięki Piotrze za ten wpis. No tak dla beki, pobrałam sobie, a w zasadzie to próbowałam na moją ósemkę pobrać Aiko i od razu wyskakuje komunikat że nie jest ona kompatybilna z moim urządzeniem, także przypuszczam, że z innymi urządzeniami typu iPhone 12 będzie tak samo.
    Aplikacja jest również dostępna na system MacOS i właśnie ją sobie pobieram. Przetestuje jak ona działa na tym systemie. Fajnie że jest darmowa.
    Pozdrawiam

  2. Też będę testował i zapewne przygotuję jakieś nagranie dla porównania z wersją mobilną.
    Z komentarzy na YT wynika, że wersja mobilna powinna już działać od iPhone X.

  3. Aplikacja na Maca jest też bardzo minimalistyczna, tak samo jak na telefon. W ustawieniach mamy dostępne tylko opcje na jaki język chcemy transkrybować tekst, oraz czy chcemy go przetłumaczyć na wybrany przez nas język. Aplikacja działa tak samo wolno jak na telefonie z tego co mówisz. Czyli tak mniej więcej 1 do 1. Potem, gdy tekst nam się już pojawi, to możemy go udostępnić, albo skopiować do schowka. No i chyba w zasadzie tyle. Szkoda, że z samego YouTube nie można kopiować tylko linku i by mógł to od razu sobie tam przemielać 🙂
    No, ale i tak jest to świetne narzędzie tak, aby sobie ten tekst przetranskrybować w prosty sposób bez zbędnego kombinowania. Aha i wadą jest to, że on nie oznajmia nam w żaden sposób, że transkrypcja dobiegła końca. Tekst się pojawia i dochodzi kolejny i to tyle w zasadzie.
    Pomysł abyś to opisał i porównał to jest bardzo dobry pomysł.

  4. Z tego co sprawdzałem, to na kompie działa to wolniej. Przynajmniej u mnie… 🙂 Pewnie zależy od RAM i procka. Ja mam kompa jeszcze na Intelu, to nie dość że ledwo zipie, to jeszcze szumi jak klimatyzator w szczycie sezonu. Zdecydowanie lepiej działa to na iOS.

  5. Dokładnie, pewnie tak jak mówisz. Ja mam już procek m2. No to u mnie tak mniej więcej 1 do 1. Nieco się grzeje ale nie jakoś bardzo. Ale zauważyłam, że czasem zjada część nagrania i tak jedno sobie dałam mu do przemielenia i on połowę zjadł. Nie wiem dlaczego. Jak je dałam ponownie do przemielenia, to znowu było to samo. Nie wiem czy on tak nie robi jak są jakieś dłuższe przerwy w tych nagraniach albo co. W każdym razie jak na darmową aplikacje to naprawdę działa to fajnie. Także dzięki za polecajkę 🙂

  6. Ciekawa jestem jak one wypadną w porównaniu do siebie jeśli chodzi o to porównanie jakości. Czy wyjdą jakieś różnice czy raczej będzie to samo. No też jeszcze zauważyłam, że on czasem dopowiada jakieś dodatkowe słowa, których nie ma. Tak chyba każda aplikacja ma która z tego Open AI korzysta. To się jakoś nazywało halucynacje czy jakoś tak. No i faktycznie tak ma. Czasem również dubluje treści zdania. Ale tak poza tym to ja jestem pod wrażeniem jak to działa. Szkoda że Apple z tego systemu nie korzysta gdy się dyktuje. Oj to by była moc.

Możliwość komentowania jest wyłączona