Umělá inteligence je již součástí mnoha každodenních úkolů a jedním z nejužitečnějších je přepisování zvuku uloženého v našich zařízeních. Služby jako ChatGPT dokáží převést hodiny řeči na text během několika minut. Tento proces však není zadarmo: přepisování audia pomocí umělé inteligence je spojeno s náklady, které se účtují v podobě tzv. tokenů. Čím delší je audio, tím více tokenů se spotřebuje a tím déle trvá získání přepisu.
Ale co kdybychom mohli tyto minuty „zkrátit“? Tuto otázku si položil vývojář George Mandis, který se na svém blogu podělil o překvapivě jednoduchý a účinný trik, jak zkrátit náklady i čas přepisů umělé inteligence , jako je například OpenAI. Zajímavé je, že na něj přišel náhodou.
Základní trik pro efektivní přepis audia
Mandis chtěl přepsat a shrnout přednášku výzkumníka umělé inteligence Andreje Karpathyho. Normálně by použil automatické přepisy na YouTube, ale tentokrát nebyly k dispozici. Když se navíc pokusil použít GPT-4, narazil na omezení: mohl nahrát pouze audia o maximální délce 25 minut. Klasickým řešením by bylo rozdělit soubor na menší části. Než tak ale učinil, rozhodl se vyzkoušet něco jiného.
Použil FFmpeg, nástroj s otevřeným zdrojovým kódem, který umožňuje zpracovávat zvukové a obrazové soubory pomocí příkazů, aby urychlil audio. Vyzkoušel zdvojnásobení a dokonce ztrojnásobení rychlosti. Výsledek byl lepší, než očekával: ztráta kvality byla minimální a umělá inteligence dokázala zrychlený obsah bez problémů přepsat. Dokázala obejít časové omezení a také utratila méně tokenů.
Mandis však upozorňuje, že při rychlostech vyšších než 4x kvalita příliš trpí a UI začíná mít problémy s porozuměním obsahu.
Proč tento trik funguje
Přepisovací modely, jako je Whisper – který používá i Mandis – jsou vycvičeny k rozpoznávání vzorců řeči podobně jako lidský mozek. I když hlas není dokonale zřetelný, tyto modely jsou schopny „vyplnit mezery“ a odvodit, co bylo řečeno.
Když zrychlíme zvuk, zkrátíme jeho délku o minuty, a tedy i množství dat, které musí umělá inteligence zpracovat. Tím se nejen zkrátí doba potřebná k přepisu, ale také se sníží náklady.
Mandis se podělil o údaje ze svého experimentu:
- Audio při rychlosti 1x (původní): 0,24 USD (5 korun) ve vstupních tokenech.
- Zvuk při rychlosti 2x: 0,07 USD (1,5 korun) ve vstupních tokenech.
- Audio při 3x rychlosti: 0,04 USD (0,8 korun) ve vstupních tokenech (úspora 33 %).
Pozoruhodná úspora, zejména pro profesionály, jako jsou novináři, výzkumníci nebo studenti, kteří pravidelně pracují s hlasovými záznamy.
Jak to můžete udělat sami
Chcete-li tento trik zopakovat, musíte nejprve umět pracovat s příkazovými řádky, což tento vývojář vysvětluje ve svém příspěvku. K tomu budete potřebovat tři nástroje:
- yt-dlp pro stahování zvuku z platformy, jako je YouTube.
- ffmpeg, který funguje jako skutečný švýcarský armádní nůž pro zpracování zvuku a videa a mimo jiné zrychluje zvuk.
Jakmile se dostaneme k tomuto bodu, příkaz, který je třeba zadat do ffmpeg, aby se zvýšila rychlost, je následující:
ffmpeg -i audio.mp3 -filter:a „atempo=3.0“ audio_3x.mp3
Poté už zbývá jen odeslat zvuk do programu ChatGPT, aby se spustil přepis. Samozřejmě můžete použít i jiné nástroje, které mohou být dostupnější pro zrychlení zvuku, pokud si budete jisti, že kvalita nebude příliš obětována.
Kromě toho je důležité mít na paměti, že ne všechny platformy pro přepis umělou inteligencí fungují stejně. Některé mohou mít pokročilejší algoritmy, které umožňují lépe porozumět zrychlenému zvuku, zatímco jiné nemusí být tak efektivní. Proto je vhodné vyzkoušet různé služby a najít tu, která nejlépe vyhovuje vašim potřebám.
V neposlední řadě je zásadní mít na paměti, že tato metoda je nejefektivnější u audia, které má dobrou výchozí kvalitu záznamu. Pokud je původní zvuk nekvalitní, může jeho zrychlení způsobit, že přepis bude méně přesný, a to bez ohledu na použitou technologii.