Proc OCR faktur na bazi sablon selha v ucetnictvich — a co pouzit misto toho | Arhivix

Proc OCR faktur na bazi sablon selha v ucetnictvich — a co pouzit misto toho

Proc OCR faktur na bazi sablon selha v ucetnictvich — a co pouzit misto toho

Past sablony

Pokud vedete ucetni firmu, pravdepodobne jste zkouseli Dext, Hubdoc nebo AutoEntry. Funguje — dokud nefunguje. V okamziku, kdy dodavatel zmeni layout sve faktury (nove logo, posunte sloupce, jiny blok adresy), extrakce se rozpadne. Nekdo z vaseho tymu musi rucne vytvorit nebo opravit sablonu. Pro firmu spravujici 30 klientu s 50 dodavateli kazdeho to je 1 500 potencialnich rozbiti sablon, ktere na vas cekaji.

Hubdoc, ziskany Xero, se od akvizice takrka nevyvijel — sedi na 3,3 hvezdickach v Xero App Store bez podpory polozkovych radku a minimalnich vyvoji. Dext je lepsi, ale stale vyzaduje rucni zasah do sablony pro nestandartni formaty. A ani jeden dobre nezvlada nein-latinkova pisma — zkuste jim poslat srbskou nebo arabskou fakturu.

Problem 10-15 % vyjimek

I ty nejlepsi OCR nastroje na bazi sablon zpracuji 85-90 % faktur spravne pri prvnim pokusu. To zni dobre, dokud nepocitate: pro firmu zpracovavajici 2 000 faktur mesicne potrebuje 200-300 faktur rucni kontrolu a opravu. Pri 3 minutach na opravu to jsou 10-15 hodin kvalifikovane prace kazdy mesic jen na reseni vyjimek, ktere nastroj vytvoril.

Extrakce na bazi AI: zadne sablony, zadne porouchy

Moderni OCR na bazi AI nepouziva sablony vubec. Misto shodovani pixelu s predem definovanymi zonami chape strukturu dokumentu. Pozna, ze cislo vedle "Total", "Ukupno" nebo "Gesamt" je castka faktury, bez ohledu na to, kde na strance se nachazi. Identifikuje dodavatele z hlavickoveho papiru, datum z libovolneho z dvanacti beznych formatu data a rozpis DPH z kontextu — ne z pozice.

Kdyz dodavatel zmeni layout sve faktury, extrakce na bazi AI se automaticky prizpusobi, protoze na layoutu nikdy nezavisela.

Co vase firma skutecne potrebuje od OCR faktur

  • Extrakce polozkovych radku — nejen celkove castky, ale kazdy vyrobek, mnozstvi, jednotkova cena a sazba DPH
  • Podpora vice men — spravne parsovani castek EUR, RSD, USD, GBP a konverze tam, kde je potreba
  • Vicejazykove rozpoznavani — zpracovani srbske cyrilice/latiny, nemciny, chorvatiny a anglictiny na stejne fakture
  • Provoz bez sablon — funguje na prvni fakture od noveho dodavatele bez jakehokoliv nastaveni
  • Ohodnoceni spolehlivosti — rekne vam, kdyz si neni jisto, misto aby tiche hadalo spatne

Jak Arhivix resi ucetni OCR

Arhivix pouziva Tesseract OCR s post-processingem na bazi AI, ktery je specificicky zacileny na vyzvy ucetnich dokumentu: obnova srbskych diakritickych znamitek, parsovani castek ve vice menach a normalizace dat v evropskych formatech. Klasifikacni engine automaticky identifikuje typ dokumentu (faktura, uctenka, dobropisy), extrahuje dodavatele, castku, menu, datum a cislo faktury — pote vse presmeruje do Smart Inboxu, kde vas tym kontroluje a schvaluje jedinym kliknutim. Zadne sablony. Zadna konfigurace specificka pro dodavatele. Dokumenty jsou sifrovan pomoci AES-256 na AWS S3 a kazde rozhodnuti o extrakci je zaznamenano v audit trailu.