joser Geplaatst: 23 mei 2023 Delen Geplaatst: 23 mei 2023 Heeft iemand een idee hoe je een stuk tekst kan uitlezen uit een ingescand document in PDF die in een containerveld zit? I We werken reeds met de 360works plugin maar de OCR-functie vraagt nog een externe AWS-account, wat k liever niet doe De plugin van Monkeybread kan dan geen tekst lezen uit een pdf, enkel jpg, tif,... Zijn er andere mogelijkheden om het bv het briefnummer in te lezen van een ingescand document (PDF)? Code staat +/- telkens op dezelfde plaats. Met vriendelijke groet, Jo Quote Link naar reactie
0 bigbadwolf Geplaatst: 23 mei 2023 Delen Geplaatst: 23 mei 2023 Weet je zeker dat de MBS plugin het niet kan? Aangezien je het hebt over ingescande documenten is de ‘pdf’ waarschijnlijk niets anders dan een envelop om een jpeg. Een echte pdf is volledig opgebouwd uit vectoren. Ik heb er (nog) geen ervaring mee, maar de nieuwste versie van FileMaker kan ook tekst ‘lezen’ uit afbeeldingen. Je kunt er altijd een mailtje aan wagen om het Christian (van Monkeybread) te vragen… Quote Link naar reactie
0 menno Geplaatst: 23 mei 2023 Delen Geplaatst: 23 mei 2023 MBS heeft de benodigde functie inderdaad on board: https://www.mbsplugins.eu/component_OCR.shtml Quote Link naar reactie
0 Marsau Geplaatst: 23 mei 2023 Delen Geplaatst: 23 mei 2023 Je kan ook Livetext proberen. Native FileMaker. Quote Link naar reactie
0 menno Geplaatst: 23 mei 2023 Delen Geplaatst: 23 mei 2023 LiveText kan alleen maar image-bestanden lezen. png, jpg, tiff werken prima. PDF niet, die moeten eerst worden geconverteerd. Ik denk niet dat MBS het wél doet want die heeft TesserAct geïntegreerd en die kan ook alleen image-bestanden lezen. Quote Link naar reactie
0 bigbadwolf Geplaatst: 24 mei 2023 Delen Geplaatst: 24 mei 2023 Dus de remedie kan zijn een thumbnail/preview van de PDF maken (die groot genoeg is) en die vervolgens ‘uitlezen’. Quote Link naar reactie
0 menno Geplaatst: 24 mei 2023 Delen Geplaatst: 24 mei 2023 Dat is een goed idee, zolang de pdf uit één pagina bestaat. Eventuele vervolgpagina's zijn helaas niet met scrollen te bereiken, ook niet handmatig. Ik loop daar zelf regelmatig tegenaan bij het inboeken van mijn inkoopfacturen en moet dan de veld-inhoud exporteren om de 'rest' te kunnen zien. Quote Link naar reactie
0 Infomatics Geplaatst: 24 mei 2023 Delen Geplaatst: 24 mei 2023 Met bv BaseElements kun je een pdf splitsen in losse pagina's . . . Quote Link naar reactie
0 bigbadwolf Geplaatst: 25 mei 2023 Delen Geplaatst: 25 mei 2023 MBS kan een PDF ook splitsen in losse pagina’s. Quote Link naar reactie
0 joser Geplaatst: 25 mei 2023 Auteur Delen Geplaatst: 25 mei 2023 Bedankt iedereen voor jullie respons, voorlopig zal dus de enige mogelijke procedure zijn om de pdf om te zetten naar een jpeg/tiff/... en dan laten uitlezen door de MBS-plugin Heb enkel de eerste pagina nodig om het briefnummer in te lezen. De documenten worden immers gemaakt in Filemaker, uitgeprint en manueel door twee personen ondertekend (ik weet het anno 1999, maar helaas wil men nog zo werken) en dan terug ingescand. Eenmaal k het volgnummer heb kan alles weer gelinkt worden.... Quote Link naar reactie
0 Peter Kr Geplaatst: 28 mei 2023 Delen Geplaatst: 28 mei 2023 Misschien via de Acrobat Pro Action wizard? Quote Link naar reactie
0 menno Geplaatst: 29 mei 2023 Delen Geplaatst: 29 mei 2023 Ik kon het toch niet laten hier iets verder in te duiken. Je schreef dat de documenten die je wilt uitlezen met FileMaker zijn gemaakt en dat betekent dat het hele document al tekst is, met eventueel enkele images. Het lijkt mij dan een beetje onzinnig om het documenten eerst op te splitsen, vervolgens om te zetten naar images en daar tenslotte OCR op los te laten. Zodoende ben ik op zoek gegaan naar een mogelijkheid om de tekst van een PDF, direct uit te lezen. Op https://docs.apryse.com/documentation/cli/guides/pdf2text/ trof ik een commandline-tool die precies dat doet en die tool is ook nog eens multi-platform. Hij is officiëel niet gratis, maar de eerste pagina geeft altijd een bruikbaar resultaat en de vervolgpagina's worden min of meer willekeurig wél en anders niet geconverteerd met: "PDFTron PDF2Text: This page is skipped when running in the demo mode.". In het bijgevoegde bestand zit de instructie en de link naar de download ingebakken. Het werkt zowel op MacOS als Windows. Je hoeft niks te registreren of te betalen, dat is alleen nodig als je meer dan één pagina compleet wilt converteren. [edit]Voor de duidelijkheid: Een pdf-document dat uit de scanner komt, kan je met deze methode dus niet uitlezen. Een pdf die door FileMaker is gemaakt of een rekening die je per email ontvangt, kan je hierme wél uitlezen[/edit] PDF2Text_clarify.fmp12 Quote Link naar reactie
0 joser Geplaatst: 7 juni 2023 Auteur Delen Geplaatst: 7 juni 2023 Dag Menno, bedankt voor uw input. Helaas worden de documenten uitgeprint om door 2 personen gehandtekend te worden en terug ingescand. De info uit de originele pdf verdwijnt hierdoor natuurlijk... Met vriendelijke groet, Jo Quote Link naar reactie
0 hans erik Geplaatst: 10 juli 2023 Delen Geplaatst: 10 juli 2023 (aangepast) Ik heb in het verleden geloof ik de MBS plugin gebruikt, de PDFkit functie. Daarmee kun je de tekstcomponent van een PDF uitlezen. Maar pas op: vervolgens moet je uit de rijstebrijberg nog even de juiste tekst zien te vinden. 10 juli 2023 aangepast door hans erik Quote Link naar reactie
Vraag
joser
Heeft iemand een idee hoe je een stuk tekst kan uitlezen uit een ingescand document in PDF die in een containerveld zit? I
We werken reeds met de 360works plugin maar de OCR-functie vraagt nog een externe AWS-account, wat k liever niet doe
De plugin van Monkeybread kan dan geen tekst lezen uit een pdf, enkel jpg, tif,...
Zijn er andere mogelijkheden om het bv het briefnummer in te lezen van een ingescand document (PDF)? Code staat +/- telkens op dezelfde plaats.
Met vriendelijke groet, Jo
Link naar reactie
13 antwoorden op deze vraag
Aanbevolen berichten
Doe mee aan dit gesprek
Je kunt dit nu plaatsen en later registreren. Indien je reeds een account hebt, log dan nu in om het bericht te plaatsen met je account.