Ga naar inhoud
  • 0

tekstherkenning


Bruno

Vraag

Ik probeer gegevens uit een tekst te krijgen die door tekstherkenning werd aangemaakt uit een pdf.

Zoals iedereen waarschijnlijk al aan den lijve heeft ondervonden is ocr niet echt "bullet"-proof .

 

Om een zo groot mogelijke kans van slagen te hebben bij het verkrijgen van mijn gegevens dacht ik aan een woordenlijst die in de tekst gaat zoeken.

 

vb. Ik moet de tekst hebben die komt na het woord 'Weight'.

Weight staat soms in de ocr tekst als We1ght of wetght.

 

Ik wil in de tekst dus gaan zoeken naar weight, we1ght en wetght .

 

Het volgende probleem is dat er niet alleen moet gezoht worden naar weight maar ook naar shape, finish of f1nish of f1n1sh.

 

Ik heb eens in de customfunctionslist gaan zoeken en ben even bezig geweest met substitutevalues maar ik kom er niet uit.

 

De methode die ik wil volgen is eigenlijk een woordenlijst aanmaken . Als die woorden in de tekst voorkomen moeten ze vervangen worden door het juiste woord. Daarna is het eenvoudig om je gegevens te filteren.

 

Groeten,

 

bruno

Link naar reactie

1 antwoord op deze vraag

Aanbevolen berichten

  • 0

Hangt evan af of het iets moet zijn dat je dikwijls gaat gebruiken of niet.

 

Je zou een Concordance list kunnen aanmaken, waarbij het systeem 'zelflerend' is.

Ieder woord dat niet in de CL lijst staat en niet in een 'te negeren' lijst staat, wordt toegevoegd.

 

De 'te negeren' lijst zijn woorden als 'een, het, de, aan, maar etc.'

 

Ieder gevonden woord van de CL lijst zal dan via substitute vervangen worden door het 'juiste' woord.

 

De eerste paar keren zal de aanvulling van de CL handmatig moeten gebeuren. In een later stadium kun je een script inschakelen.

Link naar reactie

Doe mee aan dit gesprek

Je kunt dit nu plaatsen en later registreren. Indien je reeds een account hebt, log dan nu in om het bericht te plaatsen met je account.

Gast
Beantwoord deze vraag...

×   Geplakt als verrijkte tekst.   Plak in plaats daarvan als platte tekst

  Er zijn maximaal 75 emoji toegestaan.

×   Je link werd automatisch ingevoegd.   Tonen als normale link

×   Je vorige inhoud werd hersteld.   Leeg de tekstverwerker

×   Je kunt afbeeldingen niet direct plakken. Upload of voeg afbeeldingen vanaf een URL in

×
×
  • Nieuwe aanmaken...