Voor een bestaand project zit ik met drie databases; eentje met teksten (T), eentje met personen (P), en eentje als link ertussen die een record bevat van elke occurrence van een persoon in een bepaalde tekst ®.
Via portals kan ik in T een lijstje geven van alle personen die in een bepaalde tekst vernoemd worden, info die uiteraard uit R gehaald wordt. Maar bepaalde personen komen meermaals voor in 1 tekst, waardoor de portal niet echt een zuivere lijst van personen meer weergeeft; sommige namen komen namelijk meerdere keren voor in de lijst. Ik ben eigenlijk op zoek naar een manier om dergelijke gevallen eruit te filteren, zodat je een cleane lijst krijgt van de personen in een tekst, zonder dubbels. Een soort van functie die vergelijkbaar is met de group by-functie van MySQL of zo. Ik heb er momenteel geen echte oplossing voor, en als extra zou het niet teveel manuele input van de gebruikers mogen vragen; we hebben momenteel 40.000 records in P, 65.000 in T en 80.000 in R, en er werken alles samen een 15-tal mensen in verschillende landen aan, dus hoe automatischer en makkelijker het kan, des te beter. Ideeën
Vraag
BVB
Voor een bestaand project zit ik met drie databases; eentje met teksten (T), eentje met personen (P), en eentje als link ertussen die een record bevat van elke occurrence van een persoon in een bepaalde tekst ®.
Via portals kan ik in T een lijstje geven van alle personen die in een bepaalde tekst vernoemd worden, info die uiteraard uit R gehaald wordt. Maar bepaalde personen komen meermaals voor in 1 tekst, waardoor de portal niet echt een zuivere lijst van personen meer weergeeft; sommige namen komen namelijk meerdere keren voor in de lijst. Ik ben eigenlijk op zoek naar een manier om dergelijke gevallen eruit te filteren, zodat je een cleane lijst krijgt van de personen in een tekst, zonder dubbels. Een soort van functie die vergelijkbaar is met de group by-functie van MySQL of zo. Ik heb er momenteel geen echte oplossing voor, en als extra zou het niet teveel manuele input van de gebruikers mogen vragen; we hebben momenteel 40.000 records in P, 65.000 in T en 80.000 in R, en er werken alles samen een 15-tal mensen in verschillende landen aan, dus hoe automatischer en makkelijker het kan, des te beter. Ideeën
Link naar reactie
10 antwoorden op deze vraag
Aanbevolen berichten
Doe mee aan dit gesprek
Je kunt dit nu plaatsen en later registreren. Indien je reeds een account hebt, log dan nu in om het bericht te plaatsen met je account.