Archief - [ALG]s 2 files vergelijken op zoek naar dubbels

Het archief is een bevroren moment uit een vorige versie van dit forum, met andere regels en andere bazen. Deze posts weerspiegelen op geen enkele manier onze huidige ideeën, waarden of wereldbeelden en zijn op sommige plaatsen gecensureerd wegens ontoelaatbaar. Veel zijn in een andere tijdsgeest gemaakt, al dan niet ironisch - zoals in het ironische subforum Off-Topic - en zouden op dit moment niet meer gepost (mogen) worden. Toch bieden we dit archief nog graag aan als informatiedatabank en naslagwerk. Lees er hier meer over of start een gesprek met anderen.

svinus

Legacy Member
ik heb hier 20 txt files staan met in elke file 10.000 lijnen met op elke lijn een adres. Nu zou ik altijd 2 files willen vergelijken op zoek naar adressen die zowel in file 1 als in file 2 voorkomen en deze "dubbel" dan plaatsen in een nieuwe file 3.

hoe los ik dit best & eenvoudig op : linux,python,excell,...

Vich

Legacy Member
svinus zei:
ik heb hier 20 txt files staan met in elke file 10.000 lijnen met op elke lijn een adres. Nu zou ik altijd 2 files willen vergelijken op zoek naar adressen die zowel in file 1 als in file 2 voorkomen en deze "dubbel" dan plaatsen in een nieuwe file 3.

hoe los ik dit best & eenvoudig op : linux,python,excell,...

10.000 lijnen x 20 files x pakweg 50 bytes per lijn = 10MB RAM
Dat kan je dus gerust volledig in RAM laden.

- File 1 inlezen en adressen in een array zetten
- File 2 inlezen en adressen in een array zetten
- Alle adressen van File 1 overlopen en kijken of ze in File 2 voorkomen. Alle dubbele schrijf je weg in File 3.

killgore

Legacy Member
Uhu.

Als je meer dan 2 arrays hebt (>2 files dus) zou ik zelfs eerst arrays ordenen, maakt het vergelijken makkelijker en sneller. Ik denk niet dat dit echter een voordeel biedt bij slechts 2 arrays.

EraSerX

Legacy Member
Met UltraEdit kan je 2 files met elkaar vergelijken. Je kan enkel de verschillen en/of de gelijkenissen tonen en het resultaat wegschrijven. Geen regel code nodig.
Je moet wel betalen voor UltraEdit, maar ik denk wel dat er nog text-editors zijn met dergelijke compare functie en die free/shareware zijn.

Vich

Legacy Member
Diff programma's kunnen niet altijd goed overweg met bestanden die heel erg door elkaar geschoven zijn. Ik zou daar niet op vertrouwen.

fretn

Legacy Member
eerst een csv van maken, importeren in excel, dan alfabetisch ordenen en dan diffen

jodeman

Legacy Member
cmp in linux :p
altijd 'apropos' gebruiken in linux en ge vindt het wel.
Het archief is een bevroren moment uit een vorige versie van dit forum, met andere regels en andere bazen. Deze posts weerspiegelen op geen enkele manier onze huidige ideeën, waarden of wereldbeelden en zijn op sommige plaatsen gecensureerd wegens ontoelaatbaar. Veel zijn in een andere tijdsgeest gemaakt, al dan niet ironisch - zoals in het ironische subforum Off-Topic - en zouden op dit moment niet meer gepost (mogen) worden. Toch bieden we dit archief nog graag aan als informatiedatabank en naslagwerk. Lees er hier meer over of start een gesprek met anderen.
Terug
Bovenaan