SideShow
Legacy Member
Hallo
Ik heb op het werk ongeveer 300K "oude" documenten die ancient html bevatten.
Die moeten worden omgezet naar 1 pdf, volgens selectie van een gebruiker.
Er zitten heel af en toe documenten bij met echt kapotte html (bvb <table> afsluiten met </ta
)
Ik gebruik op het werk itextsharp om pdf's te genereren. Die is perfect in staat om html te parsen.
Als 1 document in de selectie van de gebruiker (dat kunnen er dus duizenden zijn) slechte html bevat, faalt het gehele pdf-genereer-proces.
Ik zou natuurlijk elk documentje eerst apart kunnen omzetten naar pdf om te zien als dat slaagt, maar dat zal vertragend werken.
Ik zoek dus iets die heel vlug html kan controleren. Ik wil dus NIET valideren, geen W3C toestanden, het moet gewoon "parsable" zijn, al is dat natuurlijk een vaag begrip.
Ik heb op het werk ongeveer 300K "oude" documenten die ancient html bevatten.
Die moeten worden omgezet naar 1 pdf, volgens selectie van een gebruiker.
Er zitten heel af en toe documenten bij met echt kapotte html (bvb <table> afsluiten met </ta
)Ik gebruik op het werk itextsharp om pdf's te genereren. Die is perfect in staat om html te parsen.
Als 1 document in de selectie van de gebruiker (dat kunnen er dus duizenden zijn) slechte html bevat, faalt het gehele pdf-genereer-proces.
Ik zou natuurlijk elk documentje eerst apart kunnen omzetten naar pdf om te zien als dat slaagt, maar dat zal vertragend werken.
Ik zoek dus iets die heel vlug html kan controleren. Ik wil dus NIET valideren, geen W3C toestanden, het moet gewoon "parsable" zijn, al is dat natuurlijk een vaag begrip.
