Archief - C# - Html controleren

SideShow · 25 apr 2013

Hallo

Ik heb op het werk ongeveer 300K "oude" documenten die ancient html bevatten.
Die moeten worden omgezet naar 1 pdf, volgens selectie van een gebruiker.

Er zitten heel af en toe documenten bij met echt kapotte html (bvb <table> afsluiten met </ta :wtf:

)

Ik gebruik op het werk itextsharp om pdf's te genereren. Die is perfect in staat om html te parsen.
Als 1 document in de selectie van de gebruiker (dat kunnen er dus duizenden zijn) slechte html bevat, faalt het gehele pdf-genereer-proces.

Ik zou natuurlijk elk documentje eerst apart kunnen omzetten naar pdf om te zien als dat slaagt, maar dat zal vertragend werken.

Ik zoek dus iets die heel vlug html kan controleren. Ik wil dus NIET valideren, geen W3C toestanden, het moet gewoon "parsable" zijn, al is dat natuurlijk een vaag begrip.

Senn0 · 25 apr 2013

Misschien dit eens proberen: https://github.com/markbeaton/TidyManaged

Messias. · 2 mei 2013

Ge hebt wellicht wel zelf al Html Agility Pack gevonden? Dat is een realistische htmlparser, maar ik weet niet of 'ie ook zulke scenario's kan afhandelen.

SideShow · 3 mei 2013

Inderdaad, had die al geprobeerd. Jammergenoeg is die parser minder gevoelig voor gebrekkige html dan de itextsharp html parser.

Archief - C# - Html controleren

SideShow

Legacy Member

Senn0

Legacy Member

Messias.

Legacy Member

SideShow

Legacy Member