SgmlReader
Ha htmlt kell kódból parsolni, akkor jól jöhet ez a kis lib. Annak idején egy ms jóember írta meg, de sokáig senki nem frissítette, most kézbe vette egy cég az ügyet, és vannak rendszeresen bugfix kiadások.
Arról szól a dolog, hogy nem teljesen korrekt html tartalmat is kiegyenget, mint a htmltidy, és utána már xml domban fel lehet dolgozni a tartalmat. Sokkal jobb megoldás, mint regexszel bíbelődni.
June 3rd, 2009 at 1:16 pm
Én ezt használtam, bár ezt nem frissítik, de teljesen jó,
http://htmlagilitypack.codeplex.com/Release/ProjectReleases.aspx?ReleaseId=272
June 4th, 2009 at 3:31 pm
Hali,
Itt egy gyors kérdés. Ez a lib alkalmas lehet arra, hogy egy HTML tartalomból olvasható text-et generáljak? Értsd van egy HTML oldal és abból kéne plain textet gyártani, úgy, hogy az olvasható legyen.
Köszi,
Zoli
June 4th, 2009 at 3:36 pm
aha. Mi xml-re használtuk. Próbáltam textre is, 1-2 dolgot azért benne hagyott sajna, de így is jobb mint a semmi
üdv,
Safi
June 4th, 2009 at 4:31 pm
Elvileg igen, ha a br-ekből, h-kból csinálsz valami értelmeset, a szöveget meg kiveszed az elemek text() node-jából.
June 4th, 2009 at 4:37 pm
Van benne olyan is, hogy text-kent lementette, legalábbis, ha jól emlékeztek
June 4th, 2009 at 4:38 pm
Elvileg van benne olyan lehetőség is, hogy text-ként menti
June 20th, 2009 at 9:18 pm
Make sure to grab the most recent version of SgmlReader from here: http://developer.mindtouch.com/SgmlReader
We’ve been maintaining the code and have been actively fixing any issues reported.
Cheers,
- Steve
June 21st, 2009 at 9:14 am
Thanks Steve, I did.