SgmlReader

Ha htmlt kell kódból parsolni, akkor jól jöhet ez a kis lib. Annak idején egy ms jóember írta meg, de sokáig senki nem frissítette, most kézbe vette egy cég az ügyet, és vannak rendszeresen bugfix kiadások.

Arról szól a dolog, hogy nem teljesen korrekt html tartalmat is kiegyenget, mint a htmltidy, és utána már xml domban fel lehet dolgozni a tartalmat. Sokkal jobb megoldás, mint regexszel bíbelődni.

8 Responses to “SgmlReader”

  1. Safi Says:

    Én ezt használtam, bár ezt nem frissítik, de teljesen jó,

    http://htmlagilitypack.codeplex.com/Release/ProjectReleases.aspx?ReleaseId=272

  2. SUF Says:

    Hali,

    Itt egy gyors kérdés. Ez a lib alkalmas lehet arra, hogy egy HTML tartalomból olvasható text-et generáljak? Értsd van egy HTML oldal és abból kéne plain textet gyártani, úgy, hogy az olvasható legyen.

    Köszi,
    Zoli

  3. Safi Says:

    aha. Mi xml-re használtuk. Próbáltam textre is, 1-2 dolgot azért benne hagyott sajna, de így is jobb mint a semmi

    üdv,

    Safi

  4. Soczó Zsolt Says:

    Elvileg igen, ha a br-ekből, h-kból csinálsz valami értelmeset, a szöveget meg kiveszed az elemek text() node-jából.

  5. Safi Says:

    Van benne olyan is, hogy text-kent lementette, legalábbis, ha jól emlékeztek

  6. Safi Says:

    Elvileg van benne olyan lehetőség is, hogy text-ként menti

  7. Steve Bjorg Says:

    Make sure to grab the most recent version of SgmlReader from here: http://developer.mindtouch.com/SgmlReader

    We’ve been maintaining the code and have been actively fixing any issues reported.

    Cheers,

    - Steve

  8. Soczó Zsolt Says:

    Thanks Steve, I did.

Leave a Reply