ThuVienBao Truyện Scraper

TiKay

ThuVienBao Truyện Scraper

ThuVienBao Truyện Scraper v1.21 BETA
Tool để lấy text và raw html từ các websites truyện phổ biến.

Supported sites:

  • http://truyencv.com/xxxxx/
  • https://truyenyy.com/truyen/xxxxx/
  • https://bachngocsach.com/reader/xxxxx
  • http://truyenfull.vn/xxxxx/
  • https://truyen.tangthuvien.vn/doc-truyen/xxxxx
  • http://truyencuatui.net/truyen/xxxxx.html
  • http://truyendich.com/xxxxx/
  • http://webtruyen.com/xxxxx/
  • https://wikidich.com/truyen/xxxxx
  • https://www.wattpad.com/story/xxxxx

Features:

  • Tự động check chương đã download và update chương mới.
  • Tự động lọc text rác bằng regular expression, có thể lọc được hầu hết text rác trừ những cái mới ra chưa update. Dự tính sẽ làm thêm 1 bộ custom regex để người dùng tự thêm.

Notes:

  • Lưu ý dành cho wattpad: Vì site này xài JavaScript & AJAX cho text nên HTTP GET thường không có lấy được nhé, thay vào đó phải xài qua ChromeDriver. Bạn cần download thêm ChromeDriver. Extract chromedriver.exe rồi copy vào C:\Windows. Muốn biết thêm chi tiết về ChromeDriver có thể vào homepage tại https://sites.google.com/a/chromium.org/chromedriver/. Khi chạy chương trình bạn sẽ thấy Chrome mở lên, cứ để cho nó chạy đừng có làm gì hết.
  • Tool đang còn beta nên sẽ có bug. Nhớ report dùm nhé.

Download:

Changelog:

v1.21:

  • Added truyendich.com to supported sites
  • Added sleep timer for wikidich (to avoid IP banned)

v1.2:

  • Added wikidich.com and wattpad.com to supported sites

Screenshots: