请教:Follow 如何识别文章正文? #793
-
诚恳请教各位开发者: Follow 在拿到文章页面链接后,是如何解析出:文章页面的正文内容被包含在哪个标签DOM里面? 换句话说,如果一个正文内容想被Follow正确解析出,那么,文章标题、副标题、摘要、正文等等,都应该分别被包含在哪个html标签中?Follow 识别文章,是读取页面中的 我在为自己的网站设计前端时遇到的问题是,我文章链接被 Follow 解析后,没有读取到对应的正文板块,正文识别不全。 |
Beta Was this translation helpful? Give feedback.
Answered by
Innei
Oct 7, 2024
Replies: 1 comment
-
如果你说的是 readability 的话,可以查看实现:https://github.com/mozilla/readability/blob/main/Readability-readerable.js 如果是 RSS Feed 那么你应该自己控制内容格式 |
Beta Was this translation helpful? Give feedback.
0 replies
Answer selected by
PrinOrange
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
如果你说的是 readability 的话,可以查看实现:https://github.com/mozilla/readability/blob/main/Readability-readerable.js
如果是 RSS Feed 那么你应该自己控制内容格式