基于视觉的正文抽取和网页块分析是完全模拟IE浏览器的显示方式,对网页进行解析。系统根据人类视觉原理,把网页解析处理的结果,进行分块。然后根据用户需求,提取用户需要的提取相关网页块的内容。 比如在竞争情报系统和自动新闻已经采编发系统中,正文的提取。提取:标题、正文、时间等信息。
如有兴趣请联系1000ms@gmail.com