字体:大 中 小
护眼
关灯
上一页
目录
下一页
第213章 不经意的疏忽 (第3/5页)
项技术。 在林灰生成式摘要算法问世之前。 大部分中文文章摘要自动产生工具的工作方式实际上依然是在利用抽取式摘要算法。 这种比较古板的摘要算法依然是进行关键字式的片段提取从而形成文章总结或摘要。 这种方法并不高明。 因为这种方法的核心工作原理仍然是要寻找文章中的关键字。 然后选取含有关键字较多的句子形成摘要。 这样的方法对文章缺乏整体的理解。 摘要中的句子之间没有很好的自然衔接。 这是因为这些方法都没有真正的理解文章用自己理解后的语言组织成摘要。 从纯粹技术角度出发,此前的抽取式摘要的主要步骤依然是: 将原文本拆分为句子,在每个句子中过滤掉停用词,并只保留指定词性的单词。 由此得到句子的集合和单词的集合。 在此基础上进一步处理,以无向图的思路来搞。 计算每个单词节点的重要性。 根据计算的结果以最重要的若干单词作为关键词。 接着是关键短语提取。 最后是摘要的生成。 这些传统方法通常默认将机器认为重要的句子组合成摘要。 其主要缺点是不能概括全文,没有真正的理解文章用自己理解后的语言组织成摘要。 除以上缺点之外,目前主流的文本摘要方法都有人为特征定制和提取的工作。 而林灰搞得这项技术则完全不是这样。 甚至林灰觉得他搞得这项技术甚至有可能是开创了国内多项研究的空白。 比如说在汉语
上一页
目录
下一页