数据论金庸:学剑最厉害 射雕三部曲相关性并不大


1. 选择金庸的作品只是因为有现成的金庸词库,本来还想弄古龙的呢,结果古龙的没有现成的词库,伤心。

2. 明显的,字数少的作品占劣势,毕竟连接数要少很多呢。

3. “连接关系”的定义和思喆的明朝那些事儿一样,就是在同一个段落中出现。当然,也可以放宽到上下若干段落之内,不过现在已经够复杂的了,再放宽不见得多多少信息量。

4. 可视化部分由Gephi搞定,文本分析部分由R搞定,各取所长嘛。

5. 同义词替换。1.20的上海R沙龙上很多朋友提出来,应该有一些基本的同义词替换,比如“杨过”也可称为“过儿”,小龙女亦作“龙儿”和“姑姑”。这样的替换需要建立一个针对金庸的同义词词典,暂时还没有现成的资源。

6. 同样是沙龙的朋友提出来的,对于关系的定义应该更明确一点,不单单是出现在同一段落。金庸的还好,古龙的文风就更加飘逸,不适合这样定义。然而更细致的定义需要对金庸的文字进行更深入的理解,进行一些语义分析,还有待进一步对于语言理解的深入。

作者: Liyun

更多详细信息,请您微信关注“计算网”公众号: