数据分析“韦小宝最爱谁”,学会以下相处技巧,女神也会是你的

  • 日期:08-29
  • 点击:(1676)


  引言:韦小宝,金庸武侠小说《鹿鼎记》中的男主角。他没什么学识,武艺不精,痞性十足,心狠手辣,但仍然可以在皇帝和天地会面前都混得如鱼得水,身份败露,最终携七个夫人归隐。而且这七个漂亮的夫人之间还相处得非常和谐,简直不可思议!

  韦小宝到底有什么厉害之处?今天,让我们从数据分析“韦小宝最爱谁”的角度来做一些揭秘吧!

  分析方法综述

  本文基于文本的描述来分析。根据分析目标,将描述性分析定位在人物分析的层面,从出场频次、出场时间、亲密程度、称谓变化来解析作者对人物的刻画。

  文本数据结构化

  非结构化,直接进行统计分析是没法进行的。所以,要预处理,将非结构化的文本数据转成结构化的信息以供分析。这里面所用的方法就是确定分析的目标和对象,从《鹿鼎记》中提取信息。

  目标:小说主要人物及主要称谓

  1、韦小宝:小桂子,韦香主,小宝,韦大人,韦爵爷,相公

  2、康熙帝:小玄子,皇帝,皇上

  3、双儿:好双儿、双双

  4、阿珂:陈珂,美貌小姑娘,师姊

  5、苏荃:洪夫人,教主夫人

  6、建宁公主:公主

  7、沐剑屏:小郡主,小老婆

  8、方怡:方师姐、方姑娘、怡姐姐

  9、曾柔

  10、韦春花

  11、陈近南

  12、郑克塽

  13、吴应熊

  14、茅十八

  从称谓的内容和数量上看,小宝会给喜欢的人起昵称哦,这一点,我们在和异性相处的时候可以借鉴。

  数据分析“韦小宝最爱谁”,学会以下相处技巧,女神也会是你的

  图片来源于网络

  分析单位:可以以句子为分析单位,也可以以段落为单位,本文涉及的段落450字——480字为一个分析单位,(以WORD文档统计,全文字,每页固定40行,每行固定30字统计,共有2727页,也就是有2727个分析单位。)

  小贴士:

  事实上,我们都对文本非常熟悉,因为我们每天都读到和写到。文本是信息表达的主要方式之一,在互联网上,我们工作和生活中都存在着大量的文本数据比如:网页、新闻、论坛、社交媒体(微博、微信)、评论(新闻评论、购物评论等)这些都是典型的文本数据,在海量的文本数据中蕴含着丰富的价值,对文本大数据的分析和挖掘具有重要意义,而它的典型应用又有舆情监控、商业智能、趋势预测、精准营销等等。

  出场频次

  小说对各个人物的着墨如何?这反映了不同人物的分量轻重。总体来说,采用了计数词频的方式,具体来说,围绕这两个问题展开。

  1、 如何定义一个人物?

  2、 怎样出场可以记一次?

  以主人公韦小宝为例,定义这个人物最简单的方式就是书中出现“韦小宝”这个名词,但是这样做还是会有漏洞。小说中称呼他的方式还有很多,比如韦爵爷、小桂子等。因此,需要按照之前的数据准备,将同一个人的不同称呼都对应到“韦小宝”这个人物上来。

  数据分析“韦小宝最爱谁”,学会以下相处技巧,女神也会是你的

  数据结果可以看出来,小说中男主角韦小宝的出现次数是最多的,其次是双儿和阿珂,她俩不分伯仲,小郡主和方怡紧随其后。我们在阅读小说时也能感觉到,小宝对双儿和阿珂是最特别的了。也许,双儿和阿珂中间,就能产生韦小宝的最爱。

  从这个角度,我们也能看出来,多和异性接触,一定是会增进感情的,有想法要行动起来才有结果。

  数据分析“韦小宝最爱谁”,学会以下相处技巧,女神也会是你的

  图片来源于网络

  出场时间

  人物的出场时间同样重要,这个爱情中,讲究情敌的出场顺序一样。这里可以将每个分析单位按照顺序编号:1,2,3……,T。时间点就可以理解为这些编号。然后对于每一个人物而言,可以统计其出场的时间点。

  1、 韦小宝: 68 69 70……

  2、 双儿:856 857 858……

  3、 阿珂:1321 1322 1323……

  4、 苏荃:1004 1005 1006……

  5、 建宁公主:1067 1068 1069……

  6、 沐剑屏:472 473 474……

  7、 方怡:574 575 576……

  8、 曾柔:1127 1128 1129……

  可以看出,出场最早的是小郡主,其次是小郡主的师姐方怡,再然后是和小宝最亲厚的双儿,其他人也都陆续在1000到1150,也就是小说的中间悉数登场。被很多人公认为小宝最爱的女人阿珂是出场最晚的。

  而从亲密值的角度,也可以再深入分析一下小宝与女人们的关系。为了说明更简便,只针对双儿、阿珂和沐剑屏来分析。

  亲密值公式:亲密密度=出场次数÷出场单元数量

  数据分析“韦小宝最爱谁”,学会以下相处技巧,女神也会是你的

  数据分析“韦小宝最爱谁”,学会以下相处技巧,女神也会是你的

  可以比较明显的看出来,从亲密程度来说,小宝与双儿更亲厚。双儿可能是小宝的最爱。

  可见,与异性相处,想获得亲厚的关系,需要努力增加存在感,并且要创造更多与对方一起完成的任务哦。

  数据分析“韦小宝最爱谁”,学会以下相处技巧,女神也会是你的

  图片来源于网络

  人以群分

  前文的描述性分析已经基本反映了本书主角之间的关系。还可以通过人物进行聚类分析,理清人物关系。

  词向量工具:就是讲词映射到欧氏空间的一种表示,其中,两个词语的寓意越详细,距离越近。

  如何得到词向量?

  这个模型通过对文本进行神经网络的分析,该模型通过学习训练语料获取词向量和概率密度函数,把词映射到低维向量空间,词向量之间cos距离的大小代表了词语之间关系的远近。词向量利用开源工具word2vec而得。

  为了简单表达,用下面的图片来说明一下分析过程。

  数据分析“韦小宝最爱谁”,学会以下相处技巧,女神也会是你的

  图片来源于网络

  由于中文特殊性,训练词向量需要先对文本进行分词,去除停用词(比如了、的这样的表意特征不明显的词)

  数据分析“韦小宝最爱谁”,学会以下相处技巧,女神也会是你的

  图片来源于网络

  事实上,在金庸的武侠世界中,已经给各个人物分好类,这就是他们的背后的帮派。比如天地会、皇宫、沐王府、青木堂、神龙教等等。主要的区别,在于他们武功路数和政治立场不同。比如天地会经常说反清复明,而皇宫常说捉拿反贼。

  词向量的分析维度可以按照这些说法展开,本文不过多赘述,如想了解详细方法,可以在下方提问。

  虽然,小宝的几位夫人最初与他的政治多有不和,比如阿珂最是反抗小宝,她自己刺杀吴三桂失手后,本来一心希望和郑克塽远走高飞,在扬州丽春院,怀了韦小宝的骨肉,后又发现郑克塽本性,且逐渐意识到韦小宝对自己的好而转爱上他,终随韦小宝归隐。

  如果耐心等待,女神也会是你的。