摘要:研究者以知网情感词典为起点,先给词语打上“正负标签”:像“震撼”“感动”这类词归为正向,赋值+1;“无聊”“失望”归为负向,赋值-1。但有些“两面派”词语,比如“纠结”,在不同语境里情绪不同,就得单独拎出来重新分类。
那些飞速划过的“绝了”“破大防了”“就这?”,究竟藏着多少真心实意的喜欢或吐槽?
今天咱们不聊剧情,聊聊电影之外的“情绪彩蛋”——当机器学会解析弹幕评论,那些藏在文字背后的喜怒哀乐,是如何被精准捕捉的?
如果说每一条弹幕都是观众给电影的“情绪便签”,那情感词典就是整理这些便签的“分类账本”。
研究者以知网情感词典为起点,先给词语打上“正负标签”:像“震撼”“感动”这类词归为正向,赋值+1;“无聊”“失望”归为负向,赋值-1。但有些“两面派”词语,比如“纠结”,在不同语境里情绪不同,就得单独拎出来重新分类。
光靠“老字典”不够用,毕竟现在年轻人爱说“yyds”“awsl”。研究者把文本里的形容词、“带情绪”的动词名词,还有热门网络词全搜罗起来,和基础词典“查重”后,剩下的就成了“候选词”。
比如“名场面”“封神”这些电影常用词,还有“泪目”“笑不活了”这类弹幕高频词,都被收进这个“收纳盒”,等着进一步“情绪鉴定”。
怎么判断“上头”是正向还是负向?研究者用Word2vec工具给每个词生成“数字指纹”,然后让机器找“近义词邻居”。
比如“上头”,机器会找出20个和它最像的词,如果其中“精彩”“沉迷”占多数,那“上头”就大概率归为正向。这就像看一个人总跟开心的朋友玩,那他大概率也是个乐观的人,机器靠“近朱者赤”的逻辑,学会了给新词贴情绪标签。
机器也有算错的时候,比如“呵呵”,按字面看像中性词,但在弹幕里常带着敷衍的嫌弃,就得人工“修正”为负向。
还有“哈哈”“唉”这类语气词,虽然简单,却是弹幕里的“情绪放大镜”,必须单独分类。这一步就像老师批改作业,保证每一个情绪标签都贴得准,不让“绝了(夸)”和“绝了(反讽)”混为一谈。
研究者把程度副词分6类,按“给力程度”赋予权重:“极其”“巨”这种“浓香型”调料,权重3,能把“好看”的正向值从1放大到3;“稍”“有点”这种“淡香型”,
权重0.75,让“失望”的负向值从-1弱化为-0.75。比如弹幕“这部电影巨燃!”,“巨”这个调料一加,情绪值直接拉满,比“有点燃”更能感受到观众的激动。
“不喜欢”和“喜欢”中间,只差一个“不”,但情绪值直接从+1跳到-1。
更有意思的是顺序不同,味道也不同:“很不喜欢”是“浓程度+否定”,像往负面情绪里猛加调料,情绪值-2.5;“不是很喜欢”是否定在先、程度在后,像轻轻撒了点负面调料,情绪值-1.25。
这就像观众吐槽时,语气的轻重缓急,全被机器通过顺序和权重捕捉到了。
现在有了“情绪账本”和“调味公式”,就可以给每条弹幕评论算“情绪分”了。比如这条弹幕:“前半段节奏超赞!但结局有点拉胯……”先拆成两个分句:“前半段节奏超赞!”和“结局有点拉胯”。
第一句里,“超”是程度词,权重2.5,“赞”是正向词+1,得分2.5×1=2.5;第二句“有点”权重0.75,“拉胯”负向词-1,得分0.75×-1=-0.75。
把分句得分相加,2.5+(-0.75)=1.75,再考虑句尾的感叹号“!”加强情绪,人工修正为+2。总分大于0,这条弹幕就是正向情感,但后半句的负面情绪也被精准捕捉到了。
通过这种方式,机器能把观众“又爱又恨”的复杂心情,转化成具体的数字,让电影团队清楚知道哪里戳中了观众,哪里让观众皱了眉。
想想看,未来电影上映后,片方可以通过分析弹幕,快速知道观众对哪个角色、哪段剧情反响最热烈;
视频平台能根据情绪数据,精准推荐同类影片;甚至研究者可以通过海量评论,画出观众的“集体情绪画像”。
但挑战也不少:网络新词像“显眼包”“炸裂”不断涌现,得及时更新词典;还有“反话梗”,比如“我家哥哥演技绝了(反讽)”,机器得学会分辨“话里有话”。
从给词语贴情绪标签,到计算整条弹幕的情感值,这套“情绪解码术”就像给电影打开了一扇“观众之心”的窗户。下次看电影时,那些飞过的弹幕不再是乱码,而是无数观众与电影的“情绪对话”。
当机器开始读懂这些喜怒哀乐,或许未来的电影创作会更懂观众,而我们,也能在银幕之外,看见更真实的情感共鸣——原来,我们对电影的爱与吐槽,早已被悄悄记录,成为光影之外的另一种“经典台词”。
来源:虞非凡