您好、欢迎来到现金彩票网!
当前位置:2019欢乐棋牌 > 自动分词 >

python怎么获取一组数据中的“热点”?

发布时间:2019-07-21 01:16 来源:未知 编辑:admin

  有一组数据{“date”,name},其中date是一个日期,name是一个字符串。现在要从name中提取若干个子串,若在某一段时间内的name中的某一子串频繁出现,则将这一子串定义为“热点”。...

  有一组数据{“date”,name},其中date是一个日期,name是一个字符串。现在要从name中提取若干个子串,若在某一段时间内的name中的某一子串频繁出现,则将这一子串定义为“热点”。

  其中很容易可以发现2008年“北京奥运会”是热点,2012年“世界末日”是热点

  楼上所说的过于理想化。用jieba库也无法自动对词组的细粒度进行控制,比如 “北京奥运会” 会被jieba cut为 “北京” “奥运会”,从而影响到频度统计。如果用 add_word添加词组又变成人工干预,算不上自动分词并进行频度统计。

http://ihmekauppa.com/zidongfenci/267.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有