实时舆情
所有文档

          舆情服务

          实时舆情

          创建实时舆情订阅任务

          实时舆情包括以下几个功能模块。

          • 情感分析(sentiment_analysis):实时舆情API中的子功能,为获取到的每篇舆情,增加情感分析字段,值为正面、负面、中立
          • 摘要提取(abstract_extract"):实时舆情API中的子功能,对获取到的每篇舆情正文,进行摘要提取。
          • 位置抽取(geo_extract):实时舆情API中的子功能,将文本中出现的地域信息进行提取。结果字段包括省、市、县(区)
          • 相似文章合并(similar_merge):实时舆情API中的子功能,对返回的舆情信息进行相似合并。为不影响数据获取性能,相似文章最多只展示500篇。

          注意

          • 以上各模块通过请求参数控制,可根据需要选择打开/关闭指定模块。全部打开所有模块可能会适当延长接口生成结果的时间。根据具体的关键字召回数据以及功能开关打开情况,任务生成结果的时间会在10分钟到几小时间波动。
          • 舆情API创建、更新、查询等各种请求,所有参数均必须以url参数方式提交。不能放在body中,否则将返回错误。

          调用API

          请求示例:

          {
              "user_key" : "XXXXXXXXXXX"  //用户的user_key
              "token" : "XXXXXXXXXX"    //token值,每次请求时需要根据user_key, user_secret, timestamp动态生成
              "timestamp" : 1501647753  //用户当前请求的时间戳
              "params_dict" : {
                  "media_type" : ["news","weibo","luntan"],
                  "history" : 1,
                  "required_keywords" : ["北京","上海"],
                  "optional_keywords" : ["房价"],
                  "filter_keywords" : ["深圳"],
                  "data_source" : [],
                  "api_dict" : {"realtime_flow": {
                      "switch": "1", //此处必须为1,表示请求实时舆情功能
                      "config": { //以下为实时舆情字段开关,打开该开关将会返回相应字段分析结果
                          "sentiment_analysis": "1",  //情感分析开关,用户可配置为0或1,1为打开
                          "abstract_extract": "1",  //摘要提取开关,此处开关后台指定为1,用户侧设置不生效
                          "geo_extract": "1",  //位置抽取开关,此处开关后台指定为1,用户侧设置不生效
                          "similar_merge": "1"  //相似文章合并开关,用户可配置为0或1,1为打开
                          }
                      },
                  }
              }
          }

          参数解释:

          名称 格式 必填 说明
          user_key string 申请服务时由百度智能云分配给用户
          token string token为使用 HMAC 方法生成带有密钥的哈希值,token的生成方法请参看API鉴权认证流程
          timestamp int 10位的时间戳
          params_dict json 请求所携带的参数列表

          params_dict参数解释:

          名称 格式 必填 说明
          media_type string 需要召回和分析的media_type列表,值为一个列表类型的数据,如["news","weibo"]。列表内元素可选值为"ps_page", "news", "weibo", "luntan", "boke", "weixin", "all"。,分别代表百度网页搜索结果,新闻,微博,论坛,博客,微信,以及所有媒体源。举例:若为["all"]则召回全部媒体类型数据,若为["news","weibo"]则召回新闻和微博数据,若不带该字段,则效果同["all"]。
          history int 回溯时间,天为单位,取值0,1,7,默认0天。表示不回溯历史数据,值为1时表示需要回溯前1天百度收录的数据
          required_keywords string array 主监控词列表,如["北京","上海"],多个词用半角,分割,主监控词之间是“或”的关系
          optional_keywords string array 搭配词列表,多个词用半角,分割,搭配词之间是“或”的关系。各个搭配词与主监控词是与的关系。比如,required_keywords为["A","B"],搭配词为["C","D"],则关关键字组合为"A+C","A+D","B+C","B+D"四组。
          filter_keywords string array 过滤词列表,多个词用半角,分割,匹配上filter_keywords关键字的数据将不会返回给用户。
          data_source string array 目前未用到该字段,使用时直接置为[]即可
          api_dict json 功能开关,目前abstract_extract及geo_extract系统强设为1,用户侧配置不生效

          api_dict参数解释:

          名称 格式 必填 说明
          sentiment_analysis int 情感分析,1为打开,0为关闭
          abstract_extract int 摘要提取,1为打开,0为关闭
          geo_extract int 位置抽取,1为打开,0为关闭
          similar_merge int 相似文章合并,1为打开,0为关闭

          查看实时舆情结果

          调用API

          请求示例

          {
              "user_key" : "XXXXXXXXXXX"
              "token" : "XXXXXXXXXX"
              "timestamp" : 1501647768
              "params_dict" : {
                  "realtime_flow": {
                  "offset": "0",
                  "size": "10",
                  "insert_from": "20170101000000",
                  "insert_to": "20170222235959",
                  "media_type": "",
                  "sentiment_type": "",
                  "search_word": "",
                  "relate_type": "",
                  "province": "",
                  "city": "",
                  "county": ""
              }
             }    
              "api_type" : "realtime_flow"
              "task_id" : 18888
          }

          请求参数解释:

          名称 格式 必填 说明
          user_key string 用户user_key,申请服务时由百度智能云分配给用户
          token string token为使用 HMAC 方法生成带有密钥的哈希值,token的生成方法请参看[API鉴权认证流程]](TRENDS/数据订阅API/API参考/API鉴权认证流程.md)
          timestamp int 用户当前请求的时间戳,值为10位数字
          params_dict json 请求所携带的参数列表
          api_type string 用户需要获取结果的api_type类型,舆情订阅时值需要设置为"realtime_flow"
          task_id int 任务id,该id由用户请求创建实时舆情API接口成功后由接口返回给用户

          有关params_dict的参数解释如下:

          名称 格式 必填 说明
          offset string 当前获取结果的偏移量,可设置的最大值必须小于20000,否则接口会返回出错。比如offset=100,指从total结果的第101条开始获取结果。关于total含义后面会有提及
          size string 当次请求最大返回的结果数,可设置的最大值为500,大于500系统会强制修改为100,为提升接口响应速度,如果该值为100比较合适
          time_from string 指定获取发布时间为该时间点后的数据,字段格式为年月日时分秒,例如:"20170101000000",跟insert_from二选一即可
          time_to string 指定获取发布时间为该时间点前的数据,字段格式如"20170101120003",跟insert_to二选一即可。其中time_from到time_to最长时间范围不能超过7天
          insert_from string 指定获取该时间点后被百度收录的数据,格式同time_from,跟time_from二选一即可,都选的话是“且”的关系
          insert_to string 指定获取该时间点前被百度收录的数据,格式同time_to,跟time_to二选一即可,都选的话是“且”的关系,其中insert_from到insert_to最长时间范围不能超过7天
          media_type string 定义返回哪些媒体类型的结果,可选值为"新闻"、"微博"、"论坛"、"网页"、"微信"、"博客"之一。若查询时指定该值为""或不带该参数则返回全部结果
          sentiment_type string 定义返回哪些情感类型的结果,"0","1","-1"代表中立正面负面,若为""则返回全部结果
          search_word string 若不为"",仅返回标题或正文命中该search_word的结果,若查询时指定该值为""或不带该参数则返回全部结果
          relate_type string 值为"1"时只返回较相关的结果,值为"0"只返回不相关结果,若为""则返回全部结果
          province string 指定返回province为指定值的数据,若为""或不带该参数则返回全部province结果
          city string 指定返回city为指定值的数据,若为""或不带该参数则返回全部city结果
          county string 指定返回county为指定值的数据,若为""或不带该参数则返回全部county结果

          响应示例 { "code": 200, "msg": "请求成功", "data": { "total": 138658, "list": [ { "mediasub_type": ["网页"], "username": "", "similar_docs_num": 0, "sentiment": "1", "task_id": "18888", "title": "2017百度智能云智峰会开幕在即天工领跑高端智能制造服务市场苏州都市网", "url": "http://www.szdushi.com.cn/news/201702/148766291522405.shtml", "datetime": "2017-02-21 15:43", "summary": "【2017百度智能云智峰会开幕在即天工领跑高端智能制造服务市场_苏州都市网】2017百度智能云智峰会以高端智能制造大会为序曲再次来袭,持续打造云计算大数据技术、人工智能产业和应用等领域最具影响力的峰会。 大会将采用全体大会、高峰...", "source": "苏州都市网", "score": 5, "relevance": 5, "like_num": -1, "read_num": -1, "repost_num": -1, "comment_num": -1, "author_id": "ximing", "floor": -1, "original_source": "新华网", "media_type": "网页", "similar_docs": [], "geo": { "county": [], //县|区 "country": [{"name": "中国", "conf": 1}], //国 "province": [{"name": "江苏省", "conf": 1}], //省 "city": [{"name": "苏州市", "conf": 1}], "area": [] //街道 }, "id": "e09670611cef2177eb6567bf13db757b_18888" } ] } }

          返回参数解释

          名称 说明
          code 响应码
          msg 响应码含义说明
          total 符合用户查询条件的结果条数,当total值大于用户指定的size值时,用户需要递增offset=offset+size多次请求获取结果接口,以增量获取符合结果的所有数据。另外,由于offset最大值不能超过20000,所以遇到返回结果条数大于20000的情况,需要用户侧细化创建任务的关键字组合或优化查询条件,以保证返回结果条数不超过20000
          media_sub_type 该条结果的媒体子类型,各media_type会有相应的media_sub_type类型集合
          username 舆情的发布者
          similar_docs_num 该条舆情当天被百度收录的相似文章数量
          sentiment 情感倾向分析结果,值为0,1,-1。其中0为中立,1为正面,-1为负面
          task_id 任务id
          title 文章标题
          url 原文地址
          datatime 文章发布的时间,如果是ps_page数据源,则datetime表示数据被百度收录时间
          summary 该条舆情的摘要信息,一般是一小段文本
          source 该条舆情的站点来源名称,例如“百度贴吧”,“新浪微博”等
          score 从0到10的整数,代表该 条舆情及其相似文档列表中与用户关键词相似的相对程度,值越大,代表越相似
          relevance 从0到10的整数,代表该条舆情与用户提交的关键词的绝对相似程度,值越大,代表越相似
          read_num 阅读数,若后端获取不到将返回-1(此功能需要单独购买数据源)
          like_num 点赞数,若后端获取不到将返回-1(此功能需要单独购买数据源)
          repost_num 转发数,若后端获取不到将返回-1(此功能需要单独购买数据源)
          comment_num 评论数,若后端获取不到将返回-1(此功能需要单独购买数据源)
          floor 楼层数,若后端获取不到将返回-1(此功能需要单独购买数据源)
          original_source 文章原始来源,若后端获取不到将返回-1(此功能需要单独购买数据源)
          author_id 作者id(此功能需要单独购买数据源)
          media_type 媒体类型,包括新闻、微博、微信、论坛、博客、网页等
          similar_docs 该条舆情相似文章列表,格式为[{title,url,datetime},{title,url,datetime}]
          geo 文本中出现的地理位置,可返回省、市、县(区)、街道数据,示例:{"province":[{"name":"新疆维吾尔自治区","conf":1}],"country":[{"name":"中国","conf":1}],"area":[],"county":[],"city":[],"geo_type":"ip"}。其中conf表示province或者country内各值对应的置信度
          上一篇
          API鉴权认证流程
          下一篇
          传播分析