该模块包含中国各省份官方报纸数据、CCTV新闻联播文本数据、A股上市公司股吧评论数据、地方政府留言板文本数据、中国各地区政府工作报告文本数据等文本类型数据。
1.中国各省份官方报纸数据
将四川、 黑龙江、 青海、广西、湖北、福建、上海、 吉林、辽宁、 内蒙古、贵 州等各地区官方报纸中的报道详细信息进行了汇总整理;
字段: 日期、版面、前标题、标题、副标题、 图片、 内容等。
2.A股上市公司股吧评论数据
以文本信息内容为主, 充分展现投资情绪, 直观展现各贴内容、发帖人账号注 册省市、关注与被关注等多方面内容, 各表之间以帖子ID和用户ID连接;
字段: 帖子ID、股吧名称、 帖子标题、 帖子内容、 回帖内容等。
3.地方政府留言板文本数据
全面获取2011年以来的各年份地方政府留言板问答的文本内容, 内容丰富, 且 未来仍会持续更新;使用者可根据留言类型、提问及回复时间、 回复状态、 回答组织等多种指标搜索, 为公共管理、政府回应、 治理绩效、 等学术研究提供了很好的数据来源; 字段:话题、 时间、 回答组织、 问题、 回复内容、版块等。
4.中国专利文本数据
见前【专利与创新数据】 板块
5.CCTV新闻联播文本数据
包含2006年中旬至今的文本类非结构化数据, 字段简洁、 内容丰富, 并持续更新;
字段:发布日期、新闻标题及内容。
6.A股上市公司投资者关系管理数据
收集了上证e互动、深交所互动易、全景网的问答数据以及上市公司发布的投资 者关系活动记录表中的文本信息;
字段:股票代码、提问内容、提问时间、回答内容、回答时间、提问者、回答者名称等。
7.A股上市公司全部公告数据
涵盖各季度及年报、公司治理、股东大会、 日常经营等26个类型公告;
字段:股票代码、公司名称、公告标题、公告时间、分类、行业、年度等。
8.谣言数据-OPEN
较真查证平台上的辟谣信息;
字段: 谣言ID、 标题、 内容、 结论、 解释源、作者、 发布时间等。
9.唐诗宋词数据-OPEN
包含唐诗宋词文本信息、作者信息等;
字段: 唐诗、 宋词、 宋诗作者、名、正文等。
10.A股财经报纸文本数据
见后 【A股上市公司数据】 板块
11.中国各地区政府工作报告文本数据
涵盖全国29个省份及对应的304个地级市, 时间跨度近20年, 包含了国务院、省级政府、 市级政府在内的三级政府部门的工作报告文本文件, 多以txt格式文件展现, 内容可用性极强;
字段:年份、层级、 省份、城市、报告全文。
12.A股上市公司IPO申报发行文件数据
涵盖中国资本市场中各公司IPO上市流程中的各类文件;
字段:公司名称、披露类型、上市板块、保荐机构、披露时间、公告等。
13.中文金融情感词典-OPEN
中央财经大学姜富伟教授及其团队创建的公共词典数据;
字段:话题、 时间、 回答组织、 问题、 回复内容、版块等。
使用本数据需引用: 姜富伟, 孟令超, 唐国豪. 媒体文本情绪与股票回报预测. 经济学(季刊),2021年第4期, 第1323-1344页.
14. 电影评论数据
全面涵盖了电影相关的所有评论 , 包含电影信息表、 电影人员信息表、 电影短 评信息表、 电影长评信息表、影评用户信息表, 尤其包含大量丰富的长篇影评 文本;
字段: 电影ID、 电影名称、 导演、编剧、 主演、类型、制片国家/地区、上映 时间、片长、 豆瓣评分、评分人数、评分分布、影评人ID、影评等。
15.中餐食谱数据-OPEN
包含十三万条中餐食谱信息;
字段:菜名、介绍、配料、标签、 方式、 时间、步骤等。
16.中国对联数据-OPEN
将对联数据进行了汇总整理, 分为上联和下联字段;
字段:上联、下联。
17.CNN新闻文本数据
收集了22年来的CNN各专题节目的新闻文本内容, 包括CNN Tonight、 CNN This Morning、 CNN Newsroom、 Connect the World、At This Hour等 多个新闻节目;
字段:新闻日期、所属媒体、新闻标题、新闻内容。
18.A股上市公司交易所监管措施数据
整理了上海证券交易所和深圳证券交易所公布的监管措施信息;
字段:证券代码、 监管类型、处理事由、涉及对象、处理日期、文件名等。
19.A股上市公司新闻文本数据
见后【A股上市公司数据】 板块