电话:400-080-2188

0
“云上数据开发大赛复赛题公布”

时间:2020年10月14日来源:


题目1-居民用电分析

题目描述

居民生活用电情况是反映居民生活方式和用电习惯的重要数据信息,能够对居民流动、社区空置率等民生领域起到比较关键的作用,同时也能够为能耗管理、家用电器使用等方面起到决策支持作用。

使用的数据为伦敦地区部分家庭智能电表及家庭特征数据,以下是主要数据说明:

(1) informations_households.csv:该文件包含所有关于小组中家庭的信息,包括他们所在的ACORN-X组和分块数据所在文件(blockX;

(2) acorn_details.csv: 关于acorn组的详细信息和他们在组中的人的简介,这个文件的前三列是研究的属性,ACORN-X是属性的索引。在全国范围内,指数为100,如果某一列的值为150,则意味着ACORN-X组中具有此属性的人数是全国范围内的1.5倍。详细解释信息参考:https://acorn.caci.co.uk/what-is-acorn

(3) uk_bank_holidays.csv:英国公共假日信息;

(4) weather_daily_darksky.csv:按日期统计的天气信息,数据来自于Darksky API;

(5) weather_hourly_darksky.csv:按小时统计的天气信息,数据来自于Darksky API;

(6) daily_dataset.zip:包含每组每个家庭的每日用电统计信息,包括有效数据量、最大值、最小值、均值、中位数、标准差等等;

(7) halfhourly_dataset.zip:包含每组每个家庭的每半小时智能电表记录。

统计日期从201111月到20142月。由于真实环境中智能电表安装时间不同, 同时智能电表在使用过程中可能存在故障,因此数据中存在异常值和缺失值。

决策场景:

(1) 针对这段时期伦敦不同特征(acorn_details中的REFERENCE)居民的生活节奏、用电习惯等进行画像分析;

(2) 假设现在是20143月,我们与一家提供低能耗家用电器的公司展开合作,请根据上述数据,为该公司向以上家庭推荐最合适的电器产品;

成果要求

(1) 模型成果报告

Ø 内容自拟,.pdf格式提交,需要完整说明数据分析流程和结论;

Ø 可以使用外部数据和开放性模型算法代码,但需要在报告中明确说明来源和作用,并且禁止使用外部数据替代已有数据信息;

Ø 使用的工具和算法不限,但需要在提交报告中说明,并符合程序要求;

Ø 模型报告内容中,如果涉及通过代码程序实现,需要在报告正文中说明原始数据来源及名称、程序名称和运行结果截图;如果该说明会对报告连续性产生影响,需要在正文中标注并将本说明内容在附录中展示。

(2) 可执行程序

Ø 学员提交的程序需要可以演示方案说明书中的核心算法和模型的特性。不需要是一个完整的交互式应用程序。

Ø 要求提交的程序可在Linux/Windows命令行环境顺利运行。不限制编程环境,建议使用pythonjava等。不限制第三方软件包使用,但须获得合法授权和软件拷贝,以确保主办方可以复现程序运行过程。

Ø 程序应包含 README.md 说明文档,用以指导code review人员自行完成环境搭建和过程复现

Ø 程序的提交可采取附件或上传github两种方式,上传github时需在报告中说明项目的访问地址。

Ø 如使用了非官方提供的数据,须确保获得合法授权,并将数据一并提交给大赛主办方,以用于程序验证。

 

数据来源说明

数据来源:https://www.kaggle.com/jeanmidev/smart-meters-in-london 上传者:Jean-Michel D.




题目2-房屋销售分析

题目描述

房屋的销售情况是国家或地区经济发展情况的重要信息。自1990年泡沫经济破灭以来,日本面临老龄化以及人口流动所带来的的经济区域性变化。目前提供的数据包括2005年到2019年日本国土交通省(MLIT)调查的日本房地产交易价格的记录。

决策场景:

(1) 请分析销售价格和各个因素之间的影响关系,并建立2020年日本房屋销售价格的预测模型。

(2) 排除东京都、大阪府、京都府和北海道,从房屋销售数据分析,日本的哪些县具备良好的发展潜力?说明原因并为这些县给出认为可行的发展建议。


数据模型

新建 DOCX 文档.png

成果要求

(1) 模型成果报告

Ø 内容自拟,.pdf格式提交,需要完整说明数据分析流程和结论;

Ø 可以使用外部数据和开放性模型算法代码,但需要在报告中明确说明来源和作用,并且禁止使用外部数据替代已有数据信息;

Ø 使用的工具和算法不限,但需要在提交报告中说明,并符合程序要求;

Ø 模型报告内容中,如果涉及通过代码程序实现,需要在报告正文中说明原始数据来源及名称、程序名称和运行结果截图;如果该说明会对报告连续性产生影响,需要在正文中标注并将本说明内容在附录中展示。

(2) 可执行程序

Ø 学员提交的程序需要可以演示方案说明书中的核心算法和模型的特性。不需要是一个完整的交互式应用程序。

Ø 要求提交的程序可在Linux/Windows命令行环境顺利运行。不限制编程环境,建议使用pythonjava等。不限制第三方软件包使用,但须获得合法授权和软件拷贝,以确保主办方可以复现程序运行过程。

Ø 程序应包含 README.md 文档,用以指导code review人员自行完成环境搭建和过程复现

Ø 程序的提交可采取附件或上传github两种方式,上传github时需在报告中说明项目的访问地址。

Ø 如使用了非官方提供的数据,须确保获得合法授权,并将数据一并提交给大赛主办方,以用于程序验证。

数据来源说明

数据来源:https://www.kaggle.com/nishiodens/japan-real-estate-transaction-prices  上传者:nishio-dens


附件下载:

 神州数码云上数据开发大赛复赛题目1——居民用电分析.docx

神州数码云上数据开发大赛复赛题目2——房屋销售分析.docx

复赛评分标准.xlsx

第一题数据 :链接:https://pan.baidu.com/s/1R80EXb68UA8L4sZ7uxeoVQ 提取码:vui3

第二题数据 :链接:https://pan.baidu.com/s/1pp77PKBAp4QyI6BTLF9HOA 提取码:bjvr 


作品提交:

作品提交邮箱:work@digitalchina.com,提交时间截止15日23:59:59。

TOP