习近平总书记曾提出,大数据是信息化发展的新阶段,要推动大数据技术产业创新发展,构建以数据为关键要素的数字经济,运用大数据提升国家治理现代化水平,运用大数据促进保障和改善民生。
大数据时代,谁拥有了数据以及对数据的挖掘分析能力,谁就能占领新一轮科技竞争的战略制高点,大数据分析技术是一门正蓬勃发展的新兴技术,有着非常广阔的发展前景和重要的研究意义。
为提升广大在校学生、相关从业人员及兴趣爱好者的大数据分析技术水平,由北京理工大学罗森林教授提出,北京理工大学信息安全与对抗技术研究所、信息系统安全与对抗实验中心设计并实现了BFS-BDCP大数据分析技术竞赛系统。系统主要用于线上教学,为用户提供优质、丰富、难度多维的大数据竞赛,适应于不同背景、不同水平的用户参与并提升大数据分析技术。同时,本系统设计了良好简洁的交互页面简化用户操作,设立了完备合理的参赛组队规则,给参赛用户提供了一个互相交流、学习、进步的平台。系统发布海量持续更新的数据集资源及机器学习资源,帮助新手用户快速上手并掌握扎实的分析技能,为高水平用户提供挑战自己、持续提升的机会。
BFS-BDCP提供面向生活、生产环境的真实数据,全面提升数据挖掘分析能力;竞赛涵盖了生物信息、自然语言、网络空间安全等多个学科领域,多层次多阶段加速技术应用创新,系统全面地提升工程实践能力。
欢迎使用BFS-BDCP大数据分析技术竞赛系统,在这里锻炼大数据分析技术,提升技术水平,系统全面地提升创新与工程实践能力!
系统功能与技术优势
本产品面向用户端、管理端,提供了完全可视化的web操作界面,除此之外 还有中间服务端,监测系统运行。系统的功能结构图如下所示:
系统为用户提供了在线组队、在线评测、多竞赛参赛等多样化竞赛功能。还提供了数据集资源,可供用户进行数据分析。此外,系统提供有大数据分析的学习资源,用户可以快速入门。竞赛设有A/B榜单机制,防止通过多次提交过拟合竞赛数据集。
系统采用异步任务队列机制,按提交时间顺序自动对用户提交结果评分、排名,并动态可视化榜单成绩变化。该机制能够在计算成绩占用CPU资源的同时,保证系统其他功能的正常运行,保证用户无需等待返回结果、同时流畅访问其他界面,具有良好的并发性。此外,该机制具有纠错性,在系统断电重启、系统故障等突发情况时,可自行重启并开始未完成的任务。
系统采用B/S架构,不需要安装任何客户端程序,有浏览器即可进行访问,支持多端访问。同时,系统支持多端定时数据备份,最大程度保证系统数据安全。系统采用模块化编程方式,各个功能模块独立,具备可拓展性。
竞赛资源数据库数据源主要来自Kaggle,UCI,DataFoutain等大数据资源平台和真实数据集,包括医学信息,自然语言,网络安全等应用领域,覆盖全面、内容丰富。数据资源由系统管理员维护并持续更新。
除了丰富多样的数据集资源和竞赛资源,本系统还提供了大量的机器学习和数据分析技术学习资料,其中主要包含机器学习和python编程相关在线课程链接,经典书籍和重要文献资料下载链接,帮助新手迅速掌握数据分析的基本技能。
技术路线与系统结构
系统自底向上由基础环境层、数据资源层、业务逻辑层和用户表示层组成。采用B/S(浏览器/服务器)架构,以Linux Ubuntu 20.04、python3.7.7和Mysql8.0作为开发环境。
其中客户端运行在浏览器上,使用HTML、CSS、Javascript语言编写实现,服务端运行在Linux Ubuntu系统上,使用Django框架进行开发。针对成绩计算功能,采用rabbit server、celery异步任务队列。
系统的逻辑架构图如下所示。
系统效果与能力展示(管理端)
查看全部竞赛列表功能
查看竞赛详细信息界面
组队功能
排行榜功能
查看数据集资源列表功能
查看数据集详细信息界面
通知公告界面
学习资源共享功能
原创文章,作者:BFS,如若转载,请注明出处:https://www.isclab.org.cn/2020/08/13/%e5%a4%a7%e6%95%b0%e6%8d%ae%e5%88%86%e6%9e%90%e6%8a%80%e6%9c%af%e7%ab%9e%e8%b5%9b%e7%b3%bb%e7%bb%9f%e7%ae%80%e4%bb%8b/