大数据应用之双色球算奖平台总体设计历史数据存储篇

  历史期次的双色球选注数据的存储,采用什么样的格式比较好呢?这需要重点从三个方面考虑,一、文件访问方便吗?二、文件服务器空间够用吗?三、软硬件故障环境下,如何保障数据的可用性。基于这几个方面的考虑,到底是采用文件存储还是采用数据库存储呢?本文,从传统和前沿技术两个角度给出了两种相应的解决方案。

  根据上一篇《大数据应用之双色球算奖平台总体设计数据规模估算篇》分析,双色球单期次数据的存储规模在7G左右,记录数在2亿条左右。可以考虑以文本文件的方式进行存储,这里面面临三大问题,一、单个文件过大的问题,访问不便,文本文件一般来讲超过200M,使用常规文本文件阅读器打开,都会成为问题,各位可以自行尝试。二、历史期次存储空间问题,技术总是在发展的,目前一般的服务器存储空间,单台服务器硬盘配置个NT,从技术和成本角度,都不会成为障碍,双色球每周三期,考虑到节假日的因素,每年约156期,156*7=1092,所需空间约1T。三、数据高可用性问题,传统单点存储方式的缺点,不做说明,考虑一个极端,硬盘坏了,或者服务器宕机,数据怎么访问?

  问题的存在,不代表没有解决的方法,一切软件问题的技术解决方案,其实都是在各种妥协中寻求平衡点而已。当然总有无法平衡的时候,而这时总会有技术方面的突破,有需求才有动力。传统的方式,针对问题一,可以按照地域或者期次进行文件夹组织,按照投注站进行文件命名,不同投注站的单独期次的文件存放到同一个文件中,这样做的好处是单个文件的大小变小了,读取成为可能,缺点是你要去管理大量的小文件。针对问题二、如果考虑一台主机就能存个三年五载的数据,不妨搞个磁盘阵列,或者多加几块T级的存储硬盘。这么做的好处是空间问题得到解决了,缺点是仍然面临IO读取速度的问题。针对问题三、可以采用磁带机,或者物理隔离的冗余备份,考虑到数据的特点,数据一次写入,不会发生变更,所以即使是刻盘的方式都是能够解决问题的,这么做自然能做到保障数据的可用性,但是同样的存在问题,那就是即时可用性,无论什么原因,我必须停下当前的工作,重新进行数据的导入和加载。

  如果双色球历史数据存储的问题,结合最新的分布式存储(HDFS),会得到怎么样的效果呢?我们不妨仔细的考虑一下。如果采用分布式单文件存储,每一期作为一个文件,可以很好的解决存储空间和高可用性的问题,但是分段读取还是一个障碍,除非你一次想使用整个文件。所以还是要妥协,那就是把文件按照上一节中提到的方式进行切分。只是考虑业务分析的需求,粒度可以控制在以地域为单位或者以投注站为单位,粒度过细则会涉及到HDFS文件分块的问题(64M)。

  考虑到双色球投注数据的特点,每一个选注为一个独立的数据单元,一条记录。采用关系型数据库进行存储的好处很明显,就是结构清晰,访问方便。但是由于数据规模的问题,单表存储2亿条记录,如果采用传统关系型数据库,面临的核心问题就是单表记录数过大的问题。

  历史的因素,关系型数据一致面临大数据应用领域的挑战,当然也衍生出来许多的解决办法,比如说分区,比如说分表。分区的核心思想在于增加单表的空间,而分表的核心思想则在于分而治之。但是都无法逃避单点访问受限的问题,再怎么变,也要受控于RDMS服务器的性能。

  如果采用No-SQL技术(Hbase)又会是怎么样的情形呢?我们以期次为单位组织表结构,每期一个文件,以投注站编号和流水号为rowkey,以红球为family1,以篮球为family2。根据Hbase的特点,则既可以解决记录数的问题,也可以解决访问并发访问性能的问题(Hbase文件存储采用HDFS)。同时Hbase基础之上有很多分布式并行计算的工具可用,可以很好的协调多服务器的并行计算。

  前文已述,很喜欢No-SQL方式的实现,个人认为是目前最为恰当的方式。引玉抛砖,还是多听听各位大牛的意见吧。

  最新双色球开奖数据数据库全部所有从发行到20190214,需要最新的可留言

  自己编写的双色球统计分析软件,支持在线更新开奖数据,查询指定时间段内的开奖结果以及热冷号,并根据一定的概率分布进行预测。 如有需要,可以提供源码。

  内置2017年11月15日到2018年8月10日,分分39万期数据,根据自己喜好,添加方案,然后进行大数据统计,很实用的工具。

  有买彩票的吗 搞款软件计算号码 大底 杀号啊 曲线图那种 股票都有人研究 彩票也一样 肯定可以卖钱 说不定自己就发了 有人研究吗论坛

  最近双色球比较热闹,因为河南1彩民独中双色球3.6亿巨奖!   《媒体报道:2009年10月8日,国庆长假结束前的最后一天,在这个注定要被写进中国彩票史的日子,河南省安阳市成为了全国瞩目的焦点。当期中...博文来自:一样的代码,不一样的人生。

  开奖数据抓取自500彩票网站:使用Python3语法需安装以下必须依赖包:pipinstallre...博文来自:我的blog

  最近在学习ML,本人偶尔喜欢买点彩票,经常觉得选号码是件困难的事,而且总是不中奖,那么有没有捷径,让计算机帮我去选号码,或者帮我选择中奖率高的号码。一、让计算机帮我选取号码,随机选取。python代码...博文来自:沈扬茗老师的博客

  双色球笔记3--输出所有中奖号码 1、功能本文主要根据中奖类别输出所有中奖号码,双色球奖项分为6种,如下所示:一等奖(6+1)中奖概率为:红球33选6乘以蓝球16选1=1/17721088=0.000...博文来自:脚步不能达到的地方,眼光可以达到;眼光不能达到的地方,精神可以飞到

  一注双色球彩票由6个不重复的红球(序号:1~32)和1个篮球(序号:1~16)构成。双色球中奖规则如下:先进行摇号然后产生一个中奖号码然后判断是否中奖摇号没有顺序之分加入中奖号码为1234567摇号为...博文来自:a1136062482的博客

  科多大数据带带你来看看一个问题,发挥你的想象力,选择你认为可是的答案这里是上海城乡结合部九亭镇新华都超市的一个角落,农夫山泉的矿泉水堆头静静地摆放在这里。来自农夫山泉的业务员每天例行公事地来到这个点,...博文来自:weixin_33709219的博客

  每个人都有一颗中双色球大奖的心,对于技术人员来说,通过技术分析,香港最快开奖现场直播340111论坛,可以增加中奖几率,现使用python语言收集历史双色球中奖信息,之后进行预测分析。初级代码,有些内容比较繁琐,有更好的代码,大家可以分享...博文来自:花名:白起

  一个完整的大数据平台应该提供离线计算、即时查询、实时计算、实时查询这几个方面的功能.hadoop、spark、storm无论哪一个,单独不可能完成上面的所有功能。hadoop+spark+hive是一...博文来自:chenbinkria的博客

  本文内容源自网络整理,更多详细内容请阅读参考文献的原文。1存储方式1.1块存储块存储就好比硬盘一样,直接挂载到主机,一般用于主机的直接存储空间和数据库应用的存储。它分两种形式:DAS:一台服务器一个存...博文来自:大数据分析BDA

  一、计算框架Storm,Spark,Flink简介和区别参考:、框架流程从各种来源取消息-amp;gt;流式系统...博文来自:的博客

  借鉴博客《十行代码用pandas的read_html爬取中彩网双色球历年全部数据》存在...博文来自:coberup的博客

  经常做数据处理的伙伴们肯定会有这样一种体会:最近一周内的数据会被经常使用到,而比如最近几周的数据使用率会有下降,每周仅仅被访问几次;在比如3月以前的数据使用率会大幅下滑,存储的数据可能一个月才被访问几...博文来自:数据之路

  Python:python代码编程带你玩转双色球(了解双色球的概率逻辑)目录输出结果代码实现输出结果后期更新……代码实现importrandomred_totals=[0,0,0,0,0,0,0,0,...博文来自:一个处女座的程序猿

  这篇Blog主要介绍爬取网站中所有双色球的历史开奖即中奖情况信息  首先分析网页的整体分布,和定制好需要爬取的信息。重中之重,一定明确爬取信息需求,这个不仅关系到后面的程序设计,...博文来自:的博客

  大数据存储平台调优之Hadoop优化在上节搭建完集群、完成Linux系统配置(优化)后以及建好HDFS上的目录后,我们接下来需要对Hadoop集群做一些优化的工作。我们从两个方面来说:一是HDFS存储...博文来自:数据之路

  架构设计、大型web网站架构分析、著名金融集团系统详细设计方案文档集合

  大数据处理平台构架设计说明书.docx;大型WEB网站架构深入分析.doc;股权众筹平台运营可行性分析.pdf;互联网金融P2P网贷可行性研究报告.doc;基于JSP的众筹网站分析与设计.docx;金融大数据平台项目规划.docx;众筹可...

  创建方法欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右...博文来自:的博客

  ssq_福彩双色球历史开奖号码数据+PHP数据浏览页面 双色球历史开奖号码:2003年第1期至2014年6月12日2014066期。 PHP环境简易安装工具:WampServer,百度搜索下载按步骤安装,PHP+mysql+Apache...

  一时兴起,做的一个小玩意儿,能看懂就用。 内建数据库中存有历年的中奖号码

  双色球这个页面有点坑,首先是https加密链接,然后主要的是,他们页面可能编码不是用的常用编码,用urllib的urlopen方法爬取下来的内容貌似16进制码,如下:b\x1f\x8b\x08\x0...博文来自:li118100的专栏

  很多系统会要求记录历史数据,要求可以追朔历史数据,有些甚至要求可以从历史数据中恢复数据。目前做的一个项目,也有这点要求,于是就做了一个实现方案。本方案采用的是关系数据库表记录的方式,要看系统需求,如果...博文来自:互联网分布式架构技术

  知识图谱实战开发案例剖析之一:知识图谱完整案例演示(附完整源码)阅读数18958

  但是释小龙1988年的,比何洁小2岁,何洁27,释小龙才25。25岁这个年龄放在哪个男人身上,哪个男人愿意收心结婚?!你看看周润发多少岁结婚,刘德华多少岁结婚。刘恺威多少岁结婚?!没有哪个演艺圈男人愿意25岁就结婚的。但凡出名的娱乐圈男人哪个愿意25岁结婚?!已赞过已踩过你对这个回答的评价是?评论收起

  王冠良同志是河北省安国县人,1938年9月入伍,1939年4月加入中国。历任冀中军区回民支队卫生队副队长、冀中军区27团卫生队队长、晋绥第1军第3师卫生部副部长、总后卫生部训练处处长、第二军医大学训练部部长、第二军医大学副校长等职。

  安切洛蒂来到拜仁后,始终还没有找到拜仁最合适的配置,上场联赛他有重新打回4-2-3-1,由于罗本和里贝里同时出现在两翼,拜仁回到了当初海因克斯执教时期的阵型站位,这一变阵立马取得成效。莱万重新找回进球感觉,一人上演梅开二度,罗本则是传射建功依旧宝刀不老。

  、、、、、、张震、洪学智等,分别以不同的方式,对张日清同志的逝世表示深切哀悼,对其家属表示慰问。