大數據初步調研
來源:程序員人生 發布時間:2016-11-11 08:53:28 閱讀次數:3128次
ò大數據初步調研
ò
ò2014⑷月
ò“大”數據的直觀含義
ò算法上:處理中小范圍數據調入內存履行,在大數據(超大范圍數據)不能直接應用了
ò
ò1個時期的大數據是下1個時期的小范圍數據
ò
ò99年對“大”數據分析的技術策略對現在的大數據分析仍然相同:
機器學習+高性能計算+并行散布式高效存儲
ò機器學習與數據發掘
ò參考1:《機器學習與數據發掘》周志華,南京大學計算機軟件新技術國家重點實驗室
ò機器學習:利用經驗來改良計算機系統本身的性能。“經驗”在計算機系統中主要是以數據的情勢存在的。
ò數據發掘、知識發現:試圖從海量數據中找出有用的知識。
ò
ò
ò雄關慢道----機器學習(人工智能)的發展
ò機器學習是人工智能發展到1定時期的產物。
ò20世紀50年代到70年代——“推理期”:邏輯理論家程序,通用問題求解
ò20世紀70年代中期開始——“知識期”:大量專家系統,但瓶頸是人總結知識教給機器困難。
é
機器自己能夠學習知識!
ò雄關慢道----機器學習(人工智能)的發展(續)
ò1950——圖靈測試:提到機器學習的可能性
ò20世紀50年代——主要集中在基于神經網絡的連接主義學習:感知機,Adaline
ò20世紀6、70年代——多種學習技術初步發展:以決策理論為基礎的統計學習技術、強化學習技術(跳棋程序、學習機器,統計學習理論的重要結果),基于邏輯或圖結構表示的符號學習技術(結構學習系統、基于邏輯的歸納學習系統、概念學習系統)。
ò雄關慢道----機器學習的發展
ò20世紀80年代——機器學習成為1個獨立學科,各種技術百花齊放
ò
ò
ò雄關慢道----機器學習的發展(續)
ò從例子中學習,即廣義的歸納學習,即從訓練例中歸納出學習結果。
é涵蓋了監督學習(例如分類、回歸)、非監督學習(例如聚類)等眾多內容。
é20世紀90年代中期之前——
D歸納邏輯程序設計,是機器學習和邏輯程序設計的交叉,問題在學習進程所面臨的假定空間太大,不合適大范圍問題。
D基于神經網絡的連接主義學習,著名的BP算法,缺點是大量的經驗參數。
D
D
ò雄關慢道----機器學習的發展(續)
é20世紀90年代中期——統計學習
D支持向量、VC維、結構風險最小化原則
D有效的支持向量機算法
D支持向量機中的“核方法”被用到機器學習的每個角落
D缺點是核映照的選擇仍然依賴經驗
é統計學習與連接主義學習1樣是基于“屬性-值”表現情勢,難以有效表示復雜數據和數據關系
é常常需要對問題作出假定,來保證統計性質
D
ò雄關慢道----機器學習的發展(續)
ò參考2:T.G.Dietterich.Machine
learning research: Four current directions.AI Magazine, 1997, 18(4): 97⑴36.
òThefour directions are
é(1)the improvement of classification accuracy by learning ensembles of classifiers,集成學習
é(2)methods forscaling up supervised learning
algorithms,可擴大機器學習
é(3)reinforcement learning,強化學習
é(4)the learning of complexstochastic models.隨機模型
ò數據發掘
ò數據發掘是1個直接為實際利用而生的學科領域。
ò數據發掘遭到了很多學科領域的影響,其中數據庫、機器學習、統計學無疑影響最大。
é數據庫提供數據管理技術,機器學習和統計學提供數據分析技術。
é從數據分析的角度來看,絕大多數數據發掘技術都來自機器學習領域。
ò數據分析?= 機器學習的簡單利用
ò區分:傳統機器學習很多技術為處理中小范圍數據設計。例如:傳統決策樹算法把所有數據讀到內存中
é數據發掘界的改造利用:引入高效的數據結構和數據調度策略等來改造決策樹學習進程
é海量數據對算法設計帶來巨大挑戰
é
ò關聯分析----數據發掘學科的獨特的地方
é少許數據時,直接使用統計學知識便可;困難在于海量數據。
ò
ò會議期刊
ò在機器學習方面,最重要的學術會議是NIPS、ICML、ECML和COLT,最重要的學術期刊是《MachineLearning》和《Journalof
Machine Learning Research》;
ò
ò在數據發掘方面,最重要的學術會議是SIGKDD、ICDM、SDM、PKDD和PAKDD,最重要的學術期刊是《DataMining
and Knowledge Discovery》和《IEEETransactions on Knowledge and Data Engineering》。
ò
ò另外,人工智能領域的頂級會議如IJCAI和AAAI、
ò
ò數據庫領域的頂級會議如SIGMOD、VLDB、ICDE,
ò
ò和1些頂級期刊如《ArtificialIntelligence》、《Journalof Artificial Intelligence Research》、《IEEETransactions
on Pattern Analysis and Machine Intelligence》、《NeuralComputation》等也常常發表機器學習和數據發掘方面的論文。
ò
ò1圖了解數據發掘算法
ò
ò國際權威的學術組織theIEEE International Conference on Data Mining (ICDM) 2006年12月評選出了數據發掘領域的10大經典算法:
òC4.5(分類決策樹算法),k-Means(1個聚類算法,把n的對象根據他們的屬性分為k個分割),SVM(支持向量機,1種監督式學習的方法,它廣泛的利用于統計分類和回歸分析中),Apriori(1種最有影響的發掘布爾關聯規則頻繁項集的算法),EM(最大期望(EM,Expectation-Maximization)算法是在幾率(probabilistic)模型中尋覓參數最大似然估計的算法),PageRank(Google算法的重要內容,PageRank根據網站的外部鏈接和內部鏈接的數量和質量倆衡量網站的價值。),AdaBoost(1種迭代算法,其核心思想是針對同1個訓練集訓練不同的分類器(弱分類器),然后把這些弱分類器集合起來,構成1個更強的終究分類器(強分類器)),kNN(K最近鄰(k-NearestNeighbor,KNN)分類算法),NaiveBayes(樸素貝葉斯模型分類), CART(Classification
and Regression Trees分類與回歸樹)。
ò
ò大數據分析的技術策略
ò
ò機器學習+
ò
高性能計算
+
并行散布式高效存儲
ò
ò大數據領域10大巨頭(CSDN評)
ò開源大數據技術(CSDN評)
òApacheHbase:大數據管理平臺建立在谷歌強大的BigTable管理引擎基礎上。作為具有開源、Java編碼、散布式多個優勢的數據庫。
òApacheStorm:用于處理高速、大型數據流的散布式實時計算系統。
òApacheSpark:采取內存計算,從多迭代批量處理動身,允許將數據載入內存做反復查詢,另外還融會數據倉庫、流處理和圖計算等多種計算范式,Spark用Scala語言實現,構建在HDFS上,能與Hadoop很好的結合,而且運行速度比MapReduce快100倍。
òApacheHadoop:成了大數據管理標準之1。平臺的靈活性使它可以運行在商用硬件系統,它還可以輕松地集成結構化、半結構化和乃至非結構化數據集。
òApacheDrill:通過支持HBase、Cassandra和MongoDB,Drill建立了交互式分析平臺,允許大范圍數據吞吐,而且能很快得出結果。
ò開源大數據技術(續)
òApacheSqoop:采取并發連接,可以將數據從關系數據庫系統方便地轉移到Hadoop中,可以自定義數據類型和元數據傳播的映照。
òApacheGiraph:功能強大的圖形處理平臺,具有很好可擴大性和可用性。
òClouderaImpala:Impala模型也能夠部署在現有的Hadoop群集上,監視所有的查詢。
òGephi:用來對信息進行關聯和量化處理,通過為數據創建功能強大的可視化效果。還可以對復雜的IT連接、散布式系統中各個節點、數據流等信息進行可視化分析。
òMongoDB:MongoDB是1個利用開源技術開發的NoSQL數據庫,可以用于在JSON這樣的平臺上存儲和處理數據。
ò
ò“大數據”的技術基石
ò
ò
ò
ò
ò對信息進行關聯和量化處理和展現可視化效果
ò計算、圖形處理
ò大數據開源框架之1HADOOP/MAPREDUCEHBASE HIVE PIG ZOOKEEPER
òHadoopCommon:在0.20及之前的版本中,包括HDFS、MapReduce和其他項目公共內容,從0.21開始HDFS和MapReduce被分離為獨立的子項目,其余內容為HadoopCommon
òHDFS:Hadoop散布式文件系統(DistributedFile
System) -HDFS (HadoopDistributed File System)
òMapReduce:并行計算框架,0.20前使用org.apache.hadoop.mapred舊接口,0.20版本開始引入org.apache.hadoop.mapreduce的新API
òHBase:類似GoogleBigTable的散布式NoSQL列數據庫。(HBase和Avro已于2010年5月成為頂級Apache項目)
òHive:數據倉庫工具,由Facebook貢獻。
òZookeeper:散布式鎖設施,提供類似GoogleChubby的功能,由Facebook貢獻。
òAvro:新的數據序列化格式與傳輸工具,將逐漸取代Hadoop原本的IPC機制。
òPig:大數據分析平臺,為用戶提供多種接口。
òAmbari[6]:Hadoop管理工具,可以快捷的監控、部署、管理集群。
òSqoop:在HADOOP與傳統的數據庫間進行數據的傳遞。
ò
ò大數據開源框架之2Berkeley DataAnalytics Stack(tachyon, spark, shark,spark
streaming)
òIBM大數據平臺產品
ò3種分析引擎:
é流計算
éHadoop系統
é數據倉庫
ò
ò可擴大,支持第3方分析數據存儲
ò
é
òIBM大數據平臺
òIBM大數據平臺
òTranswarpDH星環科技產品
ò星環科技產品(續)
òTranswarpDH星環科技產品(續)
ò大數據的研究方向
ò大數據研究
ò參考3:Data Mining with Big Data,XindongWu,
Fellow, IEEE, XingquanZhu, Senior Member,IEEE,Gong-QingWu, and Wei Ding, Senior Member, IEEEIEEE TRANSACTIONS ON KNOWLEDGE
AND DATAENGINEERING, VOL. 26, NO. 1, JANUARY 2014
òHACE Theorem:Big Data starts with large-volume,
heterogeneous,autonomoussourceswith distributed and
decentralized control, and seeks to explorecomplexand
evolvingrelationships among data.
òDataMining with Big Data,XindongWu,etal.
òDataMining with Big Data,XindongWu,etal.
技術方案
òTierI : Big Data Mining Platform
ò parallelcomputing ----J.Shafer, R.Agrawal,and
M. Mehta, “SPRINT: A Scalable Parallel Classifier for Data Mining,” Proc.22nd VLDB Conf., 1996.[參考4]
òD.Luo,C. Ding, and H. Huang, “Parallelization with Multiplicative
òAlgorithmsfor Big Data Mining,” Proc. IEEE 12th Int’l
òConf.Data Mining, pp. 489⑷98, 2012.[參考5]
collective mining----R.Chen, K.Sivakumar,and H.Kargupta,“Collective
Mining of Bayesian Networks from Distributed Heterogeneous Data”,Knowledge and Information Systems, vol. 6, no. 2, pp. 164⑴87, 2004 [參考6]
òDataMining with Big Data,XindongWu,etal.
技術方案(續)
òTierII : Big Data Semantics and Application Knowledge
òInformationsharing and data privacy----
é1)restrict access to the data
é2) anonymizedata fields----Y.
Lindelland B.Pinkas,“Privacy Preserving DataMining,”J.Cryptology,
vol. 15, no. 3, pp. 177⑵06, 2002.[參考7]
òDomainand Application Knowledge
I. Kopanas,N.Avouris,and S.Daskalaki,“The
Role of Domain
Knowledgein a Large Scale Data Mining Project,” Proc. Second
HellenicConf. AI: Methods and Applications of Artificial Intelligence,
I.P.Vlahavas,C.D.Spyropoulos,eds., pp. 288⑵99, 2002.
ò
òDataMining with Big Data,XindongWu,etal.
技術方案(續)
òTierIII : Big Data Mining Algorithms
òLocallearning and model fusion for multiple information sources----theglobal mining can be featured with a two-step (localminingand
globalcorrelation) process, at data, model, and atknowledge levels.
òMiningfrom
sparse,uncertain,andincomplete data
òMingcomplex and dynamic data: the value of Big Data is in its complexity
éComplexheterogeneous data types.
éComplexintrinsic semantic associations in data.
éComplexrelationship networks in data.
òDataMining with Big Data,XindongWu,etal.
研究進展
òMapReduceparallel programming being applied to many machine learning and data miningalgorithms.
òChu et al.To improve the efficiency of algorithms, Chu et al. proposedageneral-purpose parallel programming method,which
is applicable to a large number of machine learningalgorithmsbasedon the simpleMapReduceprogramming model onmulticoreprocessors.
Ten classical data mining algorithms are realized in the framework.
òRanger et al.proposedaMapReduce-basedapplication programming
interfacePhoenix,which supports parallel programming in the environment ofmulticoreand multiprocessor systems, and realized
three data mining algorithms includingk-Means, principal component analysis, and linear regression.
òDataMining with Big Data,XindongWu,etal.
研究進展
òPapadimitriouand Sunproposed
a distributed collaborativeaggregation (DisCo)frameworkusing practical distributed datapreprocessing and collaborative
aggregation techniques.
òDaset al. conducted a study ofthe integration of R (open sourcestatistical analysis software) andHadoop.
Thein-depth integration pushes data computation to parallel processing, whichenables powerful deep analysis capabilities forHadoop.
òWegeneret al. achievedthe integration of
Weka(an open-source machine learning and data mining software tool) andMapReduce.StandardWekatools
can only run on a single machine, with a limitation of 1-GB memory. Afteralgorithm parallelization,Wekabreaks through the limitations and improves performance by taking the advantageof parallel
computing to handle more than 100-GB data onMapReduceclusters.
òGhoting et al. proposed
Hadoop-ML,onwhich developers can easily build task-parallel or data-parallel machinelearning and data mining algorithms
on program blocks under the languageruntime environment.
òDataMining with Big Data,XindongWu,etal.
研究進展
òOnconfidentiality protection in Big Data, Efficient and effective data accessmechanism
òWanget al. a
privacy-preserving publicauditing mechanismfor large scale data storage (such ascloud computing systems) has been proposed. The public key-based mechanism isused to enable third-party auditing
(TPA), so users can safely allow a thirdparty to analyze their data without breaching the security settings orcompromising the data privacy.
òOnexcluding the third party(such as data miners) , privacy-preserving approachesor encryption mechanisms
òLorch et al. In their system, namely
Shround,users’ data access patternsfromthe servers are hidden by using virtual disks.
òDataMining with Big Data,XindongWu,etal.
研究進展
òexpandedexisting data mining methods in many ways (multisource,massive,dynamicBig Data)
étheefficiency improvement of single-source knowledge discovery methods ,
éDesigninga data mining mechanism from a multisource perspective,
édynamicdata mining methods ,
éanalysisof stream data ,
éWu et al.proposed and establishedthetheory of local pattern analysis,which has laid
a foundation for global knowledge discovery in multisource datamining.
ò機器學習與小娃娃學習
òReferences
ò參考1:《機器學習與數據發掘》周志華,南京大學計算機軟件新技術國家重點實驗室
ò參考2:T.G.Dietterich.Machine
learning research: Four current directions.AI Magazine, 1997, 18(4): 97⑴36.
ò參考3:Data Mining with Big Data,XindongWu,
Fellow, IEEE, XingquanZhu, Senior Member,IEEE,Gong-QingWu, and Wei Ding, Senior Member, IEEEIEEE TRANSACTIONS ON KNOWLEDGE
AND DATAENGINEERING, VOL. 26, NO. 1, JANUARY 2014
ò參考4:Agrawal,and M. Mehta, “SPRINT: A Scalable Parallel Classifier for Data Mining,”
Proc.22nd VLDB Conf., 1996.
ò參考5: D.Luo,C. Ding, and H. Huang, “Parallelization with Multiplicative Algorithms for
BigData Mining,” Proc. IEEE 12th Int’l Conf. Data Mining, pp. 489⑷98, 2012
ò參考6: R. Chen, K.Sivakumar,and H.Kargupta,“Collective
Mining of Bayesian Networks from Distributed Heterogeneous Data”,Knowledge and Information Systems, vol. 6, no. 2, pp. 164⑴87, 2004
ò參考7:Y.Lindelland B.Pinkas,“Privacy
Preserving DataMining,”J.Cryptology, vol. 15, no. 3, pp. 177⑵06, 2002.
ò
ò
ò
ò
ò
謝謝大家!
ò
生活不易,碼農辛苦
如果您覺得本網站對您的學習有所幫助,可以手機掃描二維碼進行捐贈