浙江大學美國白宮大數據白皮書
⑴ 大數據時代發展歷程是什麼
大數據技術發展史:大數據的前世今生
今天我們常說的大數據技術,其實起源於Google在2004年前後發表的三篇論文,也就是我們經常聽到的「三駕馬車」,分別是分布式文件系統GFS、大數據分布式計算框架MapRece和NoSQL資料庫系統BigTable。
你知道,搜索引擎主要就做兩件事情,一個是網頁抓取,一個是索引構建,而在這個過程中,有大量的數據需要存儲和計算。這「三駕馬車」其實就是用來解決這個問題的,你從介紹中也能看出來,一個文件系統、一個計算框架、一個資料庫系統。
現在你聽到分布式、大數據之類的詞,肯定一點兒也不陌生。但你要知道,在2004年那會兒,整個互聯網還處於懵懂時代,Google發布的論文實在是讓業界為之一振,大家恍然大悟,原來還可以這么玩。
因為那個時間段,大多數公司的關注點其實還是聚焦在單機上,在思考如何提升單機的性能,尋找更貴更好的伺服器。而Google的思路是部署一個大規模的伺服器集群,通過分布式的方式將海量數據存儲在這個集群上,然後利用集群上的所有機器進行數據計算。 這樣,Google其實不需要買很多很貴的伺服器,它只要把這些普通的機器組織到一起,就非常厲害了。
當時的天才程序員,也是Lucene開源項目的創始人Doug Cutting正在開發開源搜索引擎Nutch,閱讀了Google的論文後,他非常興奮,緊接著就根據論文原理初步實現了類似GFS和MapRece的功能。
兩年後的2006年,Doug Cutting將這些大數據相關的功能從Nutch中分離了出來,然後啟動了一個獨立的項目專門開發維護大數據技術,這就是後來赫赫有名的Hadoop,主要包括Hadoop分布式文件系統HDFS和大數據計算引擎MapRece。
當我們回顧軟體開發的歷史,包括我們自己開發的軟體,你會發現,有的軟體在開發出來以後無人問津或者寥寥數人使用,這樣的軟體其實在所有開發出來的軟體中佔大多數。而有的軟體則可能會開創一個行業,每年創造數百億美元的價值,創造百萬計的就業崗位,這些軟體曾經是Windows、Linux、Java,而現在這個名單要加上Hadoop的名字。
如果有時間,你可以簡單瀏覽下Hadoop的代碼,這個純用Java編寫的軟體其實並沒有什麼高深的技術難點,使用的也都是一些最基礎的編程技巧,也沒有什麼出奇之處,但是它卻給社會帶來巨大的影響,甚至帶動一場深刻的科技革命,推動了人工智慧的發展與進步。
我覺得,我們在做軟體開發的時候,也可以多思考一下,我們所開發軟體的價值點在哪裡?真正需要使用軟體實現價值的地方在哪裡?你應該關注業務、理解業務,有價值導向,用自己的技術為公司創造真正的價值,進而實現自己的人生價值。而不是整天埋頭在需求說明文檔里,做一個沒有思考的代碼機器人。
Hadoop發布之後,Yahoo很快就用了起來。大概又過了一年到了2007年,網路和阿里巴巴也開始使用Hadoop進行大數據存儲與計算。
2008年,Hadoop正式成為Apache的頂級項目,後來Doug Cutting本人也成為了Apache基金會的主席。自此,Hadoop作為軟體開發領域的一顆明星冉冉升起。
同年,專門運營Hadoop的商業公司Cloudera成立,Hadoop得到進一步的商業支持。
這個時候,Yahoo的一些人覺得用MapRece進行大數據編程太麻煩了,於是便開發了Pig。Pig是一種腳本語言,使用類SQL的語法,開發者可以用Pig腳本描述要對大數據集上進行的操作,Pig經過編譯後會生成MapRece程序,然後在Hadoop上運行。
編寫Pig腳本雖然比直接MapRece編程容易,但是依然需要學習新的腳本語法。於是Facebook又發布了Hive。Hive支持使用SQL語法來進行大數據計算,比如說你可以寫個Select語句進行數據查詢,然後Hive會把SQL語句轉化成MapRece的計算程序。
這樣,熟悉資料庫的數據分析師和工程師便可以無門檻地使用大數據進行數據分析和處理了。Hive出現後極大程度地降低了Hadoop的使用難度,迅速得到開發者和企業的追捧。據說,2011年的時候,Facebook大數據平台上運行的作業90%都來源於Hive。
隨後,眾多Hadoop周邊產品開始出現,大數據生態體系逐漸形成,其中包括:專門將關系資料庫中的數據導入導出到Hadoop平台的Sqoop;針對大規模日誌進行分布式收集、聚合和傳輸的Flume;MapRece工作流調度引擎Oozie等。
在Hadoop早期,MapRece既是一個執行引擎,又是一個資源調度框架,伺服器集群的資源調度管理由MapRece自己完成。但是這樣不利於資源復用,也使得MapRece非常臃腫。於是一個新項目啟動了,將MapRece執行引擎和資源調度分離開來,這就是Yarn。2012年,Yarn成為一個獨立的項目開始運營,隨後被各類大數據產品支持,成為大數據平台上最主流的資源調度系統。
同樣是在2012年,UC伯克利AMP實驗室(Algorithms、Machine和People的縮寫)開發的Spark開始嶄露頭角。當時AMP實驗室的馬鐵博士發現使用MapRece進行機器學習計算的時候性能非常差,因為機器學習演算法通常需要進行很多次的迭代計算,而MapRece每執行一次Map和Rece計算都需要重新啟動一次作業,帶來大量的無謂消耗。還有一點就是MapRece主要使用磁碟作為存儲介質,而2012年的時候,內存已經突破容量和成本限制,成為數據運行過程中主要的存儲介質。Spark一經推出,立即受到業界的追捧,並逐步替代MapRece在企業應用中的地位。
一般說來,像MapRece、Spark這類計算框架處理的業務場景都被稱作批處理計算,因為它們通常針對以「天」為單位產生的數據進行一次計算,然後得到需要的結果,這中間計算需要花費的時間大概是幾十分鍾甚至更長的時間。因為計算的數據是非在線得到的實時數據,而是歷史數據,所以這類計算也被稱為大數據離線計算。
而在大數據領域,還有另外一類應用場景,它們需要對實時產生的大量數據進行即時計算,比如對於遍布城市的監控攝像頭進行人臉識別和嫌犯追蹤。這類計算稱為大數據流計算,相應地,有Storm、Flink、Spark Streaming等流計算框架來滿足此類大數據應用的場景。 流式計算要處理的數據是實時在線產生的數據,所以這類計算也被稱為大數據實時計算。
在典型的大數據的業務場景下,數據業務最通用的做法是,採用批處理的技術處理歷史全量數據,採用流式計算處理實時新增數據。而像Flink這樣的計算引擎,可以同時支持流式計算和批處理計算。
除了大數據批處理和流處理,NoSQL系統處理的主要也是大規模海量數據的存儲與訪問,所以也被歸為大數據技術。 NoSQL曾經在2011年左右非常火爆,涌現出HBase、Cassandra等許多優秀的產品,其中HBase是從Hadoop中分離出來的、基於HDFS的NoSQL系統。
我們回顧軟體發展的歷史會發現,差不多類似功能的軟體,它們出現的時間都非常接近,比如Linux和Windows都是在90年代初出現,Java開發中的各類MVC框架也基本都是同期出現,Android和iOS也是前腳後腳問世。2011年前後,各種NoSQL資料庫也是層出不群,我也是在那個時候參與開發了阿里巴巴自己的NoSQL系統。
事物發展有自己的潮流和規律,當你身處潮流之中的時候,要緊緊抓住潮流的機會,想辦法脫穎而出,即使沒有成功,也會更加洞悉時代的脈搏,收獲珍貴的知識和經驗。而如果潮流已經退去,這個時候再去往這個方向上努力,只會收獲迷茫與壓抑,對時代、對自己都沒有什麼幫助。
但是時代的浪潮猶如海灘上的浪花,總是一浪接著一浪,只要你站在海邊,身處這個行業之中,下一個浪潮很快又會到來。你需要敏感而又深刻地去觀察,略去那些浮躁的泡沫,抓住真正潮流的機會,奮力一搏,不管成敗,都不會遺憾。
正所謂在歷史前進的邏輯中前進,在時代發展的潮流中發展。通俗的說,就是要在風口中飛翔。
上面我講的這些基本上都可以歸類為大數據引擎或者大數據框架。而大數據處理的主要應用場景包括數據分析、數據挖掘與機器學習。數據分析主要使用Hive、Spark SQL等SQL引擎完成;數據挖掘與機器學習則有專門的機器學習框架TensorFlow、Mahout以及MLlib等,內置了主要的機器學習和數據挖掘演算法。
此外,大數據要存入分布式文件系統(HDFS),要有序調度MapRece和Spark作業執行,並能把執行結果寫入到各個應用系統的資料庫中,還需要有一個大數據平台整合所有這些大數據組件和企業應用系統。

圖中的所有這些框架、平台以及相關的演算法共同構成了大數據的技術體系,我將會在專欄後面逐個分析,幫你能夠對大數據技術原理和應用演算法構建起完整的知識體系,進可以專職從事大數據開發,退可以在自己的應用開發中更好地和大數據集成,掌控自己的項目。
希望對您有所幫助!~
⑵ 浙江大學在浙江省錄取多少人
2021年浙江大學在浙江省僅通過高考統招和「三位一體」綜合評價招生計劃是2861人,比2020年就增加了397人!
2021年高考浙江省重點高校投檔分數線是589分,第二批本科錄取分數線是495分,與2020年相同。第三批專科錄取分數線是266分。可見,浙江省2021年高考的難度較2020年高考有了提高。

2021年浙江大學在浙江省招生大數據分析
2021年,浙江大學招生分數線最高的是工科試驗班(竺可楨學院圖靈班),分數線是686分,位次377名。社會科學試驗班(竺可楨學院人文社科實驗室、智能財務班),錄取分數線也是686分,位次350名。這兩個專業的錄取分數線,僅比北京大學錄取最低的專業——文科試驗班分數線699分低13分,僅比清華大學錄取分數最低的理科試驗班700分低了14分。
浙江大學2021年錄取分數最低的專業是工科試驗班(海洋)專業,招108人,錄取分數線是647分,位次8223名。這個位次夠低了。而應用生物科學(農學)專業,錄取分數線是649分,錄取位次是7583名。這兩個專業,以前是提前批錄取的專業,今年取消提前批次的招生,使浙江大學招生分數線和位次大大降低。
以上內容參考:網路-浙江大學
⑶ 浙江大學大數據健康科學研究生專業主幹課程這個專業的主幹課程有哪些啊
摘要 大數據技術所涉及的知識是比較廣泛的,不同的學校所設置的課程也不一樣,但是總的概括來說會學習數學、統計學及計算機三大部分的知識
⑷ 大數據時代是什麼意思大數據是在什麼背景下提出的
大數據(Big data)通常用來形容一個公司創造的大量非結構化和半結構化數據,這些數據在下載到關系型資料庫用於分析時會花費過多時間和金錢。大數據分析常和雲計算聯繫到一起,因為實時的大型數據集分析需要像MapRece一樣的框架來向數十、數百或甚至數千的電腦分配工作。
大數據產生背景:
進入2012年,大數據(big data)一詞越來越多地被提及,人們用它來描述和定義信息爆炸時代產生的海量數據,並命名與之相關的技術發展與創新。
它已經上過《紐約時報》《華爾街日報》的專欄封面,進入美國白宮官網的新聞,現身在國內一些互聯網主題的講座沙龍中,甚至被嗅覺靈敏的國金證券、國泰君安、銀河證券等寫進了投資推薦報告。
數據正在迅速膨脹並變大,它決定著企業的未來發展,雖然很多企業可能並沒有意識到數據爆炸性增長帶來問題的隱患,但是隨著時間的推移,人們將越來越多的意識到數據對企業的重要性。
正如《紐約時報》2012年2月的一篇專欄中所稱,「大數據」時代已經降臨,在商業、經濟及其他領域中,決策將日益基於數據和分析而作出,而並非基於經驗和直覺。
哈佛大學社會學教授加里·金說:「這是一場革命,龐大的數據資源使得各個領域開始了量化進程,無論學術界、商界還是政府,所有領域都將開始這種進程。

(4)浙江大學美國白宮大數據白皮書擴展閱讀
大數據時代的特徵
1、數據量大(Volume)
第一個特徵是數據量大。大數據的起始計量單位至少是P(1000個T)、E(100萬個T)或Z(10億個T)。
2、類型繁多(Variety)
第二個特徵是數據類型繁多。包括網路日誌、音頻、視頻、圖片、地理位置信息等等,多類型的數據對數據的處理能力提出了更高的要求。
3、價值密度低(Value)
第三個特徵是數據價值密度相對較低。如隨著物聯網的廣泛應用,信息感知無處不在,信息海量,但價值密度較低,如何通過強大的機器演算法更迅速地完成數據的價值「提純」,是大數據時代亟待解決的難題。
參考資料來源:網路-大數據時代
⑸ 浙大海寧校區讀研健康醫療怎麼樣
挺好的。
浙大海寧的授課教師全球聘任,來自浙大本部、愛丁堡大學和伊利諾伊大學厄巴納香檳校區。師資力量雄厚,師資隊伍強大,師資國際化程度高,絲毫不遜於浙大本部。
由浙江大學與中國衛生信息與健康醫療大數據學會共同建設的浙江大學健康醫療大數據國家研究院,該國家研究院將對海量復雜的健康醫療數據進行智能處理、信息挖掘和產業應用,為公眾健康、臨床實踐(疾病診斷和治療)、政府決策、學科發展提供支撐,並培養健康醫療領域的交叉復合型人才。為此,研究院將打造數據管理、數據挖掘和AI、數據關聯整合三大公共技術平台,為健康醫療大數據研究及高層次人才培養和高峰學科建設提供開放性技術平台,為破解「看病難,看病貴」醫改難題和提高人民群眾醫改獲得感提供智庫支持。
⑹ 如何平衡大數據行業發展與信息保護
如何平衡大數據行業發展與信息保護
隨著全球范圍內大數據產業的全面推進,公民隱私及個人信息保護問題日益凸顯,傳統個人信息保護框架在大數據時代遭遇嚴峻沖擊,如何尋求個人信息的合理及有效保護成為各國普遍面臨的難題。個人信息不僅承載著個人權益,也在很大程度上牽涉到商業機密、企業信譽、國家安全與信息主權,因此,應妥善協調產業發展與個人信息保護,積極探索順應時代特徵的新思路,構建安全、信任的大數據產業環境。
傳統保護框架無法應對新業態發展
大數據時代,個人信息保護面臨前所未有的新挑戰。第一,隨著移動互聯網的普及和智能穿戴等物聯網設備的應用,個人信息的收集日益密集和隱蔽;第二,多重來源的個人信息進行比對累積,能夠形成完整的個人畫像和實時追蹤,使人們無處遁形;第三,大數據技術能通過特定演算法從既有信息中挖掘出新結論,不僅增加敏感信息暴露的風險,還可能用於影響個人權益的決策,如評估個人信用狀況等;第四,在數據開發價值的驅使下,個人信息的流轉、交易形成鏈條,信息處理主體多元,傳播方式紛繁復雜,對於個人權利行使及政府監管均構成嚴峻挑戰。總之,大數據時代,個人信息的收集方式、使用目的及後果影響日趨失控,個人隱私及數據安全面臨嚴峻威脅。
面對大數據時代的挑戰,傳統以「知情同意」為核心的個人信息保護框架日益捉襟見肘,在適用方面陷入全面困難。
第一,在個人信息定義方面,海量信息的收集比對大大提升信息識別個人的能力,個人信息邊界日益模糊,匿名化操作困難;第二,在目的限定原則方面,信息比對及二次利用是大數據價值開發的核心,個人信息超出原初目的的利用在大數據環境下成為常態,傳統目的限定原則被不斷突破;第三,在用戶同意與用戶控制方面,個人信息收集的隱蔽性及流轉的復雜性超出預先告知及用戶的理解能力,用戶往往除點擊同意外並無其他選擇,用戶控制難以行使,權利實質被架空;第四,在多方主體責任認定方面,多元主體尤其是第三方信息中介的力量異軍突起,在傳統架構中難以尋求有效的適用規定,造成其責任界定不清與監管空白;第五,在信息跨境流通方面,各國間個人信息保護法律制度存在顯著差異,對個人信息的跨境自由流通構成嚴重阻礙。
傳統框架陷於全面困境的根本原因在於,它已脫節於大數據時代的個人信息生態系統及流轉方式,無法適應新業態的發展需求,因而需要及時轉變觀念,在新的背景下重新審視個人信息保護的規則及秩序,構建平衡產業發展與個人信息保護的新思路。
加強對使用環節的監管
面對傳統框架的困境,國際上諸多機構及學者進行了反思與建議,歐盟諸國、日本紛紛對既有立法進行重新審視和修訂,美國更是發布《消費者隱私權利法案》草案,跳出了傳統框架,構建大數據時代的新思路。結合國際機構、學者建議以及新興立法的規定與趨勢,將順應大數據時代的個人信息保護新思路梳理如下:
——在個人信息定義方面,突破個人信息定義的路徑依賴,重視對使用環節的監管
傳統框架以個人信息定義作為法律適用的前提與邊界,然而在大數據時代需要扭轉思路。首先,突破對個人信息定義的路徑依賴。大數據時代個人信息的邊界日益模糊,傳統意義上的非個人信息通過關聯比對也可能識別出個人,如美國眾多機構及學者指出,大數據環境下已不存在絕對意義的非個人信息,與此同時,信息的性質是動態的,無法脫離具體場景進行抽象界定。因此,探究個人信息精準定義的傳統思路已不合時宜,以「不構成個人信息」作為排除法律適用的理由也不再充分。
其次,重視個人信息使用環節的監管。世界經濟論壇等機構及諸多學者均強調,大數據環境下的隱私風險並非產生於個人信息收集之初,而是在於具體的使用環節,即同一筆信息因使用場景不同帶來的後果也有所差異。因此,應將重心由個人信息收集階段向使用階段轉移,側重對後端使用環節的監管,適度放寬個人信息定義及前端收集環節的限制。
——在目的限定原則方面,尊重用戶合理預期,變目的限定為風險限定
目的限定原則是個人信息保護的核心原則,針對其在新業態中的適用困境,新思路加以重新解讀。首先,以用戶合理預期為中心,重構個人信息保護邊界。世界經濟論壇研究報告指出,個人信息保護即確保個人信息的合理利用,是否構成合理利用取決於用戶自身是否接受,即用戶對其個人信息的收集利用是否有合理預期。因此,大數據時代,對法定目的的僵化遵循已不合時宜,應以用戶主觀預期為核心重構個人信息保護的合理邊界。
其次,以隱私風險為導向,變目的限定為風險限定。個人信息保護的目標是合理控制隱私風險,即個人信息的處理給用戶帶來精神壓力、差別待遇及人身財產損害的可能性。個人信息利用尤其是二次利用是否合理,並非取決於是否符合原初目的,而關鍵在於新目的能否引發不合理的風險。大數據環境下,應將「目的限定」原則重新解讀為「風險限定」原則,美國《消費者隱私權利法案》草案及歐盟數據保護改革草案均新增了隱私風險評估的義務,規定企業應合理控制隱私風險。
——在用戶同意與用戶控制方面,提升用戶同意的針對性,運用隱私設計增強透明度
針對用戶同意及用戶控制難以行使的困境,新思路主要從以下兩方面加以改進。首先,規定個人信息使用在相應場景中合理時無需用戶同意。傳統架構過度依賴用戶同意作為個人信息使用的授權,美國《消費者隱私權利法案》草案做出里程碑式改革,以「相應場景中合理」為標准取代用戶同意,在不合理時方需要用戶做出選擇,提升用戶同意與控制的針對性,同時減輕企業與用戶負擔。
其次,增強個人信息處理各環節的透明度。美國白宮題為《大數據:抓住機遇,堅守價值》的報告指出,良好的透明度能夠增進用戶參與,延伸用戶控制,是大數據時代隱私保護的核心手段。加拿大隱私保護官員率先提出隱私設計的理念,將隱私理念植入技術架構設計,幫助提升透明度及用戶體驗。
——在多方主體責任認定方面,突出信息中介的獨立地位,將隱私風險評估工具納入統一體系
大數據時代,以「數據堂」為代表的大批信息中介服務商異軍突起,成為個人信息生態鏈的關鍵一環,然而在傳統框架中存在監管真空的困境,新思路從兩方面加以應對。首先,突出信息中介獨立的法律地位。如美國FTC報告指出,應賦予信息中介獨立的法律地位以加強監管。美國議員已提交《信息中介責任與透明度法案》草案,針對第三方中介做出專門性立法,明確其法律責任。
其次,運用隱私影響評估的工具。隱私影響評估是當前國際通用的工具,通過此普適性的工具,能夠將第一方信息收集者和第三方中介統一納入通用的評估體系,根據個人信息處理行為引發的風險等級確立相應的保護義務,構建大數據環境下多元主體的新秩序。
——在信息跨境流通方面,以場景理念構建統一框架,推動國際執法協作與構建流通框架
針對各國法制的差異為信息跨境流通造成的障礙,新思路從三方面提出方案。首先,運用場景理念推動國際通用框架的構建。美國FTC報告指出,通過將影響用戶接受度的場景分解為各要素,尊重國際共通的因素,調節地區性差異因素,使全球通用的個人信息保護框架的構建成為可能。
其次,推動國際執法協作與構建流通框架。各國間的執法協作和框架協議是規范跨境流通的必由之路。近日歐美數據傳輸安全港協議的充分性決定被判無效,美歐計劃加緊談判促進雙方執法協作,推動「安全港2.0」方案早日出台。
最後,強化企業作為主體的責任。加拿大個人隱私權保護委員會等機構強調了以「組織機構」為核心的理念,即增強企業作為數據跨境流通主體的責任意識,加強對企業層面的監管,提升行業自律水平。
⑺ 發達國家如何布局大數據戰略
發達國家如何布局大數據戰略
大數據在美國之所以能被迅速、廣泛應用,與美國高度重視大數據價值、積極推動數據開放和擁有一批掌握核心技術的信息技術企業密切相關。
中國國際經濟交流中心大數據戰略課題組
最近幾年,美國、歐盟、日本等主要發達經濟體採取各種政策舉措,積極推進國家大數據戰略,取得了長足進展,成功經驗值得中國借鑒。
將推動大數據產業發展上升為國家戰略
美國在推進大數據應用上形成了從發展戰略、法律框架到行動計劃的完整布局,已實施四輪政策行動。第一輪是2012年3月,白宮發布《大數據研究和發展計劃》,並成立「大數據高級指導小組」。第二輪是2013年11月,白宮推出「數據-知識-行動」計劃,進一步細化了大數據改造國家治理模式、促進前沿創新、提振經濟增長的路徑,這是美國向數字治國、數字經濟、數字城市、數字國防轉型的重要舉措。第三輪是2014年5月,美國總統辦公室提交《大數據:把握機遇,維護價值》政策報告,強調政府部門和私人部門緊密合作,利用大數據最大限度促進增長,減少風險。第四輪是2016年 5月,白宮發布《聯邦大數據研發戰略計劃》,在已有基礎上提出美國下一步的大數據發展戰略。
歐盟及其成員國已制定大數據發展戰略,主要包括:數據價值鏈戰略計劃、資助「大數據」和「開放數據」領域的研究和創新活動、實施開放數據政策、促進公共資助科研實驗成果和數據的使用及再利用等。歐盟力推數據價值鏈戰略計劃,用大數據改造傳統治理模式,試圖大幅降低公共部門成本,並促進經濟和就業增長。2012年9月,歐盟委員會公布「釋放歐洲雲計算服務潛力」戰略,旨在把歐盟打造成推廣雲計算服務的領先經濟體,預計到2020年,大數據技術領域新增投資將為歐盟創造9570億歐元產值,增加380萬個就業崗位。2013年英國政府發布《英國數據能力發展戰略規劃》,並建立世界首個「開放數據研究所」。
日本把培育大數據和雲計算派生出的新興產業視為提振經濟增長、優化國家治理的重要抓手。2013年6月,安倍內閣正式公布《創建最尖端信息技術國家宣言》,這一以開放大數據為核心的IT國家戰略,旨在把日本建成具有「世界最高水準的廣泛運用信息產業技術的社會」。
2011年,韓國科學技術政策研究院正式提出「大數據中心戰略」以及「構建英特爾綜合資料庫」。2012年,韓國國家科學技術委員會就大數據未來發展環境發布重要戰略規劃。2013年,韓國未來創造科學部提出「培育1000家大數據、雲計算系統相關企業」的國家級大數據發展計劃,以及出台《第五次國家信息化基本計劃(2013-2017)》等多項大數據發展戰略。
注重數據開放共享和隱私保護
目前,全球有75個國家明確承諾要建設開放政府、推行政府數據公開,並以政府白皮書、宣言和最高首長指令等形式啟動開放政府數據戰略。
與此同時,各國政府加強了數據隱私保護。目前全球已有近90個國家和地區制定了保護個人信息的法律。歐盟從1995年通過《數據保護指令》以來,不斷完善法律法規,加強對個人隱私數據的保護。從2002年的《隱私與電子通訊指令》到2009年的《歐洲信息緩存指令》,都是保護個人隱私的監管規定。
2016年4月,歐洲議會通過《一般數據保護條例》,以歐盟法規形式確定對個人數據的保護原則和監管方式,將於2018年5月開始實施。英國、法國、德國、愛爾蘭、荷蘭等國家也紛紛出台要求電信運營商和互聯網企業進行數據留存的法規。2016年10月27日,美國聯邦通信委員會(FCC)批准了一項消費者隱私保護規則,要求寬頻服務提供商在使用消費者的網路搜索、軟體使用、位置信息和其他與個人信息相關的數據之前必須徵得用戶同意。另外,2016年8月1日,美國和歐盟簽署的「隱私盾」協議正式生效,替代以前的「安全港」協議,提高了個人數據保護水平。
重視大數據重大項目研究與應用,佔領大數據產業和技術制高點
發達國家以點帶面引導大數據發展,通過資助重大項目研究,破解大數據發展核心技術,引導企業和社會推動大數據發展。2012年3月,美國發布《大數據研究和發展計劃》時宣布投資2億美元,聯合美國國家科學基金會、國家衛生研究院、國防部、能源部、國防部高級研究局、地質勘探局等6個聯邦部門和機構,共同提高收集、儲存、保留、管理、分析和共享海量數據所需核心技術的先進性,並形成合力。2013年1月,英國財政部明確將投入1.89億英鎊用於大數據和節能計算技術研發,旨在提升地球觀測和醫學等領域的大數據採集分析能力。2013年4月,英國經濟和社會研究委員會又宣布新增6400萬英鎊用於大數據研發,其中3400萬英鎊用來建立「行政數據研究網路」,匯聚政府部門和機構所收集的行政數據,促進發揮政府數據對科學研究、政策制定和執行的作用。2014年,英國政府投入7300萬英鎊進行大數據技術開發,包括在55個政府數據分析項目中開展大數據技術應用。2013年,法國政府投入1150萬歐元,用於7個大數據市場研發項目,促進大數據研發。
建立高規格的領導機構,統籌和強化部門間協作
各國戰略規劃都指定專門的管理機構和執行機構,其共同特點是凌駕於傳統政府機構之上,突破了傳統的政府管理模式,提高了決策與執行的效率。美國由白宮科學和技術政策辦公室牽頭建立大數據高級監督組,通過協調和擴大政府對大數據的投資、提供合作機遇、促進核心技術研發和勞動力發展等實現大數據戰略目標。日本政府內閣和總務省信息通信技術(ICT)基本戰略委員會作為日本大數據戰略制定和執行部門,肩負制定面向2020年日本新ICT戰略的任務。澳大利亞設立跨部門大數據工作組負責戰略落地,同時配備專門的支撐機構,從技術、研究等角度提供支撐。英國大數據戰略分別針對提高技術能力、基礎設施和軟硬體建設、推進合作、數據開放與共享,指定具體機構負責,同時由信息經濟委員會根據發展戰略制定具體實施辦法。
政府營造環境,充分調動企業發展大數據的積極性
大數據在美國之所以能被迅速、廣泛應用,與美國高度重視大數據價值、積極推動數據開放和擁有一批掌握核心技術的信息技術企業密切相關。谷歌、易安信、惠普、IBM、微軟、甲骨文、亞馬遜、Facebook等企業很早就通過收購或自主研發等方式布局大數據,成為大數據技術的主要推動者,並快速推出與大數據相關的產品和服務,為各領域、各行業應用大數據提供工具和解決方案。除了傳統信息技術企業,在大數據分析、應用及安全等領域還涌現出一批像盛龐卡(Splunk)、天睿(Teradata)等創新能力較強的創業公司,在風投資本支持下快速成長,並引導新的市場發展,為各界應用大數據提供了豐富的創新工具。
強化開源社區在技術開發中的作用,打造大數據產業鏈的核心競爭力
從大數據技術發展歷程看,大數據核心技術如分布式存儲、雲端分布式及網格計算均依賴開源模式,吸引全球開發者開發、維護和完善代碼,從而匯集全球智慧推動大數據技術不斷進步。大數據處理的核心技術哈杜普(hadoop)、映射歸約(MapRece)和星火(Spark)等均基於開源環境的創新發展。阿帕奇軟體基金會(ASF)是推動大數據技術發展的全球頂級開源社區,集結了全球最主要的大數據技術研發公司。同時,大數據領先企業也圍繞自身生態打造技術開源社區,這種開源項目方式吸引了全球頂尖技術人才共同開發,推動了技術創新和成果推廣。
多措並舉,堅守大數據安全底線
一是構建多方協同合作的安全機制。以美國為代表,通過體制機制改革打破數據割據與封鎖,整合大數據資源,協調大數據處理和分析機制,推動重點數據平台之間的數據共享,消除和控制高級可持續攻擊的危害。
二是組建網路部隊,增強威懾能力。2005年4月,美軍正式組建專門負責網路作戰的「網路戰聯合功能構成司令部」。日本2005年底決定組建一支由陸、海、空自衛隊計算機專家組成的5000人左右的網路戰部隊,專門從事網路系統的攻防。2013年初,俄羅斯國防部下令要求俄總參謀部確定建立陸軍網路司令部的計劃。目前,世界上已有46個國家組建了網路戰部隊,很多國家仍在不斷加大網路空間安全投入。
三是提高防範意識,加強主動防禦。美國政府要求各聯邦機構對所制定的安全計劃,至少每隔三年執行一次獨立的安全檢查或審計。
四是注重「撒手鐧」的戰略性技術。發達國家緊緊抓住操作系統、密碼專用晶元和安全處理器等「撒手鐧」的戰略性技術研究。
五是依託國家外交戰略,促進國際合作。美國利用網路安全話題與其他國家開展外交活動,為美國信息產業謀求更大市場份額。德國推動建立和保持歐盟在世界范圍內的廣泛合作、聯邦政府內部的合作、聯邦政府信息技術特派員負責的公共和私營部門之間的合作。
六是推進軍民融合,確保制信息權。美國有關機構對大數據投入巨資,目的是應對軍事和國家安全領域面臨的大數據挑戰,提升維護國家安全和信息網路安全的能力。美國不斷加強大數據資源開采,聯合有關盟友組建「五眼聯盟」,進行全球監控。
⑻ 什麼是大數據時代
大數據時代
(巨量資料(IT行業術語))
編輯
最早提出「大數據」時代到來的是全球知名咨詢公司麥肯錫,麥肯錫稱:「數據,已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。人們對於海量數據的挖掘和運用,預示著新一波生產率增長和消費者盈餘浪潮的到來。」 「大數據」在物理學、生物學、環境生態學等領域以及軍事、金融、通訊等行業存在已有時日,卻因為近年來互聯網和信息行業的發展而引起人們關注。
中文名
大數據時代
外文名
Big data
提出者
麥肯錫
類 屬
科技名詞
目錄
1 產生背景
2 影響
▪ 大數據
▪ 大數據的精髓
▪ 數據價值
▪ 可視化
3 特徵
4 案例分析
5 產業崛起
6 提供依據
7 應對措施
產生背景
編輯
進入2012年,大數據(big data)一詞越來越多地被提及,人們用它來描述和定義信息爆炸時代產生的海量數
大數據時代來臨
據,並命名與之相關的技術發展與創新。它已經上過《紐約時報》《華爾街日報》的專欄封面,進入美國白宮官網的新聞,現身在國內一些互聯網主題的講座沙龍中,甚至被嗅覺靈敏的國金證券、國泰君安、銀河證券等寫進了投資推薦報告。[1]
數據正在迅速膨脹並變大,它決定著企業的未來發展,雖然很多企業可能並沒有意識到數據爆炸性增長帶來問題的隱患,但是隨著時間的推移,人們將越來越多的意識到數據對企業的重要性。
正如《紐約時報》2012年2月的一篇專欄中所稱,「大數據」時代已經降臨,在商業、經濟及其他領域中,決策將日益基於數據和分析而作出,而並非基於經驗和直覺。
哈佛大學社會學教授加里·金說:「這是一場革命,龐大的數據資源使得各個領域開始了量化進程,無論學術界、商界還是政府,所有領域都將開始這種進程。」[2]
影響
編輯
大數據
現在的社會是一個高速發展的社會,科技發達,信息流通,人們之間的交流越來越密切,生活也越來越方便,大數據就是這個高科技時代的產物。[3]
隨著雲時代的來臨,大數據(Big data)也吸引了越來越多的關注。大數據(Big data)通常用來形容一個公司創造的大量非結構化和半結構化數據,這些數據在下載到關系型資料庫用於分析時會花費過多時間和金錢。大數據分析常和雲計算聯繫到一起,因為實時的大型數據集分析需要像MapRece一樣的框架來向數十、數百或甚至數千的電腦分配工作。[2]
在現今的社會,大數據的應用越來越彰顯他的優勢,它佔領的領域也越來越大,電子商務、O2O、物流配送等,各種利用大數據進行發展的領域正在協助企業不斷地發展新業務,創新運營模式。有了大數據這個概念,對於消費者行為的判斷,產品銷售量的預測,精確的營銷范圍以及存貨的補給已經得到全面的改善與優化。[4]
「大數據」在互聯網行業指的是這樣一種現象:互聯網公司在日常運營中生成、累積的用戶網路行為數據。這些數據的規模是如此龐大,以至於不能用G或T來衡量。
大數據到底有多大?一組名為「互聯網上一天」的數據告訴我們,一天之中,互聯網產生的全部內容可以刻滿1.68億張DVD;發出的郵件有2940億封之多(相當於美國兩年的紙質信件數量);發出的社區帖子達200萬個(相當於《時代》雜志770年的文字量);賣出的手機為37.8萬台,高於全球每天出生的嬰兒數量37.1萬……[1]
截止到2012年,數據量已經從TB(1024GB=1TB)級別躍升到PB(1024TB=1PB)、EB(1024PB=1EB)乃至ZB(1024EB=1ZB)級別。國際數據公司(IDC)的研究結果表明,2008年全球產生的數據量為0.49ZB,2009年的數據量為0.8ZB,2010年增長為1.2ZB,2011年的數量更是高達1.82ZB,相當於全球每人產生200GB以上的數據。而到2012年為止,人類生產的所有印刷材料的數據量是200PB,全人類歷史上說過的所有話的數據量大約是5EB。IBM的研究稱,整個人類文明所獲得的全部數據中,有90%是過去兩年內產生的。而到了2020年,全世界所產生的數據規模將達到今天的44倍。[5] 每一天,全世界會上傳超過5億張圖片,每分鍾就有20小時時長的視頻被分享。然而,即使是人們每天創造的全部信息——包括語音通話、電子郵件和信息在內的各種通信,以及上傳的全部圖片、視頻與音樂,其信息量也無法匹及每一天所創造出的關於人們自身的數字信息量。
這樣的趨勢會持續下去。我們現在還處於所謂「物聯網」的最初級階段,而隨著技術成熟,我們的設備、交通工具和迅速發展的「可穿戴」科技將能互相連接與溝通。科技的進步已經使創造、捕捉和管理信息的成本降至2005年的六分之一,而從2005年起,用在硬體、軟體、人才及服務之上的商業投資也增長了整整50%,達到了4000億美元。[5]
大數據的精髓
大數據帶給我們的三個顛覆性觀念轉變:是全部數據,而不是隨機采樣;是大體方向,而不是精確制導;是相關關系,而不是因果關系。[6]
A.不是隨機樣本,而是全體數據:在大數據時代,我們可以分析更多的數據,有時候甚至可以處理和某個特別現象相關的所有數據,而不再依賴於隨機采樣(隨機采樣,以前我們通常把這看成是理所應當的限制,但高性能的數字技術讓我們意識到,這其實是一種人為限制);
B.不是精確性,而是混雜性:研究數據如此之多,以至於我們不再熱衷於追求精確度;之前需要分析的數據很少,所以我們必須盡可能精確地量化我們的記錄,隨著規模的擴大,對精確度的痴迷將減弱;擁有了大數據,我們不再需要對一個現象刨根問底,只要掌握了大體的發展方向即可,適當忽略微觀層面上的精確度,會讓我們在宏觀層面擁有更好的洞察力;
C.不是因果關系,而是相關關系:我們不再熱衷於找因果關系,尋找因果關系是人類長久以來的習慣,在大數據時代,我們無須再緊盯事物之間的因果關系,而應該尋找事物之間的相關關系;相關關系也許不能准確地告訴我們某件事情為何會發生,但是它會提醒我們這件事情正在發生。
數據價值
大數據時代,什麼最貴?
十年前,葛大爺曾說過,「21世紀什麼最貴?」——「人才」,深以為然。只是,十年後的今天,大數據時代也帶來了身價不斷翻番的各種數據。由於急速拓展的網路帶寬以及各種穿戴設備所帶來的大量數據,數據的增長從未停歇,甚至呈井噴式增長。[7]
一分鍾內,微博推特上新發的數據量超過10萬;社交網路「臉譜」的瀏覽量超過600萬……
這些龐大數字,意味著什麼?
它意味著,一種全新的致富手段也許就擺在面前,它的價值堪比石油和黃金。
事實上,當你仍然在把微博等社交平台當作抒情或者發議論的工具時,華爾街的斂財高手們卻正在挖掘這些互聯網的「數據財富」,先人一步用其預判市場走勢,而且取得了不俗的收益。
讓我們一起來看看——他們是怎麼做的。
這些數據都能幹啥。具體有六大價值:
●1、華爾街根據民眾情緒拋售股票;
●2、對沖基金依據購物網站的顧客評論,分析企業產品銷售狀況;
●3、銀行根據求職網站的崗位數量,推斷就業率;
●4、投資機構搜集並分析上市企業聲明,從中尋找破產的蛛絲馬跡;
●5、美國疾病控制和預防中心依據網民搜索,分析全球范圍內流感等病疫的傳播狀況;
●6、美國總統奧巴馬的競選團隊依據選民的微博,實時分析選民對總統競選人的喜好。[1]
可視化
「數據是新的石油。」亞馬遜前任首席科學家Andreas Weigend說。Instagram以10億美元出售之時,成立於1881年的世界最大影像產品及服務商柯達正申請破產。
大數據是如此重要,以至於其獲取、儲存、搜索、共享、分析,乃至可視化地呈現,都成為了當前重要的研究課題[1] 。
「當時時變幻的、海量的數據出現在眼前,是怎樣一幅壯觀的景象?在後台注視著這一切,會不會有接近上帝俯視人間星火的感覺?」
這個問題我曾請教過劉建國,中國著名的搜索引擎專家。劉曾主持開發過國內第一個大規模中英文搜索引擎系統「天網」。
要知道,劉建國曾任至網路的首席技術官,在這樣一家每天需應對網民各種搜索請求1.7億次(2013年約為8.77億次)的網站中,如果只是在後台靜靜端坐,可能片刻都不能安心吧。網路果然在提供搜索服務之外,逐漸增添了網路指數,後又建立了基於網民搜索數據的重要產品「貼吧」及網路統計產品等。
劉建國沒有直接回答這個問題,他想了很久,似乎陷入了回憶,嘴角的笑容含著詭秘。
倒是有公司已經在大數據中有接近上帝俯視的感覺,美國洛杉磯就有企業宣稱,他們將全球夜景的歷史數據建立模型,在過濾掉波動之後,做出了投資房地產和消費的研究報告。
在數據可視化呈現方面,我最新接收到的故事是,一位在美國思科物流部門工作的朋友,很聰明的印度裔小夥子,被Facebook高價挖角,進入其數據研究小組。他後來驚訝地發現,裡面全是來自物流企業、供應鏈方面的技術人員和專家,「Facebook想知道,能不能用物流的角度和流程的方式,分析用戶的路徑和行為。」
特徵
編輯
數據量大(Volume)
第一個特徵是數據量大。大數據的起始計量單位至少是P(1000個T)、E(100萬個T)或Z(10億個T)。
類型繁多(Variety)
第二個特徵是數據類型繁多。包括網路日誌、音頻、視頻、圖片、地理位置信息等等,多類型的數據對數據的處理能力提出了更高的要求。
價值密度低(Value)
第三個特徵是數據價值密度相對較低。如隨著物聯網的廣泛應用,信息感知無處不在,信息海量,但價值密度較低,如何通過強大的機器演算法更迅速地完成數據的價值「提純」,是大數據時代亟待解決的難題。
速度快、時效高(Velocity)
第四個特徵是處理速度快,時效性要求高。這是大數據區分於傳統數據挖掘最顯著的特徵。
既有的技術架構和路線,已經無法高效處理如此海量的數據,而對於相關組織來說,如果投入巨大採集的信息無法通過及時處理反饋有效信息,那將是得不償失的。可以說,大數據時代對人類的數據駕馭能力提出了新的挑戰,也為人們獲得更為深刻、全面的洞察能力提供了前所未有的空間與潛力。[2]
案例分析
編輯
個案一
你開心他就買你焦慮他就拋[2]
華爾街「德溫特資本市場」公司首席執行官保羅·霍廷每天的工作之一,就是利用電腦程序分析全球3.4億微博賬戶的留言,進而判斷民眾情緒,再以「1」到「50」進行打分。根據打分結果,霍廷再決定如何處理手中數以百萬美元計的股票。
霍廷的判斷原則很簡單:如果所有人似乎都高興,那就買入;如果大家的焦慮情緒上升,那就拋售。
這一招收效顯著——當年第一季度,霍廷的公司獲得了7%的收益率。
個案二
國際商用機器公司(IBM)估測,這些「數據」值錢的地方主要在於時效。對於片刻便能定輸贏的華爾街,這一時效至關重要。曾經,華爾街2%的企業搜集微博等平台的「非正式」數據;如今,接近半數企業採用了這種手段。
●「社會流動」創業公司在「大數據」行業生機勃勃,和微博推特是合作夥伴。它分析數據,告訴廣告商什麼是正確的時間,誰是正確的用戶,什麼是應該發表的正確內容,備受廣告商熱愛。
●通過喬希·詹姆斯的Omniture(著名的網頁流量分析工具)公司,你可以知道有多少人訪問你的網站,以及他們呆了多長時間——這些數據對於任何企業來說都至關重要。詹姆斯把公司賣掉,進賬18億美元。
●微軟專家吉拉德喜歡把這些「大數據」結果可視化:他把客戶請到辦公室,將包含這些公司的數據圖譜展現出來——有些是普通的時間軸,有些像蒲公英,有些則是鋪滿整個畫面的泡泡,泡泡中顯示這些客戶的粉絲正在談論什麼話題。
●「臉譜」數據分析師傑弗遜的工作就是搭建數據分析模型,弄清楚用戶點擊廣告的動機和方式。
處理和分析工具
用於分析大數據的工具主要有開源與商用兩個生態圈。
開源大數據生態圈:
1、Hadoop HDFS、HadoopMapRece, HBase、Hive 漸次誕生,早期Hadoop生態圈逐步形成。
2、. Hypertable是另類。它存在於Hadoop生態圈之外,但也曾經有一些用戶。
3、NoSQL,membase、MongoDb
商用大數據生態圈:
1、一體機資料庫/數據倉庫:IBM PureData(Netezza), OracleExadata, SAP Hana等等。
2、數據倉庫:TeradataAsterData, EMC GreenPlum, HPVertica 等等。
3、數據集市:QlikView、 Tableau 、 以及國內的Yonghong Data Mart 。
產業崛起
編輯
越來越多的政府、企業等機構開始意識到數據正在成為組織最重要的資產,數據分析能力正在成為組織的核心競爭力。具體有以下三大案例:
1、2012年3月22日,奧巴馬政府宣布投資2億美元拉動大數據相關產業發展,將「大數據戰略」上升為國家意志。奧巴馬政府將數據定義為「未來的新石油」,並表示一個國家擁有數據的規模、活性及解釋運用的能力將成為綜合國力的重要組成部分,未來,對數據的佔有和控制甚至將成為陸權、海權、空權之外的另一種國家核心資產。
2、聯合國也在2012年發布了大數據政務白皮書,指出大數據對於聯合國和各國政府來說是一個歷史性的機遇,人們如今可以使用極為豐富的數據資源,來對社會經濟進行前所未有的實時分析,幫助政府更好地響應社會和經濟運行。
3、而最為積極的還是眾多的IT企業。麥肯錫在一份名為《大數據,是下一輪創新、競爭和生產力的前沿》的專題研究報告中提出,「對於企業來說,海量數據的運用將成為未來競爭和增長的基礎」,該報告在業界引起廣泛反響。
IBM則提出,上一個十年,他們拋棄了PC,成功轉向了軟體和服務,而這次將遠離服務與咨詢,更多地專注於因大數據分析軟體而帶來的全新業務增長點。IBM執行總裁羅睿蘭認為,「數據將成為一切行業當中決定勝負的根本因素,最終數據將成為人類至關重要的自然資源。」
在國內,網路已經致力於開發自己的大數據處理和存儲系統;騰訊也提出2013年已經到了數據化運營的黃金時期,如何整合這些數據成為未來的關鍵任務。
事實上,自2009年以來,有關「大數據」 主題的並購案層出不窮,且並購數量和規模呈逐步上升的態勢。其中,Oracle對Sun、惠普對Autonomy兩大並購案總金額高達176億美元,大數據的產業價值由此可見一斑。[1-2]
提供依據
編輯
大數據是信息通信技術發展積累至今,按照自身技術發展邏輯,從提高生產效率向更高級智能階段的自然生長。無處不在的信息感知和採集終端為我們採集了海量的數據,而以雲計算為代表的計算技術的不斷進步,為我們提供了強大的計算能力,這就圍繞個人以及組織的行為構建起了一個與物質世界相平行的數字世界[1-2] 。
大數據雖然孕育於信息通信技術的日漸普遍和成熟,但它對社會經濟生活產生的影響絕不限於技術層面,更本質上,它是為我們看待世界提供了一種全新的方法,即決策行為將日益基於數據分析做出,而不是像過去更多憑借經驗和直覺做出。
事實上,大數據的影響並不僅僅限於信息通信產業,而是正在「吞噬」和重構很多傳統行業,廣泛運用數據分析手段管理和優化運營的公司其實質都是一個數據公司。麥當勞、肯德基以及蘋果公司等旗艦專賣店的位置都是建立在數據分析基礎之上的精準選址。而在零售業中,數據分析的技術與手段更是得到廣泛的應用,傳統企業如沃爾瑪通過數據挖掘重塑並優化供應鏈,新崛起的電商如卓越亞馬遜、淘寶等則通過對海量數據的掌握和分析,為用戶提供更加專業化和個性化的服務。
最讓人吃驚的例子是,社交媒體監測平台DataSift監測了Facebook(臉譜) IPO當天Twitter上的情感傾向與Facebook股價波動的關聯。在Facebook開盤前Twitter上的情感逐漸轉向負面,25分鍾之後Facebook的股價便開始下跌。而當Twitter上的情感轉向正面時,Facebook股價在8分鍾之後也開始了回彈。最終當股市接近收盤、Twitter上的情感轉向負面時,10分鍾後Facebook的股價又開始下跌。最終的結論是:Twitter上每一次情感傾向的轉向都會影響Facebook股價的波動。
這僅僅只是基於社交網路產生的大數據「預見未來」的眾多案例之一,此外還有谷歌通過網民搜索行為預測流感爆發等例子。不僅在商業方面,大數據在社會建設方面的作為同樣令人驚嘆,智能電網、智慧交通、智慧醫療、智慧環保、智慧城市等的蓬勃興起,都與大數據技術與應用的發展息息相關。
「大數據」可能帶來的巨大價值正漸漸被人們認可,它通過技術的創新與發展,以及數據的全面感知、收集、分析、共享,為人們提供了一種全新的看待世界的方法。更多地基於事實與數據做出決策,這樣的思維方式,可以預見,將推動一些習慣於靠「差不多」運行的社會發生巨大變革。
應對措施
編輯
一個好的企業應該未雨綢繆,從現在開始就應該著手准備,為企業的後期的數據收集和分析做好准備,企業可以從下面六個方面著手,這樣當面臨鋪天蓋地的大數據的時候,以確保企業能夠快速發展,具體為下面六點。
目標
幾乎每個組織都可能有源源不斷的數據需要收集,無論是社交網路還是車間感測器設備,而且每個組織都有大量的數據需要處理,IT人員需要了解自己企業運營過程中都產生了什麼數據,以自己的數據為基準,確定數據的范圍。
准則
雖然每個企業都會產生大量數據,而且互不相同、多種多樣的,這就需要企業IT人員在現在開始收集確認什麼數據是企業業務需要的,找到最能反映企業業務情況的數據。
重新評估
大數據需要在伺服器和存儲設施中進行收集,並且大多數的企業信息管理體系結構將會發生重要大變化,IT經理則需要准備擴大他們的系統,以解決數據的不斷擴大,IT經理要了解公司現有IT設施的情況,以組建處理大數據的設施為導向,避免一些不必要的設備的購買。
重視大數據技術
大數據是最近幾年才興起的詞語,而並不是所有的IT人員對大數據都非常了解,例如如今的Hadoop,MapRece,NoSQL等技術都是2013年剛興起的技術,企業IT人員要多關注這方面的技術和工具,以確保將來能夠面對大數據的時候做出正確的決定。
培訓企業的員工
大多數企業最缺乏的是人才,而當大數據到臨的時候,企業將會缺少這方面的採集收集分析方面的人才,對於一些公司,特別是那種人比較少的公司,工作人員面臨大數據將是一種挑戰,企業要在平時的時候多對員工進行這方面的培訓,以確保在大數據到來時,員工也能適應相關的工作。
培養三種能力
Teradata大中華區首席執行官辛兒倫對新浪科技表示,隨著大數據時代的到來,企業應該在內部培養三種能力。第一,整合企業數據的能力;第二,探索數據背後價值和制定精確行動綱領的能力;第三,進行精確快速實時行動的能力。
做到上面的幾點,當大數據時代來臨的時候,面臨大量數據將不是束手無策,而是成竹在胸,而從數據中得到的好處也將促進企業快速發展。
望採納,謝謝
⑼ 大數據時代已經到來,什麼是大數據
大數據時代已經到來,什麼是大數據
大數據時代已經到來,你了解嗎?什麼是大數據?一、大數據出現的背景進入2012年,大數據(big data)一詞越來越多地被提及,人們用它來描述和定義信息爆炸時代產生的海量數據,並命名與之相關的技術發展與創新。它已經上過《紐約時報》《華爾街日報》的專欄封面,進入美國白宮官網的新聞,現身在國內一些互聯網主題的講座沙龍中,甚至被嗅覺靈敏的證券公司等寫進了投資推薦報告。數據正在迅速膨脹並變大,它決定著企業的未來發展,雖然現在企業可能並沒有意識到數據爆炸性增長帶來問題的隱患,但是隨著時間的推移,人們將越來越多的意識 到數據對企業的重要性。大數據時代對人類的數據駕馭能力提出了新的挑戰,也為人們獲得更為深刻、全面的洞察能力提供了前所未有的空間與潛力。最早提出大數據時代到來的是全球知名咨詢公司麥肯錫,麥肯錫稱:「數據,已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。人們對於海量數據的 挖掘和運用,預示著新一波生產率增長和消費者盈餘浪潮的到來。」「大數據」在物理學、生物學、環境生態學等領域以及軍事、金融、通訊等行業存在已有時日, 卻因為近年來互聯網和信息行業的發展而引起人們關注。大數據在互聯網行業指的是這樣一種現象:互聯網公司在日常運營中生成、累積的用戶網路行為數據。這些數據的規模是如此龐大,以至於不能用G或T來衡量,大數據的起始計量單位至少是P(1000個T)、E(100萬個T)或Z(10億個T)。二、什麼是大數據?信息技術領域原先已經有「海量數據」、「大規模數據」等概念,但這些概念只著眼於數據規模本身,未能充分反映數據爆發背景下的數據處理與應用需求,而「大數據」這一新概念不僅指規模龐大的數據對象,也包含對這些數據對象的處理和應用活動,是數據對象、技術與應用三者的統一。1、大數據(bigdata),或稱巨量資料,指的是所涉及的資料量規模巨大到無法透過目前主流軟體工具,在合理時間內達到擷取、管理、處理、並整理成為幫助企業經營決策更積極目的的資訊。大數據對象既可能是實際的、有限的數據集合,如某個政府部門或企業掌握的資料庫,也可能是虛擬的、無限的數據集合,如微博、微信、社交網路上的全部信息。大數據是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。從數據的類別上看,「大數據」指的是無法使用傳統流程或工具處理或分析的信息。它定義了那些超出正常處理范圍和大小、迫使用戶採用非傳統處理方法的數據集。亞馬遜網路服務(AWS)、 大數據科學家JohnRauser提到一個簡單的定義:大數據就是任何超過了一台計算機處理能力的龐大數據量。研發小組對大數據的定義:「大數據是最大的 宣傳技術、是最時髦的技術,當這種現象出現時,定義就變得很混亂。」Kelly說:「大數據是可能不包含所有的 信息,但我覺得大部分是正確的。對大數據的一部分認知在於,它是如此之大,分析它需要多個工作負載,這是AWS的定義。2、大數據技術,是指從各種各樣類型的大數據中,快速獲得有價值信息的技術的能力,包括數據採集、存儲、管理、分析挖掘、可視化等技術及其集成。適用於大數據的技術,包括大規模並行處理(MPP)資料庫,數據挖掘電網,分布式文件系統,分布式資料庫,雲計算平台,互聯網,和可擴展的存儲系統。3、大數據應用,是 指對特定的大數據集合,集成應用大數據技術,獲得有價值信息的行為。對於不同領域、不同企業的不同業務,甚至同一領域不同企業的相同業務來說,由於其業務 需求、數據集合和分析挖掘目標存在差異,所運用的大數據技術和大數據信息系統也可能有著相當大的不同。惟有堅持「對象、技術、應用」三位一體同步發展,才 能充分實現大數據的價值。當你的技術達到極限時,也就是數據的極限」。大數據不是關於如何定義,最重要的是如何使用。最大的挑戰在於哪些技術能更好的使用數據以及大數據的應用情況如何。這與傳統的資料庫相比,開源的大數據分析工具的如Hadoop的崛起,這些非結構化的數據服務的價值在哪裡。三、大數據的類型和價值挖掘方法1、大數據的類型大致可分為三類:1)傳統企業數據(Traditionalenterprisedata):包括 CRM systems的消費者數據,傳統的ERP數據,庫存數據以及賬目數據等。2)機器和感測器數據(Machine-generated/sensor data):包括呼叫記錄(CallDetail Records),智能儀表,工業設備感測器,設備日誌(通常是Digital exhaust),交易數據等。3)社交數據(Socialdata):包括用戶行為記錄,反饋數據等。如Twitter,Facebook這樣的社交媒體平台。2、大數據挖掘商業價值的方法主要分為四種:1)客戶群體細分,然後為每個群體量定製特別的服務。2)模擬現實環境,發掘新的需求同時提高投資的回報率。3)加強部門聯系,提高整條管理鏈條和產業鏈條的效率。4)降低服務成本,發現隱藏線索進行產品和服務的創新。四、大數據的特點業界通常用4個V(即Volume、Variety、Value、Velocity)來概括大數據的特徵。具體來說,大數據具有4個基本特徵:1、是數據體量巨大數據體量(volumes)大,指代大型數據集,一般在10TB規模左右,但在實際應用中,很多企業用戶把多個數據集放在一起,已經形成了PB級的數據量; 網路資料表明,其新首頁導航每天需要提供的數據超過1.5PB(1PB=1024TB),這些數據如果列印出來將超過5千億張A4紙。有資料證實,到目前 為止,人類生產的所有印刷材料的數據量僅為200PB。2、是數據類別大和類型多樣數據類別(variety)大,數據來自多種數據源,數據種類和格式日漸豐富,已沖破了以前所限定的結構化 數據范疇,囊括了半結構化和非結構化數據。現在的數據類型不僅是文本形式,更多的是圖片、視頻、音頻、地理位置信息等多類型的數據,個性化數據占絕對多數。3、是處理速度快在數據量非常龐大的情況下,也能夠做到數據的實時處理。數據處理遵循「1秒定律」,可從各種類型的數據中快速獲得高價值的信息。4、是價值真實性高和密度低數據真實性(Veracity)高,隨著社交數據、企業內容、交易與應用數據等新數據源的興趣,傳統數據源的局限被打破,企業愈發需要有效的信息之力以確保其真實性及安全性。以視頻為例,一小時的視頻,在不間斷的監控過程中,可能有用的數據僅僅只有一兩秒。五、大數據的作用1、對大數據的處理分析正成為新一代信息技術融合應用的結點移動互聯網、物聯網、社交網路、數字家庭、電子商務等是新一代信息技術的應用形態,這些應用不斷產生大數據。雲計算為這些海量、多樣化的大數據提供存儲和運算平台。通過對不同來源數據的管理、處理、分析與優化,將結果反饋到上述應用中,將創造出巨大的經濟和社會價值。大數據具有催生社會變革的能量。但釋放這種能量,需要嚴謹的數據治理、富有洞見的數據分析和激發管理創新的環境(Ramayya Krishnan,卡內基·梅隆大學海因茲學院院長)。2、大數據是信息產業持續高速增長的新引擎面向大數據市場的新技術、新產品、新服務、新業態會不斷涌現。在硬體與集成設備領域,大數據將對晶元、存儲產業產生重要影響,還將催生一體化數據存儲處理伺服器、內存計算等市場。在軟體與服務領域,大數據將引發數據快速處理分析、數據挖掘技術和軟體產品的發展。3、大數據利用將成為提高核心競爭力的關鍵因素各 行各業的決策正在從「業務驅動」 轉變「數據驅動」。對大數據的分析可以使零售商實時掌握市場動態並迅速做出應對;可以為商家制定更加精準有效的營銷策略提供決策支持;可以幫助企業為消費 者提供更加及時和個性化的服務;在醫療領域,可提高診斷准確性和葯物有效性;在公共事業領域,大數據也開始發揮促進經濟發展、維護社會穩定等方面的重要作 用。4、大數據時代科學研究的方法手段將發生重大改變例如,抽樣調查是社會科學的基本研究方法。在大數據時代,可通過實時監測、跟蹤研究對象在互聯網上產生的海量行為數據,進行挖掘分析,揭示出規律性的東西,提出研究結論和對策。六、大數據的商業價值1、對顧客群體細分「大數據」可以對顧客群體細分,然後對每個群體量體裁衣般的採取獨特的行動。瞄準特定的顧客群體來進行營銷和服務是商家一直以來的追求。雲存儲的海量數據和「大數據」的分析技術使得對消費者的實時和極端的細分有了成本效率極高的可能。2、模擬實境運用「大數據」模擬實境,發掘新的需求和提高投入的回報率。現在越來越多的產品中都裝有感測器,汽車和智能手機的普及使得可收集數據呈現爆炸性增長。Blog、Twitter、Facebook和微博等社交網路也在產生著海量的數據。雲計算和「大數據」分析技術使得商家可以在成本效率較高的情況下,實時地把這些數據連同交易行為的數據進行儲存和分析。交易過程、產品使用和人類行為都可以 數據化。「大數據」技術可以把這些數據整合起來進行數據挖掘,從而在某些情況下通過模型模擬來判斷不同變數(比如不同地區不同促銷方案)的情況下何種方案 投入回報最高。3、提高投入回報率提高「大數據」成果在各相關部門的分享程度,提高整個管理鏈條和產業鏈條的投入回報率。「大數據」能力強的部門可以通過雲計算、互聯網和內部搜索引擎把」大數據」成果和「大數據」能力比較薄弱的部門分享,幫助他們利用「大數據」創造商業價值。4、數據存儲空間出租企業和個人有著海量信息存儲的需求,只有將數據妥善存儲,才有可能進一步挖掘其潛在價值。具體而言,這塊業務模式又可以細分為針對個人文件存儲和針對企業用 戶兩大類。主要是通過易於使用的API,用戶可以方便地將各種數據對象放在雲端,然後再像使用水、電一樣按用量收費。目前已有多個公司推出相應服務,如亞 馬遜、網易、諾基亞等。運營商也推出了相應的服務,如中國移動的彩雲業務。5、管理客戶關系客戶管理應用的目的是根據客戶的屬性(包括自然屬性和行為屬性),從不同角度深層次分析客戶、了解客戶,以此增加新的客戶、提高客戶的忠誠度、降低客戶流失 率、提高客戶消費等。對中小客戶來說,專門的CRM顯然大而貴。不少中小商家將飛信作為初級CRM來使用。比如把老客戶加到飛信群里,在群朋友圈裡發布新 產品預告、特價銷售通知,完成售前售後服務等。6、個性化精準推薦在運營商內部,根據用戶喜好推薦各類業務或應用是常見的,比如應用商店軟體推薦、IPTV視頻節目推薦等,而通過關聯演算法、文本摘要抽取、情感分析等智能分 析演算法後,可以將之延伸到商用化服務,利用數據挖掘技術幫助客戶進行精準營銷,今後盈利可以來自於客戶增值部分的分成。以日常的「垃圾簡訊」為例,信息並不都是「垃圾」,因為收到的人並不需要而被視為垃圾。通過用戶行為數據進行分析後,可以給需要的人發送需要的信息,這樣「垃圾簡訊」就成了有價值的信息。在日本的麥當勞,用戶在手機上下載優惠券,再去餐廳用運營商DoCoMo的手機錢包優惠支付。運營商和麥當勞搜集相關消費信息,例如經常買什麼漢堡,去哪個店消費,消費頻次多少,然後精準推送優惠券給用戶。7、數據搜索數據搜索是一個並不新鮮的應用,隨著「大數據」時代的到來,實時性、全范圍搜索的需求也就變得越來越強烈。我們需要能搜索各種社交網路、用戶行為等數據。其商業應用價值是將實時的數據處理與分析和廣告聯系起來,即實時廣告業務和應用內移動廣告的社交服務。運營商掌握的用戶網上行為信息,使得所獲取的數據「具備更全面維度」,更具商業價值。典型應用如中國移動的「盤古搜索」。七、大數據對經濟社會的重要影響1、能夠推動實現巨大經濟效益比如對中國零售業凈利潤增長的貢獻,降低製造業產品開發、組裝成本等。預計2013年全球大數據直接和間接拉動信息技術支出將達1200億美元。2、能夠推動增強社會管理水平大數據在公共服務領域的應用,可有效推動相關工作開展,提高相關部門的決策水平、服務效率和社會管理水平,產生巨大社會價值。歐洲多個城市通過分析實時採集的交通流量數據,指導駕車出行者選擇最佳路徑,從而改善城市交通狀況。3、如果沒有高性能的分析工具,大數據的價值就得不到釋放對大數據應用必須保持清醒認識,既不能迷信其分析結果,也不能因為其不完全准確而否定其重要作用。1) 由於各種原因,所分析處理的數據對象中不可避免地會包括各種錯誤數據、無用數據,加之作為大數據技術核心的數據分析、人工智慧等技術尚未完全成熟,所以對 計算機完成的大數據分析處理的結果,無法要求其完全准確。例如,谷歌通過分析億萬用戶搜索內容能夠比專業機構更快地預測流感暴發,但由於微博上無用信息的 干擾,這種預測也曾多次出現不準確的情況。2)必須清楚定位的是,大數據作用與價值的重點在於能夠引導和啟發大數據應用者的創新思維,輔助決策。簡單而言,若是處理一個問題,通常人能夠想到一種方法,而大數據能夠提供十種參考方法,哪怕其中只有三種可行,也將解決問題的思路拓展了三倍。所以,客觀認識和發揮大數據的作用,不誇大、不縮小,是准確認知和應用大數據的前提。八、總結不管大數據的核心價值是不是預測,但是基於大數據形成決策的模式已經為不少的企業帶來了盈利和聲譽。1、從大數據的價值鏈條來分析,存在三種模式:1)手握大數據,但是沒有利用好;比較典型的是金融機構,電信行業,政府機構等。2)沒有數據,但是知道如何幫助有數據的人利用它;比較典型的是IT咨詢和服務企業,比如,埃森哲,IBM,Oracle等。3)既有數據,又有大數據思維;比較典型的是Google,Amazon,Mastercard等。2、未來在大數據領域最具有價值的是兩種事物:1)擁有大數據思維的人,這種人可以將大數據的潛在價值轉化為實際利益;2)還未有被大數據觸及過的業務領域。這些是還未被挖掘的油井,金礦,是所謂的藍海。大 數據是信息技術與專業技術、信息技術產業與各行業領域緊密融合的典型領域,有著旺盛的應用需求、廣闊的應用前景。為把握這一新興領域帶來的新機遇,需要不 斷跟蹤研究大數據,不斷提升對大數據的認知和理解,堅持技術創新與應用創新的協同共進,加快經濟社會各領域的大數據開發與利用,推動國家、行業、企業對於 數據的應用需求和應用水平進入新的階段。
⑽ 浙江大學2022少民高層骨幹計劃招生專業有數據科學與大數據技術嗎
在2022年的招生計劃中沒有這個專業。
少數民族高層次骨幹人才計劃,簡稱少數民族骨幹計劃,是五部委為貫徹黨的民族政策以科教興國戰略推進西部大開發戰略的重大舉措。計劃從2006年起用五年時間為西部培養一批少數民族高學歷專業人才,培養學校為雙一流以上重點大學,生源為西部省市區。按照「定向招生、定向培養、定向就業」的要求,採取「統一考試、適當降分」等特殊政策措施招收新生。畢業生一律按定向培養和就業協議到定向地區和單位就業,碩士服務期限為5年,博士8年。經費享受中央級高校研究生的撥款政策。
