珞珈講壇

Luojia Forum

2015年

首 頁 > 2015年 > 正文

Michael Seadle:管理和驗證研究數據

2016-09-12 16:48


珞珈講壇第117講

10月26日,世界頂尖信息學院聯盟iSchool主席Michael Seadle教授應邀在櫻頂老圖書館進行關於管理和驗證研究數據的學術交流講座。講座由信息管理學院院長方卿教授主持,manbetx被锁定 黨委副書記駱鬱廷教授出席講座。

Michael Seadle教授首先從數據庫係統的曆史和概念講起。數據庫係統最初的雛形始於穿孔卡片,它可以將數據按照序列存儲,但是數據的排序、存儲介質和容量都十分有限。隨著技術的逐漸發展、數據源的多樣化,先後出現了磁性存儲、光盤存儲和以記錄為基礎的數據結構。之後的數據庫也在不斷發展擴充,數據的存取更加靈活和集中,八十年代出現了並非程序的SQL搜索語言。發展到如今,出現了機器學習,機器通過以三元組存儲為數據結構的數據庫為數據來源,能夠分析出事件的相關性,這與統計算法息息相關。

接下來,他從研究數據的完整性和真實性向我們介紹了其特殊性。完整性是指數據在思想上不隨時間推移而改變,真實性是指這些數據是真實的。

研究數據要遠複雜於商用數據,數據背後更豐富的背景信息是必不可少的。在這種前提下,數據的完整性變得十分重要。然而,現實生活中卻時常發現數據造假的情況,他舉了一個例子來說明,國外有一學者的學術成果是基於統計嚴密的數據,然而數據信息過於完整嚴密以至於讓人產生懷疑。隨著人們的發問,謎團被揭開:研究人員所聲稱的數據來源機構早已關閉,數據是憑空捏造的。

近年來,數據偽造和怎樣發現它的問題的重要性日益顯著,存儲虛假數據將危害科學的進程,破壞以之為基礎的後續的工作,但是這種檢測偵察遠非易事。

最後,他做出總結,現如今,對數據的管理特別是研究是我們長時間關注的事。最初往往是對數據的抽取,現在則更多的是針對特定需求去建立數據間的關係。在這種情況下,數據的完整性格外重要。

在提問環節中,老師和同學分別對研究數據過程中非精準數據應如何處理、社會學等非結構化數據如何收集、對學術造假有無科學的管理係統、對數據標準化與多樣化的平衡如何把握等問題進行了提問,Seadle教授一一進行了詳細解答。在回答“對數據標準化與多樣化的平衡如何把握”時,教授用了這樣的例子進行解釋:就像一棟大樓無法用同一種磚塊建成一樣,對於信息世界,也需要多種多樣的數據分析模型。


聯係我們

地址:万搏manbext体育官网

電話:027-87882011

友情鏈接

Copyright @ 2021 manbext网站 . All rights reserved.

Baidu
map