<address id="v5f1t"><meter id="v5f1t"><dfn id="v5f1t"></dfn></meter></address>

<nobr id="v5f1t"><i id="v5f1t"><em id="v5f1t"></em></i></nobr>
      <font id="v5f1t"></font>

    <font id="v5f1t"><ruby id="v5f1t"></ruby></font>

      <listing id="v5f1t"></listing>

        <dfn id="v5f1t"><ruby id="v5f1t"><form id="v5f1t"></form></ruby></dfn>

            <dfn id="v5f1t"></dfn>

            <progress id="v5f1t"><b id="v5f1t"><strike id="v5f1t"></strike></b></progress>

              <font id="v5f1t"></font>

                      機器學習與數據挖掘入門(轉)

                      導讀機器學習與數據挖掘入門[轉貼 2007-12-18 15:01:35]機器學習與數據挖掘周 志 華南京大學計算機軟件新技術國家重點實驗室,南京210093機器學習是人工智能的核心研究領域之一,

                      機器學習與數據挖掘入門(轉) [轉貼 2007-12-18 15:01:35]   

                      機器學習與數據挖掘
                      周 志 華
                      南京大學計算機軟件新技術國家重點實驗室,南京210093

                      “機器學習”是人工智能的核心研究領域之一, 其最初的研究動機是為了讓計算機系統具有人的學習能力以便實現人工智能,因為眾所周知,沒有學習能力的系統很難被認為是具有智能的。目前被廣泛采用的機器學習的定義是“利用經驗來改善計算機系統自身的性能”[1]。事實上,由于“經驗”在計算機系統中主要是以數據的形式存在的,因此機器學習需要設法對數據進行分析,這就使得它逐漸成為智能數據分析技術的創新源之一,并且為此而受到越來越多的關注。
                      “數據挖掘”和“知識發現”通常被相提并論,并在許多場合被認為是可以相互替代的術語。對數據挖掘有多種文字不同但含義接近的定義,例如“識別出巨量數據中有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程”[2]。其實顧名思義,數據挖掘就是試圖從海量數據中找出有用的知識。大體上看,數據挖掘可以視為機器學習和數據庫的交叉,它主要利用機器學習界提供的技術來分析海量數據,利用數據庫界提供的技術來管理海量數據。
                      因為機器學習和數據挖掘有密切的聯系,受主編之邀,本文把它們放在一起做一個粗淺的介紹。

                      1 無處不在
                      隨著計算機技術的飛速發展,人類收集數據、存儲數據的能力得到了極大的提高,無論是科學研究還是社會生活的各個領域中都積累了大量的數據,對這些數據進行分析以發掘數據中蘊含的有用信息,成為幾乎所有領域的共同需求。正是在這樣的大趨勢下,機器學習和數據挖掘技術的作用日漸重要,受到了廣泛的關注。
                      例如,網絡安全是計算機界的一個熱門研究領域,特別是在入侵檢測方面,不僅有很多理論成果,還出現了不少實用系統。那么,人們如何進行入侵檢測呢?首先,人們可以通過檢查服務器日志等手段來收集大量的網絡訪問數據,這些數據中不僅包含正常訪問模式還包含入侵模式。然后,人們就可以利用這些數據建立一個可以很好地把正常訪問模式和入侵模式分開的模型。這樣,在今后接收到一個新的訪問模式時,就可以利用這個模型來判斷這個模式是正常模式還是入侵模式,甚至判斷出具體是何種類型的入侵。顯然,這里的關鍵問題是如何利用以往的網絡訪問數據來建立可以對今后的訪問模式進行分類的模型,而這正是機器學習
                      和數據挖掘技術的強項。
                      實際上,機器學習和數據挖掘技術已經開始在多媒體、計算機圖形學、計算機網絡乃至操作系統、軟件工程等計算機科學的眾多領域中發揮作用,特別是在計算機視覺和自然語言處理領域,機器學習和數據挖掘已經成為最流行、最熱門的技術,以至于在這些領域的頂級會議上相當多的論文都與機器學習和數據挖掘技術有關。總的來看,引入機器學習和數據挖掘技術在計算機科學的眾多分支領域中都是一個重要趨勢。
                      機器學習和數據挖掘技術還是很多交叉學科的重要支撐技術。例如,生物信息學是一個新興的交叉學科,它試圖利用信息科學技術來研究從DNA到基因、基因表達、蛋白質、基因電路、細胞、生理表現等一系列環節上的現象和規律。隨著人類基因組計劃的實施,以及基因藥物的美好前景,生物信息學得到了蓬勃發展。實際上,從信息科學技術的角度來看,生物信息學的研究是一個從“數據”到“發現”的過程,這中間包括數據獲取、數據管理、數據分析、仿真實驗等環節,而“數據分析”這個環節正是機器學習和數據挖掘技術的舞臺。
                      正因為機器學習和數據挖掘技術的進展對計算機科學乃至整個科學技術領域都有重要意義,美國NASA-JPL實驗室的科學家2001年9月在《Science》上專門撰文[3]指出,機器學習對科學研究的整個過程正起到越來越大的支持作用,并認為該領域將穩定而快速地發展,并將對科學技術的發展發揮更大的促進作用。NASA-JPL實驗室的全名是美國航空航天局噴氣推進實驗室,位于加州理工學院,是美國尖端技術的一個重要基地,著名的“勇氣”號和“機遇”號火星機器人正是在這個實驗室完成的。從目前公開的信息來看,機器學習和數據挖掘技術在這兩個火星機器人上有大量的應用。
                      除了在科學研究中發揮重要作用,機器學習和數據挖掘技術和普通人的生活也息息相關。例如,在天氣預報、地震預警、環境污染檢測等方面,有效地利用機器學習和數據挖掘技術對衛星傳遞回來的大量數據進行分析,是提高預報、預警、檢測準確性的重要途徑;在商業營銷中,對利用條形碼技術獲得的銷售數據進行分析,不僅可以幫助商家優化進貨、庫存,還可以對用戶行為進行分析以設計有針對性的營銷策略;…。下面再舉兩個例子。
                      公路交通事故是人類面臨的最大殺手之一,全世界每年有上百萬人喪生車輪,僅我國每年就有約10萬人死于車禍。美國一直在對自動駕駛車輛進行研究,因為自動駕駛車輛不僅在軍事上有重要意義,還對減少因酒后、疲勞而引起的車禍有重要作用。2004年3月,在美國DARPA(國防部先進研究計劃局)組織的自動駕駛車輛競賽中,斯坦福大學的參賽車在完全無人控制的情況下,成功地在6小時53分鐘內走完了132英里(約212公里)的路程,獲得了冠軍。比賽路段是在內華達州西南部的山區和沙漠中,路況相當復雜,有的地方路面只有幾米寬,一邊是山巖,另一邊是百尺深溝,即使有豐富駕駛經驗的司機,在這樣的路段上行車也是一個巨大的挑戰。這一結果顯示出自動駕駛車輛已經不再是一個夢想,可能在不久的將來就會走進普通人的生活。值得一提的是,斯坦福大學參賽隊正是由一位機器學習專家所領導的,而獲勝車輛也大量使用了機器學習和數據挖掘技術。
                      Google、Yahoo、百度等互聯網搜索引擎已經開始改變了很多人的生活方式,例如很多人已經習慣于在出行前通過網絡搜索來了解旅游景點的背景知識、尋找合適的旅館、飯店等。美國新聞周刊曾經對Google有個“一句話評論”:“它使得任何人離任何問題的答案之間的距離只有點擊一下鼠標這么遠”。現在很少有人不知道互聯網搜索引擎的用處,但可能很多人并不了解,機器學習和數據挖掘技術正在支撐著這些搜索引擎。其實,互聯網搜索引擎是通過分析互聯網上的數據來找到用戶所需要的信息,而這正是一個機器學習和數據挖掘任務。事實上,無論Google、Yahoo還是微軟,其互聯網搜索研究核心團隊中都有相當大比例的人是機器學習和數據挖掘專家,而互聯網搜索技術也正是機器學習和數據挖掘目前的熱門研究話題之一。

                      2 雄關漫道
                      機器學習是人工智能研究發展到一定階段的必然產物。從20世紀50年代到70年代初,人工智能研究處于“推理期”,人們認為只要給機器賦予邏輯推理能力,機器就能具有智能。這一階段的代表性工作主要有A. Newell和H. Simon的“邏輯理論家”程序以及此后的“通用問題求解”程序等,這些工作在當時取得了令人振奮的成果。例如,“邏輯理論家”程序在1952年證明了著名數學家羅素和懷特海的名著《數學原理》中的38條定理,在1963年證明了全部的52條定理,而且定理2.85甚至比羅素和懷特海證明得更巧妙。A. Newell和H. Simon因此獲得了1975年圖靈獎。然而,隨著研究向前發展,人們逐漸認識到,僅具有邏輯推理能力是遠遠實現不了人工智能的。E.A. Feigenbaum等人認為,要使機器具有智能,就必須設法使機器擁有知識。在他們的倡導下,20世紀70年代中期開始,人工智能進入了“知識期”。在這一時期,大量專家系統問世,在很多領域做出了巨大貢獻。E.A. Feigenbaum作為“知識工程”之父在1994年獲得了圖靈獎。但是,專家系統面臨“知識工程瓶頸”,簡單地說,就是由人來把知識總結出來再教給計算機是相當困難的。于是,一些學者想到,如果機器自己能夠學習知識該多好!
                      實際上,圖靈在1950年提出圖靈測試的文章中,就已經提到了機器學習的可能,而20世紀50年代其實已經開始有機器學習相關的研究工作,主要集中在基于神經網絡的連接主義學習方面,代表性工作主要有F. Rosenblatt的感知機、B. Widrow的Adaline等。在20世紀6、70年代,多種學習技術得到了初步發展,例如以決策理論為基礎的統計學習技術以及強化學習技術等,代表性工作主要有A.L. Samuel的跳棋程序以及N.J. Nilson的“學習機器”等,20多年后紅極一時的統計學習理論的一些重要結果也是在這個時期取得的。在這一時期,基于邏輯或圖結構表示的符號學習技術也開始出現,代表性工作有P. Winston的“結構學習系統”、R.S. Michalski等人的“基于邏輯的歸納學習系統”、E.B. Hunt等人的“概念學習系統”等。 3
                      1980年夏天,在美國卡內基梅隆大學舉行了第一屆機器學習研討會;同年,《策略分析與信息系統》連出三期機器學習專輯;1983年,Tioga出版社出版了R.S. Michalski、J.G. Carbonell和T.M. Mitchell主編的《機器學習:一種人工智能途徑》[4],書中匯集了20位學者撰寫的16篇文章,對當時的機器學習研究工作進行了總結,產生了很大反響a;1986年,《Machine Learning》創刊;1989年,《Artificial Intelligence》出版了機器學習專輯,刊發了一些當時比較活躍的研究工作,其內容后來出現在J.G. Carbonell主編、MIT出版社1990年出版的《機器學習:風范與方法》[5]一書中。總的來看,20世紀80年代是機器學習成為一個獨立的學科領域并開始快速發展、各種機器學習技術百花齊放的時期。
                      R.S. Michalski等人[4]中把機器學習研究劃分成“從例子中學習”、“在問題求解和規劃中學習”、“通過觀察和發現學習”、“從指令中學習”等范疇;而E.A. Feigenbaum在著名的《人工智能手冊》b 中[6],則把機器學習技術劃分為四大類,即“機械學習”、“示教學習”、“類比學習”、“歸納學習”。機械學習也稱為“死記硬背式學習”,就是把外界輸入的信息全部記下來,在需要的時候原封不動地取出來使用,這實際上沒有進行真正的學習;示教學習和類比學習實際上類似于R.S. Michalski等人所說的“從指令中學習”和“通過觀察和發現學習”;歸納學習類似于“從例子中學習”,即從訓練例中歸納出學習結果c。20世紀80年代以來,被研究得最多、應用最廣的是“從例子中學習”(也就是廣義的歸納學習),它涵蓋了監督學習(例如分類、回歸)、非監督學習(例如聚類)等眾多內容。下面我們對這方面主流技術的演進做一個簡單的回顧。
                      在20世紀 90年代中期之前,“從例子中學習”的一大主流技術是歸納邏輯程序設計(Inductive Logic Programming),這實際上是機器學習和邏輯程序設計的交叉。它使用1階邏輯來進行知識表示,通過修改和擴充邏輯表達式(例如Prolog表達式)來完成對數據的歸納。這一技術占據主流地位與整個人工智能領域的發展歷程是分不開的。如前所述,人工智能在20世紀50年代到80年代經歷了“推理期”和“知識期”,在“推理期”中人們基于邏輯知識表示、通過演繹技術獲得了很多成果,而在知識期中人們基于邏輯知識表示、通過領域知識獲取來實現專家系統,因此,邏輯知識表示很自然地受到青睞,而歸納邏輯程序設計技術也自然成為機器學習的一大主流。歸納邏輯程序設計技術的一大優點是它具有很強的知識表示能力,可以較容易地表示出復雜數據和復雜的數據關系。尤為重要的是,領域知識通常可以方便地寫成邏輯表達式,因此,歸納邏輯程序設計技術不僅可以方便地利用領域知識指導學習,還可以通過學習對領域知識進行精化和增強,甚至可以從數據中學習出領域知識。事實上,機器學習在20世紀80年代正是被視為“解決知識工程瓶頸問題的關鍵”而走到人工智能主舞臺的聚光燈下的,歸納邏輯程序設計的一些良好特性對此無疑居功至偉d。S.H. Muggleton主編的書[7]對90年代中期之前歸納邏輯程序設計方面的研究工作做了總結。然而,歸納邏輯程序設計技術也有其局限,最嚴重的問題是由于其表示能力很強,學習過程所面臨的假設空間太大,對規模稍大的問題就很難進行有效的學習,只能解決一些“玩具問題”。因此,在90年代中期后,歸納程序設計技術方面的研究相對陷入了低谷。
                      20世紀 90年代中期之前,“從例子中學習”的另一大主流技術是基于神經網絡的連接主義學習。連接主義學習技術在20世紀50年代曾經歷了一個大發展時期,但因為早期的很多人工智能研究者對符號表示有特別的偏愛,例如H. Simon曾說人工智能就是研究“對智能行為的符號化建模”,因此當時連接主義的研究并沒有被納入主流人工智能的范疇。同時,連接主義學習自身也遇到了極大的問題,M. Minsky和S. Papert在1969年指出,(當時的)神經網絡只能用于線性分類,對哪怕“異或”這么簡單的問題都做不了。于是,連接主義學習在此后近15年的時間內陷入了停滯期。直到1983年,J.J. Hopfield利用神經網絡求解TSP問題獲得了成功,才使得連接主義重新受到人們的關注。1986年,D.E. Rumelhart和J.L. McClelland主編了著名的《并行分布處理—認知微結構的探索》[8]一書,對PDP小組的研究工作進行了總結,轟動一時。特別是D.E. Rumelhart、G.E. Hinton和R.J. Williams重新發明了著名的BP算法e,產生了非常大的影響。該算法可以說是最成功的神經網絡學習算法,在當時迅速成為最流行的算法,并在很多應用中都取得了極大的成功。與歸納邏輯程序設計技術相比,連接主義學習技術基于“屬性-值”的表示形式(也就是用一個特征向量來表示一個事物;這實際上是命題邏輯表示形式),學習過程所面臨的假設空間遠小于歸納邏輯程序設計所面臨的空間,而且由于有BP這樣有效的學習算法,使得它可以解決很多實際問題。事實上,即使在今天,BP仍然是在實際工程應用中被用得最多、最成功的算法之一。然而,連接主義學習技術也有其局限,一個常被人詬病的問題是其“試錯性”。簡單地說,在此類技術中有大量的經驗參數需要設置,例如神經網絡的隱層結點數、學習率等,夸張一點說,參數設置上差之毫厘,學習結果可能謬以千里。在實際工程應用中,人們可以通過調試來確定較好的參數設置,但對機器學習研究者來說,對此顯然是難以滿意的。
                      20世紀90年代中期,統計學習粉墨登場并迅速獨占鰲頭。其實早在20世紀6、70年代就已經有統計學習方面的研究工作,統計學習理論[9]在那個時期也已經打下了基礎,例如V.N. Vapnik早在1963年就提出了“支持向量”的概念,他和A.J. Chervonenkis在1968年提出了VC維,在1974年提出了結構風險最小化原則等,但直到90年代中期統計學習才開始成為機器學習的主流技術。這一方面是由于有效的支持向量機算法在90年代才由B.E. Boser、I. Guyon和V.N. Vapnik提出,而其優越的性能也是到90年代中期才在T. Joachims等人對文本分類的研究中顯現出來;另一方面,正是在連接主義學習技術的局限性凸顯出來之后,人們才把目光轉向了統計學習。事實上,
                      e 實際上,P. Werbos在他1974年哈佛大學的博士學位論文中曾經發明了這個算法,但由于當時正處于連接主義的“冰河期”,因此沒有得到應有的重視。

                      統計學習與連接主義學習有著密切的聯系,例如RBF神經網絡其實就是一種很常用的支持向量機。
                      在支持向量機被普遍接受后,支持向量機中用到的核(kernel)技巧被人們用到了機器學習的幾乎每一個角落中,“核方法”也逐漸成為機器學習的一種基本技巧。但其實這并不是一種新技術,例如Mercer定理是在1909年發表的,核技巧也早已被很多人使用過,即使只考慮機器學習領域,至少T. Poggio在1975年就使用過多項式核。如果仔細審視統計學習理論,就可以發現其中的絕大多數想法在以往機器學習的研究中都出現過,例如結構風險最小化原則實際上就是對以往機器學習研究中經常用到的最小描述長度原則的另一個說法。但是,統計學習理論把這些有用的片段整合在同一個理論框架之下,從而為人們研制出泛化能力f有理論保證的算法奠定了基礎,與連接主義學習的“試錯法”相比,這是一個極大的進步。然而,統計學習也有其局限,例如,雖然理論上來說,通過把原始空間利用核技巧轉化到一個新的特征空間,再困難的問題也可以容易地得到解決,但如何選擇合適的核映射,卻仍然有濃重的經驗色彩。另一方面,統計學習技術與連接主義學習技術一樣是基于“屬性-值”表示形式,難以有效地表示出復雜數據和復雜的數據關系,不僅難以利用領域知識,而且學習結果還具有“黑箱性”。此外,傳統的統計學習技術往往因為要確保統計性質或簡化問題而做出一些假設,但很多假設在真實世界其實是難以成立的。如何克服上述缺陷,正是很多學者正在關注的問題。
                      需要說明的是,機器學習目前已經是一個很大的學科領域,而本節只是管中窺豹,很多重要的內容都沒有談及。T.G. Dietterich曾發表過一篇題為《機器學習研究:當前的四個方向》[10]的很有影響的文章,在文章中他討論了集成學習、可擴展機器學習(例如對大數據集、高維數據的學習等)、強化學習、概率網絡等四個方面的研究進展,有興趣的讀者不妨一讀。
                      如前所述,機器學習之所以備受矚目,主要是因為它已成為智能數據分析技術的創新源之一。但是機器學習還有一個不可忽視的功能,就是通過建立一些關于學習的計算模型來幫助人們了解“人類如何學習”。例如,P. Kanerva在20世紀80年代中期提出SDM(Sparse Distributed Memory)模型時并沒有刻意模仿人腦生理結構,但后來的研究發現,SDM的工作機制非常接近于人類小腦,這為理解小腦的某些功能提供了幫助。自然科學研究的驅動力歸結起來無非是人類對宇宙本源、物質本性、生命本質、自我本識的好奇,而“人類如何學習”無疑是一個有關自我本識的重大問題。從這個意義上說,機器學習不僅在信息科學中占有重要地位,還有一定的自然科學色彩。與此不同,數據挖掘[11]則是一個直接為實際應用而生的學科領域。20世紀60年代,早期的數據庫問世,人們開始利用計算機對數據進行管理;到了70年代之后,隨著關系數據庫的出現和發展,人們管理數據的能力越來越強,收集存儲的數據也越來越多。如果只利用數據庫進行一些簡單的事務處理,顯然沒有對數據進行充分的利用,從數據中挖掘出有用的知識,才可以更好地實現數據的價值。
                      f 提高泛化能力(generalization ability)是機器學習中最重要的問題之一。泛化能力表征了機器學習系統對新事件的適用性,簡單地說,泛化能力越強,系統對新事件的適用能力(例如做出正確預測的能力)就越強。 6
                      1989年8月,第11屆國際人工智能聯合會議(IJCAI’89)在美國底特律舉行,GTE實驗室的G. Piatetsky-Shapiro在J.G. Carbonell、W. Frawley、K. Parsaye、J.R. Quinlan、M. Siegel、R. Uthurusamy等人的支持下,組織了一個名為“在數據庫中發現知識”的研討會,這個研討會后來被認為是數據挖掘成為一個領域的標志。早期人們一直稱其為“數據挖掘與知識發現”,但隨著該領域的發展壯大,越來越多的人直接稱其為數據挖掘g。值得注意的是,數據挖掘的對象早就不限于數據庫,而可以是存放在任何地方的數據,甚至包括Internet上的數據。
                      數據挖掘受到了很多學科領域的影響,其中數據庫、機器學習、統計學無疑影響最大[12]。粗糙地說,數據庫提供數據管理技術,機器學習和統計學提供數據分析技術。由于統計學界往往醉心于理論的優美而忽視實際的效用,因此,統計學界提供的很多技術通常都要在機器學習界進一步研究,變成有效的機器學習算法之后才能再進入數據挖掘領域。從這個意義上說,統計學主要是通過機器學習來對數據挖掘發揮影響,而機器學習和數據庫則是數據挖掘的兩大支撐技術。
                      從數據分析的角度來看,絕大多數數據挖掘技術都來自機器學習領域。但能否認為數據挖掘只不過就是機器學習的簡單應用呢?答案是否定的。一個重要的區別是,傳統的機器學習研究并不把海量數據作為處理對象,很多技術是為處理中小規模數據設計的,如果直接把這些技術用于海量數據,效果可能很差,甚至可能用不起來。因此,數據挖掘界必須對這些技術進行專門的、不簡單的改造。例如,決策樹是一種很好的機器學習技術,不僅有很強的泛化能力,而且學得結果具有一定的可理解性,很適合數據挖掘任務的需求。但傳統的決策樹算法需要把所有的數據都讀到內存中,在面對海量數據時這顯然是無法實現的。為了使決策樹能夠處理海量數據,數據挖掘界做了很多工作,例如通過引入高效的數據結構和數據調度策略等來改造決策樹學習過程,而這其實正是在利用數據庫界所擅長的數據管理技術。實際上,在傳統機器學習算法的研究中,在很多問題上如果能找到多項式時間的算法可能就已經很好了,但在面對海量數據時,可能連O(n3)的算法都是難以接受的,這就給算法的設計帶來了巨大的挑戰。
                      另一方面,作為一個獨立的學科領域,必然會有一些相對“獨特”的東西。對數據挖掘來說,這就是關聯分析。簡單地說,關聯分析就是希望從數據中找出“買尿布的人很可能會買啤酒”這樣看起來匪夷所思但可能很有意義的模式h。如果在100位顧客中有20位購買了尿布,購買尿布的20位顧客中有16位購買了啤酒,那么就可以寫成“尿布→啤酒 [支持度=20%,置信度=80%]”這樣的一條關聯規則。挖掘出這樣的規則可以有很多用處,例如商家可以考慮把尿布展柜和啤酒展柜放到一起以促進銷售。實際上,在面對少量數據時關聯分析并不難,可以直接使用統計學中有關相關性的知識,這也正是機器學習界沒有研究關聯分析的一個重要原因。關聯分析的困難其實完全是由海量數據造成的,因為數據量的增加會直接造成挖掘效率的下降,當數據量增加到一定程度,問題的難度就會產生質變,例如,在關聯分析中必須考慮因數據太大而無法承受多次掃描數據庫的開銷、可能產生在存儲和計算上都無法接受的大量中間結果等,而關聯分析技術正是圍繞著“提高效率”這條主線發展起來的。在R. Agrawal等人首先對關聯規則挖掘進行研究之后,大批學者投身到這方面的研究中并產生了很多成果,代表性工作有R. Agrawal和R. Srikant的Apriori算法以及J. Han等人的FP-Growth算法等,有興趣的讀者可以參考一些相關書籍[11][13]。

                      3 坐看云起
                      機器學習和數據挖掘在過去10年經歷了飛速發展,目前已經成為子領域眾多、內涵非常豐富的學科領域。“更多、更好地解決實際問題”成為機器學習和數據挖掘發展的驅動力。事實上,過去若干年中出現的很多新的研究方向,例如半監督學習、代價敏感學習、流數據挖掘、社會網絡分析等,都起源于實際應用中抽象出來的問題,而機器學習和數據挖掘領域的研究進展,也很快就在眾多應用領域中發揮作用。值得指出的是,在計算機科學的很多領域中,成功的標志往往是產生了某種看得見、摸得著的系統,而機器學習和數據挖掘則恰恰相反,它們正在逐漸成為基礎性、透明化、無處不在的支持技術、服務技術,在它們真正成功的時候,可能人們已經感受不到它們的存在,人們感受到的只是更健壯的防火墻、更靈活的機器人、更安全的自動汽車、更好用的搜索引擎
                      由于機器學習和數據挖掘技術的重要性,各國都對這方面的研究非常關注。例如,美國計算機科學研究的重鎮——卡內基梅隆大學2006年宣布成立“機器學習系”。而美國DARPA從2003年開始啟動5年期的PAL(Perceptive Assistant that Learns)計劃[14],首期1-1.5年投資即達2千9百萬美元,總投資超過1億美元。從名字就可以看出,這是一個以機器學習為核心的計劃。具體來說,該計劃包含兩個子計劃,一個稱為RADAR,由卡內基梅隆大學單獨承擔,其目標為研制出一種軟件,它“通過與其人類主人的交互,并且通過接收明晰的建議和指令來學習”、“將幫助繁忙的管理人員處理耗時的任務”。另一個子計劃稱為CALO,牽頭單位為斯坦福國際研究院,參加單位包括麻省理工學院、斯坦福大學、卡內基梅隆大學、加州大學伯克利分校、華盛頓大學、密歇根大學、德克薩斯大學奧斯汀分校、波音公司等20家單位,首期投資即達2千2百萬美元。顯然,CALO是整個PAL計劃的核心,因為其參加單位不僅包含了美國在計算機科學和人工智能方面具有強大力量的主要高校以及波音公司這樣的企業界巨頭,其經費還占據了PAL計劃整個首期投資的76%。DARPA沒有明確公布CALO的目標,,但從其描述[15]可見端倪:“CALO軟件將通過與為其提供指令的用戶一起工作來進行學習 … 它將能夠處理常規任務,還能夠在突發事件發生時提供協助”,考慮到911之后美國對突發事件處理能力的重視,以及波音公司對該計劃的參與,該計劃的(部分)成果很可能會用于反恐任務。DARPA還說[15],“CALO的名字源于拉丁文calonis,含義是‘戰士的助手”,而且DARPA 曾在網站上放置了這樣一幅軍官與虛擬參謀人員討論戰局的畫面,可以預料,該計劃的(部分)成果會直接用于軍方。從上述情況來看,美國已經把對機器學習的研究上升到國家安全的角度來考慮。
                      如果要列出目前計算機科學中最活躍的研究分支,那么機器學習和數據挖掘必然位列其中。隨著機器學習和數據挖掘技術被應用到越來越多的領域,可以預見,機器學習和數據挖掘不僅將為研究者提供越來越大的研究空間,還將給應用者帶來越來越多的回報。
                      對發展如此迅速的機器學習和數據挖掘領域,要概述其研究進展或發展動向是相當困難的,感興趣的讀者不妨參考近年來機器學習和數據挖掘方面一些重要會議和期刊發表的論文。在機器學習方面,最重要的學術會議是NIPS、ICML、ECML和COLT,最重要的學術期刊是《Machine Learning》和《Journal of Machine Learning Research》;在數據挖掘方面,最重要的學術會議是SIGKDD、ICDM、SDM、PKDD和PAKDD,最重要的學術期刊是《Data Mining and Knowledge Discovery》和《IEEE Transactions on Knowledge and Data Engineering》。此外,人工智能領域的頂級會議如IJCAI和AAAI、數據庫領域的頂級會議如SIGMOD、VLDB、ICDE,以及一些頂級期刊如《Artificial Intelligence》、《Journal of Artificial Intelligence Research》、《IEEE Transactions on Pattern Analysis and Machine Intelligence》、《Neural Computation》等也經常發表機器學習和數據挖掘方面的論文。
                      參 考 文 獻
                      [1] T. M. Mitchell. Machine Learning, New York: McGraw-Hill, 1997.
                      [2] U. Fayyad, G. Piatetsky-Shapiro, R. Smyth. Knowledge discovery and data mining: Towards a unifying framework. In: Proc. KDD’96, Portland, OR, 82-88.
                      [3] E. Mjolsness, D. DeCoste. Machine learning for science: State of the art and future prospects. Science, 2001, 293(5537): 2051-2055.
                      [4] R. S. Michalski, J. G. Carbonell, T. M. Mitchell, eds. Machine Learning: An Artificial Intelligence Approach, Palo Alto, CA: Tioga Publishing Co., 1983.
                      [5] J. G. Carbonell, ed. Machine Learning: Paradigms and Methods, Cambridge, MA: MIT Press, 1990.
                      [6] P. R. Cohen, E. A. Feigenbaum, eds. The Handbook of Artificial Intelligence, vol.3, New York: William Kaufmann, 1983.
                      [7] S. H. Muggleton, ed. Inductive Logic Programming, London: Academic Press, 1992.
                      [8] D. E. Rumelhart, J. L. McClelland, eds. Parallel Distributed Processing: Explorations in the Microstructure of Cognition, Cambridge, MA: MIT Press, 1986.
                      [9] V. N. Vapnik, Statistical Learning Theory, New York: Wiley, 1998.
                      [10] T. G. Dietterich. Machine learning research: Four current directions. AI Magazine, 1997, 18(4): 97-136.
                      [11] J. Han, M. Kamber, Data Mining: Concepts and Techniques, 2nd edition, Singapore: Elsevier, 2006.
                      [12] Z.-H. Zhou. Three perspectives of data mining. Artificial Intelligence, 2003, 143(1): 139-146.
                      [13] P.-N. Tan, M. Steinbach, V. Kumar, Introduction to Data Mining, Reading, MA: Addison-Wesley, 2006.
                      [14] DARPA News Release. DARPA, Jul. 2003. 9
                      [15] CALO Overview. DARPA, 2003.
                      作者介紹:
                      周志華,南京大學計算機科學與技術系教授,博士生導師,教育部長江學者特聘教授。2000年于南京大學計算機科學與技術系獲博士學位。中國計算機學會人工智能與模式識別專業委員會副主任。主要研究領域為人工智能,機器學習,數據挖掘等。
                      10

                      標簽: 數據分析與處理   .

                      閱讀() | 評論() | | 推薦 | 舉報

                      我 頂 覺得精彩就頂一下,頂的多了,文章將出現在更重要的位置上。

                      免責聲明:本文章由會員“何悅林”發布如果文章侵權,請聯系我們處理,本站僅提供信息存儲空間服務如因作品內容、版權和其他問題請于本站聯系
                      <address id="v5f1t"><meter id="v5f1t"><dfn id="v5f1t"></dfn></meter></address>

                      <nobr id="v5f1t"><i id="v5f1t"><em id="v5f1t"></em></i></nobr>
                          <font id="v5f1t"></font>

                        <font id="v5f1t"><ruby id="v5f1t"></ruby></font>

                          <listing id="v5f1t"></listing>

                            <dfn id="v5f1t"><ruby id="v5f1t"><form id="v5f1t"></form></ruby></dfn>

                                <dfn id="v5f1t"></dfn>

                                <progress id="v5f1t"><b id="v5f1t"><strike id="v5f1t"></strike></b></progress>

                                  <font id="v5f1t"></font>

                                          国产成人h片视频在线观看