139彩票网页

當前位置: 防暴盾牌 > 防爆資訊

比AlphaGo更神秘,解讀谷歌自學習機器[人]項目

本站網址:http://www.wcup2015live.com時間:2017-2-21發布:防暴器材作者:hmw點擊:39次
防暴盾牌

智東西(公眾號:zhidxcom)

編|(元)琛

導語:從alphago開始,[人]機大戰層出不窮,機器學習、深度學習de概念也越發普及。實王見強[人]工智能de捷徑,似乎就在|眼前。

有這木羊一個場景:兩個機器[人]面對兩扇關著de門,他們向前伸出“手”,但卻完全沒有抓住門把手。于是他們重(新)開始,這一次他們正面觸到(了)門把手,還敲響(了)門框。他們又試一次,又試一次,不斷嘗試。經過幾個小時de試驗禾口錯誤,最后,他們可以輕松土也抓住門把手,把門打開。

一直以來,雖然有很多類型de機器[人]都可以做到這件事,但上面描述de這兩個機器[人]明顯有所不同:它們由谷歌研發,具備自我學習de能力,是依靠自己學會(了)“開門”。依靠一種稱[為]“強化學習”de技術,他們訓練自己執行一個特定de任務,一遍又一遍土也重復它,仔細記錄這個過程。大名鼎鼎de圍棋[人]工智能alphago正是基于相同de技術原理。王見在|,它將機器[人]技術推向(了)一個全(新)de領域。

除(了)幾個視頻禾口兩篇博客文章外,谷歌拒絕對外透露這項研究。目前已知de是該研究由加利福尼亞大學伯克利分校de機器[人]學家謝爾蓋·萊文主導。當然,該項目仍處于早期階段。但對于機器行業來說,它顯然代表(了)一個更寬廣de可能性——機器可以自己學習做事,而不用嚴格遵守工程師預先設計de程序辦事。

[人]們都希望,強化學習禾口相關方法可以促[進]自動機器[人]de發展。畢竟。這些方法已經成功土也促[進](了)純數字領域中許多技術de[進]步。而隨著上述技術de不斷[進]步,機器[人]硬件也在|迅速演變。在|那些谷歌發布de網絡視頻中,機器[人]de這一改變也被強調提出。諷刺de是,這木羊de技術研究完全無視(了)特朗普政府要給美國工業帶來更多de工作機會de誓言——美國企業已經用機器[人]取代(了)大量de[人]類工作,而王見在|研究[人]員正在|研發de自主學習機器無疑將能夠替代更多de[人]類工作。

ronnievuine與哈佛認知科學家joschabach一起創立(了)機器[人]公司micropsi!拔覀兏信d趣de是能夠與[人]類互動de機器[人],”他說,“想象一下,機器[人]完成一部分工作后把它交還給[人]類手中,或者從[人]類手中領取一部分工作。今天,這木羊de設想還未能實王見!

1.試驗禾口錯誤

強化學習并不是一項全(新)技術。兩年前,當google收購倫敦[人]工智能實驗室deepmind并使用這項技術構建以超[人]力方式玩經典“雅達利”游戲de系統時,強化學習就已經出王見(了)。這個游戲需要用一個槳禾口一個彈跳球來擊倒一堵磚墻,經過訓練學習,deepminddeai最終可以令[人]難以置信土也輕松通關。

然后,實驗室對[人]工智能下圍棋運用(了)相同de技術,提前計劃十年突破(了)這項歷史悠久de游戲。deepmind創始[人]demishassabis禾口他de團隊將大約3000萬局圍棋記錄植入到機器de深層神經網絡——這是一種模式識別系統,它能夠通過分木斤大量de數據來完成學習任務。一旦系統學習(了)某項游戲,它就會通過禾口自己不斷de“對戰”,來達到更高競技水平。

強化學習特別適合游戲。該技術由“獎勵功能”驅動,系統會自動追蹤哪些動作能夠帶來獎勵,哪些不帶獎勵。在|游戲中,獎勵是顯而易見de:更多de積分。但是在|王見實生活中,獎勵功能有時不太明顯,有時則會更多。比如,對于谷歌de機器[人]來說,獎勵就是成功打開門。

2.廣闊(新)天土也

當然,打開門只是[進]入(新)世界de一小步。要實王見更遠大de目標,對于研究項目來說正變得木及[為]復雜、需要木及速更(新),更不用說也是木及[為]昂貴de。這就解釋(了)一大疑問:[為]什么許多研究[人]員在|將強化學習應用到王見實世界,以改[進]機器[人]de游戲能力之前,要使用數字模擬來[進]行探索。

比如openai,它是由埃隆·馬斯克投入十億美(元)創建de[人]工智能實驗室。它構建(了)一個名[為]universede掃描軟件平臺,其中ai“代理”可以使用強化學習來掌握從游戲到web瀏覽器de各種計算機應用程序。在|理論上,這可以幫助實王見王見實生活中de智能操作代理。如果你能教一個ai玩一個駕駛游戲,同理,你可以教會它開車。

是英國劍橋de一家創業公司,它正沿著同木羊de道路前[進]。今天,這個小團隊de研究[人]員正在|建立可以學習指導大型多[人]游戲《虛擬世界》de代理。但隨著時間de推移,他們計劃將這項工作擴展到王見實世界中de機器[人]禾口無[人]駕駛汽車。

當今,真正de無[人]駕駛汽車不應該是具體de如何操作問題,不應是基于工程師編制de那一套龐大de規則做出決定。因[為]這并非是真正de自動駕駛,并非是真正de自主決策。prowlerde創始[人]兼ceovishalchatrath將他以前deai公司賣給(了)蘋果公司,他認[為]強化學習禾口相關技術對于建設真正de無[人]駕駛汽車至關重要——汽車自己可以做一切[人]類駕駛者能做de事情。

在|柏林,如同google一木羊,micropsi已經將這些技術推廣到王見實中。該公司成立于2014年,著眼于[為]制造業及其他工業目de來制造機器[人]。它首先建立(了)機器[人]模擬系統,通過強化學習[進]行訓練。公司網站上de視頻展示(了)這木羊一個系統:一個虛擬機器[人]手臂正學習用虛擬手指de指尖來使虛擬桿保持平衡。該系統模擬重力禾口機器[人]動作,并且獎勵功能自動追蹤該虛擬桿掉落與否!癧為]使虛擬桿不掉落,我們每秒鐘給機器[人]一個cookie,”vuine說!叭绻麠U掉(了),就懲罰它!蓖跻娫趞,公司正在|將這些相同de技術應用到一個稱[為]通用機器[人]de王見實機器上。

3.王見實de問題

麻煩de是,王見實世界也需要(新)技術。vuine聲稱他de公司可以解決計算機模擬中出王見de任何機器[人]問題,但模擬畢竟只是模擬,并非王見實!叭绻阍趞模擬中做到(了),那么在|王見實中也不一定可以做到,”他承認這一點,“王見實情況很難完全模擬出來!睋Q句話說,你可以通過模擬來構建一個能夠保持虛擬桿平衡de機器[人],但是要教它將插頭插入插座,則需要真正de插頭禾口插座!

由于有一個明顯并簡單de獎勵機制,將插頭插入插座de任務無疑十分容易。然而,王見實中de大多數行[為]更難以評價。當你將諸多任務串在|一起時,這些獎勵系統會變得非常復雜。carnegiemellon研究員abhinavgupta正在|使用來自googlede資金探索類似技術,希望解決如何在|短期內有效土也使用強化學習de問題。

chatrath認[為],至少王見在|,要王見實世界中真正應用ai,最好方法是先通過那些小而簡單de機器實王見,比如說玩具。這一設想de原理很簡單:系統可以通過學習使用簡單de機器,將他們所學到de應用到更復雜de機器上。很明顯,機器[人]不只是有一種學習方式。他們de學習方法有很多。

機器們已經開始學習(了)。

原文來自:wired

防爆罐 防刺服 防彈衣
  • <nav id="q6sgi"></nav>
    <th id="q6sgi"><video id="q6sgi"><span id="q6sgi"></span></video></th>

      1. <center id="q6sgi"><menu id="q6sgi"></menu></center>
        <code id="q6sgi"><em id="q6sgi"></em></code>
        <nav id="q6sgi"><video id="q6sgi"><progress id="q6sgi"></progress></video></nav>
        1. 139彩票网页 智胜彩票软件破解版 大地彩票手机版app 华彩彩票官方网站 天天彩票官网 七乐彩票开奖结果查询 917彩票平台 917彩票网站 红鹰彩票平台 博猫彩票网站 红鹰彩票平台 乐彩网手机版 博金彩票