九九热这里只有精品6,一级欧洲日韩,按摩久久电影,欧美日韩在线免费视频

阿帕比 全民數(shù)字閱讀

首頁(yè) ? 新聞動(dòng)態(tài) ? 公司新聞

湯幟:知識(shí)服務(wù)技術(shù)報(bào)告 ——2014中國(guó)數(shù)字圖書(shū)館可持續(xù)發(fā)展研討會(huì)主題報(bào)告

背景:2014年5月21日,由高等教育文獻(xiàn)保障系統(tǒng)(CALIS)管理中心、江蘇省高校圖書(shū)情報(bào)工作委員會(huì)和方正IT旗下的北京方正阿帕比技術(shù)有限公司(以下簡(jiǎn)稱(chēng)“方正阿帕比”)聯(lián)合主辦的“2014中國(guó)數(shù)字圖書(shū)館可持續(xù)發(fā)展研討會(huì)”在南京隆重召開(kāi)。數(shù)字出版技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室主任、北京大學(xué)計(jì)算機(jī)研究所研究員、北京方正阿帕比技術(shù)有限公司CTO湯幟做主題報(bào)告。
        以下為詳細(xì)內(nèi)容:
        湯幟:尊敬的各位來(lái)賓,大家好!我們今天會(huì)議的主題是探索與知識(shí)的距離。
說(shuō)到知識(shí)服務(wù)服務(wù)、管理這些詞,其實(shí)很久以前就出現(xiàn)了,在上世紀(jì)90年代就有人寫(xiě)書(shū)寫(xiě)論文寫(xiě)這些問(wèn)題,但是真正的知識(shí)服務(wù)技術(shù)是最近幾年的事情,為什么這么講呢?因?yàn)镮T技術(shù)的發(fā)展非常的快,使我們現(xiàn)在有條件能夠把這些大量的傳統(tǒng)的信息數(shù)據(jù)轉(zhuǎn)換成知識(shí)。這個(gè)圖我們可以看到這是一個(gè)國(guó)際上著名的IT咨詢(xún)公司總結(jié)的一個(gè)圖,它是把現(xiàn)在已經(jīng)影響當(dāng)今社會(huì)最大的四項(xiàng)顛覆性的技術(shù)描述在這里,其中包括移動(dòng)計(jì)算,我們很清楚的,每個(gè)人手里都拿著手機(jī)。還有社會(huì)計(jì)算,就是通過(guò)社會(huì)化網(wǎng)絡(luò),人機(jī)的協(xié)同來(lái)計(jì)算。還有一個(gè)就是云計(jì)算,再有一個(gè)就是大數(shù)據(jù),大數(shù)據(jù)的事情和我們的知識(shí)服務(wù)關(guān)系就更加密切了,曾經(jīng)OPPO的CEO說(shuō)過(guò),我們現(xiàn)在在互聯(lián)網(wǎng)產(chǎn)生的數(shù)據(jù)就相當(dāng)于人類(lèi)進(jìn)入信息以來(lái)到2013年產(chǎn)生的數(shù)據(jù),我們?cè)趺礃硬槐粩?shù)據(jù)給淹沒(méi)了?就需要把這個(gè)數(shù)據(jù)有機(jī)的組織起來(lái)。其實(shí)知識(shí)服務(wù)技術(shù)有很多,還是在繼續(xù)的研究和探索過(guò)程當(dāng)中,我們可以從今年發(fā)布的2015年度863指南就可以看到,其中2.2基于大數(shù)據(jù)的人類(lèi)智能關(guān)鍵技術(shù)與系統(tǒng)。CCF大數(shù)據(jù)專(zhuān)家委員會(huì)發(fā)布的《2014大數(shù)據(jù)發(fā)展趨勢(shì)預(yù)測(cè)》當(dāng)中可以看到,大數(shù)據(jù)分析與可視化,其中的熱點(diǎn)技術(shù)同樣和我們的知識(shí)技術(shù)非常密切。這里有深度學(xué)習(xí)技術(shù),自然語(yǔ)言處理,云計(jì)算等等。
        我們?cè)趺磥?lái)看待這些東西呢?首先可以從知識(shí)的處理流程來(lái)看,知識(shí)處理的路程,一個(gè)是知識(shí)的采集,知識(shí)的聚合,知識(shí)的挖掘,知識(shí)的存儲(chǔ),知識(shí)的利用,知識(shí)的評(píng)價(jià)。知識(shí)的采集是知識(shí)服務(wù)的一個(gè)源頭,數(shù)據(jù)首先要有來(lái)源,這個(gè)是從出版的領(lǐng)域,圖書(shū)館里都可以采集很當(dāng)多數(shù)據(jù),包括互聯(lián)網(wǎng)的數(shù)據(jù)。知識(shí)利用的出口——知識(shí)的評(píng)價(jià),對(duì)產(chǎn)生的知識(shí)數(shù)據(jù)更進(jìn)一步。通過(guò)讀者也好,通過(guò)各種各樣的評(píng)價(jià),利用社會(huì)計(jì)算的方式提高知識(shí)的質(zhì)量,或者產(chǎn)生新的知識(shí),進(jìn)入到下一個(gè)知識(shí)采集的循環(huán)里面去。
        其中最難的一件事是什么呢?我們?cè)诖罅康臄?shù)據(jù)里面,從顯性的知識(shí)和隱性的知識(shí)資源中提煉,涉及計(jì)算機(jī)的技術(shù)也有不少,包括自然語(yǔ)言處理技術(shù),數(shù)據(jù)挖掘的技術(shù),知識(shí)重組技術(shù)和語(yǔ)義網(wǎng)技術(shù)。在2000年之后,語(yǔ)義網(wǎng)技術(shù)已經(jīng)發(fā)展起來(lái),技術(shù)的應(yīng)用已經(jīng)逐漸的走向成熟。
        語(yǔ)義網(wǎng)技術(shù)是知識(shí)服務(wù)的技術(shù)的核心,這個(gè)很早就有了,從下面看包括了數(shù)據(jù)UII等等。有了這個(gè)數(shù)據(jù)描述框架還不夠,語(yǔ)義網(wǎng)的技術(shù)目的是要能夠讓計(jì)算機(jī)自動(dòng)的去計(jì)算,能夠識(shí)別,在這個(gè)基礎(chǔ)上發(fā)展出來(lái)的OWL語(yǔ)言。它相關(guān)的還有IDF數(shù)據(jù)的存儲(chǔ),以及IDF數(shù)據(jù)的查詢(xún)語(yǔ)言,這里組成了語(yǔ)義數(shù)據(jù)的存儲(chǔ)。
        語(yǔ)義網(wǎng)為網(wǎng)絡(luò)本題語(yǔ)言,把它本題的各種實(shí)體建立起一些關(guān)聯(lián)關(guān)系,后面的計(jì)算機(jī)就可以自動(dòng)化的處理,比如捕捉OWL的地址,里面包括了這個(gè)實(shí)體相關(guān)事件,居住地,地點(diǎn),國(guó)家等等,還有相關(guān)聯(lián)的關(guān)系,層次的關(guān)系等等,這些信息都可以通過(guò)一個(gè)OWL的方式進(jìn)行整體描述。這樣后續(xù)的服務(wù)可以提供更好的支持。這些數(shù)據(jù)都是用三聯(lián)組的方式描述的,數(shù)據(jù)和數(shù)據(jù)之間有很多的關(guān)聯(lián)關(guān)系,組成了一個(gè)網(wǎng)狀的圖,這樣的一個(gè)數(shù)據(jù)用傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)去描述就很困難,因?yàn)殛P(guān)系數(shù)據(jù)庫(kù)只能描述二維表格的數(shù)據(jù),而這個(gè)用一些新的技術(shù)手段進(jìn)行描述,利用數(shù)據(jù)庫(kù)提供更好的查詢(xún)、檢索和快速的找到相關(guān)的檢索數(shù)據(jù)。這是一個(gè)語(yǔ)義網(wǎng)里面很重要的一個(gè)方面。
        數(shù)據(jù)的查詢(xún),我們傳統(tǒng)的數(shù)據(jù)庫(kù)有SPARQL可以提供一個(gè)自然語(yǔ)言方式的查詢(xún),比如要查詢(xún)某某人大學(xué)校友的職業(yè)是什么,好幾個(gè)層次下來(lái)以后,傳統(tǒng)的檢索是很難去檢索這樣的事情,但是通過(guò)SPARQL語(yǔ)言,就很容易的把這樣一個(gè)自然的事情快速的檢索出來(lái),這是語(yǔ)義網(wǎng)帶來(lái)的一個(gè)好處。
        語(yǔ)義網(wǎng)的發(fā)展最近幾年已經(jīng)得到了比較多的應(yīng)用,這個(gè)圖我們看到的例子就是谷歌,它其實(shí)利用了繼續(xù)學(xué)習(xí)的方法,從網(wǎng)頁(yè)當(dāng)中發(fā)現(xiàn)了實(shí)體與實(shí)體之間的關(guān)系。
        谷歌發(fā)布了一個(gè)知識(shí)圖譜,搜索一個(gè)字條以后,除了傳統(tǒng)的谷歌條以外,在它的右邊也可以顯示出相關(guān)具體的信息,比如說(shuō)檢索居里夫人,在右邊的圖上直接可以看到居里夫人的出生年月,獲得的諾貝爾獎(jiǎng),這些信息很精確地就出來(lái)了。在有下放還有相關(guān)科學(xué)家的圖片和連接,這是把不同的視頻關(guān)系可以直接的展示出來(lái)。
        在國(guó)外的百度搜索里面也有一些類(lèi)似的技術(shù),比如在百度上搜一個(gè)不掉毛的狗,還直接給了一個(gè)直接查詢(xún)結(jié)果,這是實(shí)體的介紹。通過(guò)搜狗的智立方可以查到姚明的身高,這是語(yǔ)義網(wǎng)技術(shù)的推理,直接得到一個(gè)數(shù)據(jù)。從這個(gè)結(jié)果里面我們可以看到,直接搜索也可以出來(lái)這個(gè)結(jié)果,互聯(lián)網(wǎng)的智能是不是已經(jīng)非常發(fā)達(dá)了呢?其實(shí)答案是否定的。我們現(xiàn)在看到姚明的身高出來(lái)了,查我的身高到網(wǎng)上肯定查不到,輸入湯幟的身高出來(lái)的結(jié)果沒(méi)有一個(gè)我的身高數(shù)字。換一個(gè)詞,我們查湯幟的職稱(chēng),這個(gè)在互聯(lián)網(wǎng)上是有的,在北大的網(wǎng)頁(yè)上可以找到我的職稱(chēng),但是敲進(jìn)去還是一樣,這個(gè)網(wǎng)頁(yè)沒(méi)有那個(gè)職稱(chēng)信息,這是為什么呢?其實(shí)語(yǔ)義網(wǎng)技術(shù)可以把姚明的身高直接跳出來(lái),但是光有這個(gè)技術(shù)本身還不夠,需要有大量的實(shí)體數(shù)據(jù)才能夠把這些通過(guò)語(yǔ)義的推理找到,從這點(diǎn)上講,谷歌也好,搜狗也好,這些以往搜索的技術(shù)目前還是處于少量的熱門(mén)的一些詞可以找出來(lái),或者說(shuō)現(xiàn)在達(dá)到了技術(shù)展示的目的,達(dá)到一些娛樂(lè)大眾的目的,但是還不能達(dá)到真正的知識(shí)服務(wù)的目的。其實(shí)最難的是什么?最難的就是我們?cè)诖罅康臄?shù)據(jù)里面,特別是非提供化的數(shù)據(jù)里面怎么樣能夠便捷的很快速的找出它的實(shí)體,以及實(shí)體與實(shí)體之間的關(guān)系,這是很難的事情。
        阿帕比知識(shí)服務(wù)也是做了很多的研究和實(shí)踐。從技術(shù)上講,主要是我們做了這幾方面的事情,我們利用了語(yǔ)義網(wǎng)的技術(shù)創(chuàng)建了阿帕比服務(wù),對(duì)于我們很多的數(shù)據(jù)進(jìn)行了實(shí)際的提取,建立一個(gè)RBF數(shù)據(jù),在這個(gè)基礎(chǔ)上面,我們還利用數(shù)據(jù)挖掘的技術(shù),把這些數(shù)據(jù)和阿帕比資源進(jìn)行了連接。實(shí)體數(shù)據(jù)建立起來(lái)以后還需要展示的技術(shù)提供給娛樂(lè)服務(wù),包括檢索服務(wù)等等,這些是我們現(xiàn)在做的一些工作。這個(gè)圖就可以給大家看看阿帕比的知識(shí)服務(wù)技術(shù),可以看到技術(shù)流程。從左上角的半結(jié)構(gòu)化的文化和非結(jié)構(gòu)化的文本,還有工具書(shū)。半結(jié)構(gòu)化文本的數(shù)據(jù)比較好做一些。非結(jié)構(gòu)化的數(shù)據(jù)就比較多,我們大量的從出版社出版的圖書(shū)都是非結(jié)構(gòu)化的,這些數(shù)據(jù)其實(shí)是最難的數(shù)據(jù)。第三塊是工具書(shū),里面有很多的字典辭典,這些數(shù)據(jù)的抽取相對(duì)比較容易一些,這是處理的數(shù)據(jù)對(duì)象。我們還建立了阿帕比的知識(shí)架構(gòu),我們提供了一些相關(guān)的實(shí)體與實(shí)體關(guān)系之間的計(jì)算,建立了整個(gè)數(shù)據(jù)。這是知識(shí)服務(wù)技術(shù)相關(guān)的圖。
        基于這些技術(shù),我們已經(jīng)建立了大型的中英文數(shù)據(jù)的知識(shí)結(jié)構(gòu),這里面包含了2384個(gè)類(lèi),支持了的謂詞有8305個(gè),我們已經(jīng)建立了千萬(wàn)個(gè)數(shù)據(jù),已經(jīng)可以提供阿帕比相關(guān)的一些知識(shí)和服務(wù)。我們可能有人會(huì)問(wèn),剛才講的谷歌,百度,從這些技術(shù)非常強(qiáng)的公司知識(shí)提取方面也遇到了很多的困難,阿帕比到底怎么做呢?從技術(shù)上講,我們?cè)谝粋€(gè)非結(jié)構(gòu)化的數(shù)據(jù)里面找出實(shí)體,然后建立實(shí)體與實(shí)體之間的關(guān)聯(lián)關(guān)系,它的技術(shù)水平是大同小異,從學(xué)術(shù)界我們經(jīng)??吹接腥税l(fā)表了一個(gè)新的論文,提出了一個(gè)新的算法,最后一個(gè)數(shù)據(jù)的比較,效果提高了1%,甚至提高了百分之零點(diǎn)幾,這是我們經(jīng)??吹降囊粋€(gè)結(jié)果。但是從另外一個(gè)角度來(lái)講,實(shí)際的提取效果高1%,對(duì)人工的加工來(lái)說(shuō)沒(méi)有任何影響,加工量仍然是一樣的。所以我們必須尋找一些更好的方法,能夠快速的去建立這些實(shí)體關(guān)系,我們阿帕比有一個(gè)很大的優(yōu)勢(shì),就是我們有很多的資源,出版社很多已經(jīng)加工好的數(shù)據(jù),特別是工具書(shū)里面,我們有很多的百科全書(shū)和辭典數(shù)據(jù),這些數(shù)據(jù)都是已經(jīng)條目化了,每個(gè)詞條和它的解釋都是有密切的關(guān)聯(lián)關(guān)系。運(yùn)用這些工具書(shū)的信息,我們可以建立更好的快速的從這里面找到一些實(shí)體與實(shí)體的分析關(guān)系,可以達(dá)到更好的效果。這是我們做了實(shí)體關(guān)系計(jì)算的比較優(yōu)勢(shì)的技術(shù)。
        有了IBF數(shù)據(jù)以后,我們可以提供更好的展示,從這個(gè)圖可以看到,如果檢索到一個(gè)秦始皇這個(gè)詞就馬上有一些秦始皇精確的解釋?zhuān)錾暝拢褡宓鹊冗@些信息。我們也可以提供一些其他的詞,民族不是漢族的都有哪些人等等,屬性和類(lèi)別的關(guān)聯(lián)關(guān)系可以直接的給出來(lái)。還列出一些同齡的人,都可以通過(guò)這個(gè)知識(shí)服務(wù)的方式去提供。
        目前阿帕比的知識(shí)服務(wù)技術(shù)已經(jīng)用了相關(guān)的產(chǎn)品里面去,我們通過(guò)學(xué)知搜索就可以看到,這里面已經(jīng)采用了知識(shí)關(guān)聯(lián)和句群抽取,SVM分類(lèi)等。
        剛才主要講了一些語(yǔ)義網(wǎng)的技術(shù)和應(yīng)用,光有語(yǔ)義網(wǎng)是不夠的。這里的云計(jì)算都為知識(shí)提供措施,通過(guò)云計(jì)算可以隨時(shí)隨地的去享受知識(shí)的服務(wù),通過(guò)社會(huì)計(jì)算,我們除了剛才講實(shí)體提取的困難,也可以通過(guò)大量的社會(huì)計(jì)算的方式,使它的實(shí)體提取關(guān)聯(lián)做得更加的精準(zhǔn)。通過(guò)云計(jì)算,我們?yōu)橹R(shí)服務(wù)更加的高效和數(shù)據(jù)不斷的增長(zhǎng),創(chuàng)造一個(gè)更好的環(huán)境。
        這些知識(shí)服務(wù)提供了更多的應(yīng)用方式,比如說(shuō)通過(guò)知識(shí)服務(wù)圖譜,知識(shí)導(dǎo)航,個(gè)性化知識(shí)對(duì)接的方式給讀者提供服務(wù)。也可以通過(guò)語(yǔ)義搜索,提供結(jié)構(gòu)化的查詢(xún)和關(guān)系的查詢(xún)。在知識(shí)服務(wù)的時(shí)候,我們可以提供更多的檢索,比如輸入一個(gè)數(shù)學(xué)公式,有一個(gè)數(shù)學(xué)公式出來(lái),輸入一個(gè)化學(xué)公式式可以檢索出化學(xué)公式來(lái),輸入一些圖片可以搜出相關(guān)的圖片來(lái)。我們和其他的同類(lèi)算法做過(guò)一個(gè)比較,在整個(gè)的檢索效率上還是起到了作用。
        公式檢索還會(huì)想到一個(gè)問(wèn)題,輸入一個(gè)公式很困難,我們也實(shí)現(xiàn)了一個(gè)通過(guò)鼠標(biāo)鍵盤(pán)輸入一個(gè)公式的界面,這樣任何人都可以輸入公式了。此外,我們還可以做一個(gè)更加方便的公式輸入方法,在閱讀過(guò)程當(dāng)中看到一個(gè)數(shù)學(xué)公式,拉入這個(gè)框,直接就可以檢索出公式來(lái)了。
        最后想對(duì)阿帕比知識(shí)服務(wù)技術(shù)做一個(gè)簡(jiǎn)單的小結(jié)。通過(guò)我們的知識(shí)技術(shù)服務(wù)可以增強(qiáng)我們內(nèi)容的透明度,使用語(yǔ)義挖掘書(shū)本中藏得更深的內(nèi)容。通過(guò)知識(shí)服務(wù),我們還可以基于內(nèi)容相關(guān)技術(shù),把用戶(hù)檢索的知識(shí)點(diǎn)進(jìn)行相關(guān)知識(shí)的提示,通過(guò)一些圖的方式,列表的方式,可以獲得更多的結(jié)果,能擴(kuò)大一些知識(shí)面。我們通過(guò)知識(shí)結(jié)構(gòu),可以提供知識(shí)點(diǎn)的一些精確的屬性,而且我們還可以提供與自然語(yǔ)言為基礎(chǔ)的語(yǔ)義檢索。通過(guò)知識(shí)服務(wù),我們還可以通過(guò)知識(shí)的結(jié)構(gòu)構(gòu)建出更多未知的知識(shí),通過(guò)課題的屬性,通過(guò)相關(guān)的一些類(lèi)別??偟哪康木褪亲屪x者能夠更方便的,更加快捷的獲取更加多的知識(shí),這些知識(shí)服務(wù)技術(shù)已經(jīng)在剛才講的學(xué)知搜索里面應(yīng)用了。也會(huì)應(yīng)用到我們相關(guān)的技術(shù)服務(wù)。知識(shí)技術(shù)服務(wù)還是在不斷的發(fā)展當(dāng)中,阿帕比也愿意把這些知識(shí)服務(wù)技術(shù)不斷的開(kāi)發(fā),研究一些新的提高完善的技術(shù),為廣大讀者提供更好的服務(wù)。
欧美成综合网站com.| av无码综合| 国产欧美日韩免费看| 九幺传媒一区二区| 国产丰满老熟女三级| 日韩 你懂的 视频| 美女被操AV在线观看AV| 国产成人pron| 外国黄色电影一级片香蕉视频网站 | 打炮日BAV免费看| 亚洲 成人黄色| 亚洲一区综合| 欧美激情综合视频| 国产精品久久久久婷婷二区次| 日韩私人电影一区二区| 欧美图片区小说区视频区| 精品中文字幕亚洲精品| 天天干天天射天天澡| 香蕉亚洲午夜精品国产| 大奶子插曲视频完整版免费观看在线| 亚洲 欧美 一区 二区 综合精品| AV免费福利福利福利福利| 精品一区二区三人妻视频| 久久人妻3| www插插插无码视频网站| 欧美夜夜操嗨| 女同91在线| 草草午夜国产午夜| 亚洲夜夜草| 狠狠综合久久AV一区二区杨颖| 久久艹吃鸡巴视频| 国产三级片久久久久久下载| 久久久精品人妻系列无码平冈玲子| 美女户外擦逼逼| 欧美国产日韩版成人电影大鸡吧| 影片一区二区| 天天爱天天要天天操天天插| 制服无码麻豆传,| 9 1 视频在线| 999久久久久国际| 欧美激情在线免费观看视频|