成人国产在线免播放器最近|久久免费视频2000|日韩精品亚洲精品中文字幕乱伦AV|五月丁香乱伦图一本AV不卡1区

手機(jī)號(hào)
驗(yàn)證碼
立即登錄    忘記密碼? 注冊(cè)
手機(jī)號(hào)
郵箱
立即登錄    免費(fèi)注冊(cè) 找回密碼

9/17/2018 9:46:00 AM

機(jī)器翻譯研究人員熱衷于什么樣的內(nèi)容?

康奈爾大學(xué)的研究論文自動(dòng)化在線發(fā)布系統(tǒng)Arxiv.org是任何有興趣了解神經(jīng)機(jī)器翻譯(NMT)最新進(jìn)展的人士的豐富資源。從我們第一次寫(xiě)到關(guān)于提交給Arxiv的論文數(shù)量反映出來(lái)的學(xué)術(shù)NMT研究的急劇加速已經(jīng)差不多一年了,而且這種上升趨勢(shì)還在繼續(xù)

 

因此,在過(guò)去的105天中,直到上周中旬,有46篇關(guān)于NMT的研究論文被提交給Arxiv。難怪我們幾乎每隔一天就碰到一起 - 實(shí)際上每隔2.3天就會(huì)有一篇關(guān)于NMT的新文章。

 

經(jīng)過(guò)仔細(xì)檢查,基于這些NMT論文的主題,出現(xiàn)了關(guān)于研究方向的模式。根據(jù)對(duì)其內(nèi)容的粗略閱讀對(duì)研究論文進(jìn)行分類后,Slator決定根據(jù)意圖對(duì)其進(jìn)行分組,而不是結(jié)果。畢竟,幾乎每個(gè)研究方向都會(huì)產(chǎn)生相同的最終結(jié)果:NMT模型和總體產(chǎn)出的改進(jìn)。

 

免責(zé)聲明:Slator并不是學(xué)術(shù)研究和分類的最終權(quán)威,而這些類別旨在顯示研究人員正在采取的一般方向。

 

改進(jìn)NMT輸出

 

NMT最明顯的下一步也是研究最多的話題。最近在Arxiv上發(fā)表的46篇研究論文中有8篇涉及以某種方式改進(jìn)NMT產(chǎn)出。

 

有一些研究將前人基于短語(yǔ)的MT方法的方面應(yīng)用到當(dāng)前的NMT模型中,通過(guò)基于語(yǔ)法的權(quán)重改變解碼器的注意機(jī)制在本地的注意力的實(shí)驗(yàn),甚至應(yīng)用方法來(lái)幫助NMT模型處理更有創(chuàng)意的方面翻譯如處理成語(yǔ)。

 

事實(shí)上,已發(fā)表的46篇關(guān)于習(xí)語(yǔ)翻譯的論文有兩篇。一個(gè)人使用了慣用表達(dá)式的直接翻譯黑名單來(lái)識(shí)別測(cè)試集中的文字翻譯錯(cuò)誤。另一種方法在模型的訓(xùn)練數(shù)據(jù)中添加了慣用表達(dá)式,并對(duì)它們進(jìn)行了標(biāo)注以供識(shí)別。

解決培訓(xùn)數(shù)據(jù)限制

 

NMT模型被描述為數(shù)據(jù)饑餓,數(shù)據(jù)質(zhì)量越高,域內(nèi)語(yǔ)料越多,系統(tǒng)就會(huì)越好。

 

最近發(fā)表的46篇研究論文中有7篇研究了訓(xùn)練數(shù)據(jù)約束,試圖找出為什么NMT模型需要特定數(shù)據(jù)或如何解決現(xiàn)有的已知限制,如低資源語(yǔ)言。

 

已經(jīng)對(duì)僅使用部分對(duì)齊的語(yǔ)料庫(kù)訓(xùn)練NMT模型進(jìn)行了研究,了解訓(xùn)練數(shù)據(jù)中合成噪聲和自然噪聲如何打破NMT輸出流暢性,當(dāng)然也是最具挑戰(zhàn)性和迫切性的問(wèn)題:解決低資源語(yǔ)言的NMT問(wèn)題。其中一個(gè)例子是討論森林到序列模型的論文,該模型通過(guò)向訓(xùn)練數(shù)據(jù)添加語(yǔ)法信息來(lái)提高低資源語(yǔ)言的翻譯準(zhǔn)確性。另一個(gè)側(cè)重于使用外部詞匯的外部詞典來(lái)增強(qiáng)訓(xùn)練數(shù)據(jù)。

新的或改進(jìn)的NMT模型

 

遞歸神經(jīng)網(wǎng)絡(luò),卷積神經(jīng)網(wǎng)絡(luò)和自我注意變換器是當(dāng)今NMT系統(tǒng)使用的深度學(xué)習(xí)模型的主要類型。這并不意味著研究人員會(huì)停止尋找新的或改進(jìn)的模型。

 

實(shí)際上,有七篇研究論文只關(guān)注這一點(diǎn)。Salesforce加權(quán)的自我注意變壓器模型,他們聲稱將處理速度提高10倍就是這樣一種模型。另一個(gè)是亞馬遜的Sockeye,亞馬遜研究團(tuán)隊(duì)在去年年底與其他模式對(duì)抗。

 

其他研究主要集中在變分遞歸神經(jīng)機(jī)器翻譯和異步雙向解碼。

文檔級(jí)上下文

 

NMT注入文檔級(jí)上下文的研究也是一個(gè)熱門(mén)的方向,有6篇論文集中在這個(gè)任務(wù)上。

 

由于NMT的流暢度是逐句限制的,因此它不能使用源語(yǔ)句之外的語(yǔ)境來(lái)翻譯其文本。簡(jiǎn)而言之,它無(wú)法翻譯具有相同流利程度和充足性的整個(gè)文檔,因此不能翻譯其中的單個(gè)句子。

 

研究人員關(guān)注的一些方法包括:

 

    流解碼,來(lái)自先前翻譯的句子的預(yù)先存在的上下文的恒定流

 

    外部記憶與NMT模型結(jié)合使用

 

    使用緩存來(lái)充當(dāng)翻譯歷史或作為其他參考點(diǎn)

 

    基于解碼歷史,對(duì)NMT模型的關(guān)注機(jī)制應(yīng)用自適應(yīng)控制

 

后期編輯和模型學(xué)習(xí)

 

另外6篇研究論文涉及編輯后,在線和離線模型學(xué)習(xí)以及人的評(píng)估。

 

其中一篇論文是FacebookNMT通過(guò)非常簡(jiǎn)單的交互進(jìn)行后期編輯。還有關(guān)于離線記錄數(shù)據(jù)到在線NMT模型和在線機(jī)器學(xué)習(xí)的討論。

 

此外,還有兩篇論文著重于人類評(píng)價(jià),尤其是關(guān)于“ NMT在線適應(yīng)用戶后編輯的第一次用戶研究的論文以及一篇論文一種定量細(xì)粒度人工評(píng)估方法來(lái)比較不同性能MT系統(tǒng)。

研究的其他方向

 

除此之外,有五篇論文致力于改進(jìn)各個(gè)方面的NMT解碼編碼過(guò)程。這些通常圍繞提高速度或效率,或降低功耗或要求。

 

四篇研究論文涉及了解NMT模型內(nèi)部工作的各個(gè)方面。其他三篇論文涉及各種主題,例如關(guān)于隱私的文章,該文章提出了一種方法來(lái)保留翻譯或分析的句子的含義,而不會(huì)泄露有關(guān)該主題的任何敏感信息。

 

當(dāng)然,大多數(shù)語(yǔ)言行業(yè)從業(yè)者不需要在審查個(gè)別研究論文的過(guò)程中陷入漏洞。他們只是在他們的生產(chǎn)力工具中使用任何公開(kāi)可用的NMT門(mén)戶網(wǎng)站或NMT插件,并快速了解該技術(shù)的進(jìn)展情況。但是,仍然值得關(guān)注學(xué)術(shù)界正在發(fā)生的事情。畢竟,目前正在重塑行業(yè)的技術(shù)也開(kāi)始成為無(wú)害的研究論文。

 

為了理解當(dāng)前研究的方向,我們回顧了2018年前六周以及去年的最后幾個(gè)月研究庫(kù)中的NMT相關(guān)論文。從2017111日至2018214日,共有58篇相關(guān)論文。這些論文中有12篇并非直接關(guān)于NMT,而是專注于通過(guò)神經(jīng)網(wǎng)絡(luò)進(jìn)行機(jī)器學(xué)習(xí),或者關(guān)注自然語(yǔ)言處理等相鄰技術(shù)。

 

——選自:樂(lè)文翻譯

 

樂(lè)文翻譯目前是國(guó)內(nèi)專業(yè)的翻譯機(jī)構(gòu)之一,公司秉承“誠(chéng)信 專業(yè)的服務(wù)理念,為國(guó)內(nèi)外客戶提供一流服務(wù)。了解更多信息:請(qǐng)發(fā)郵箱:abc@lewene.com或直接致電:400-895-6679咨詢。

閱讀文章:積分+1