首页
/
每日頭條
/
生活
/
nlp工具分類
nlp工具分類
更新时间:2024-04-27 15:20:53

點擊上方關注,All in AI中國

nlp工具分類(揭示其在NLP任務中的最新性能)1

Transformer體系結構模型,特别是BERT,通過對一個在大型語料庫上以非監督方式預先訓練的模型進行微調,已經證明在許多NLP任務中非常有效。BERT模型将一系列單詞作為輸入,并生成一系列跨層的詞嵌入向量。這些詞嵌入向量考慮了單詞的上下文。

最近發表的兩篇論文

(1篇Finding Syntax with Structural Probes · John Hewitt

2篇Language, trees, and geometry in neural networks)

它們提供了一些幾何上的見解,解釋了為什麼BERT表現得這麼好。

下面是這些論文的一些重要發現

  • BERT的詞向量輸出編碼了豐富的語言結構。BERT在詞嵌入向量中對抽象語法樹進行了大緻的編碼,然後将其輸出到一個句子中。通過詞嵌入向量的線性變換可以恢複這些樹。
  • BERT似乎在互補子空間中對詞向量的語法和語義特征進行了編碼。
  • 一個單詞的不同含義有表示形式(由句子上下文決定),它們在空間上以細粒度的方式分隔

nlp工具分類(揭示其在NLP任務中的最新性能)2

從BERT詞向量中恢複句子中的解析樹

語言是由離散的結構組成的,符号(單詞)序列和句子的句法結構被捕捉到樹狀結構中。相比之下,神經網絡模型對連續數據進行操作——它們将符号信息轉換成高維空間中的向量。這些向量(詞嵌入向量)在長度/方向(例如word2vec、fasttext等)上捕獲語義相似性。

如上所述,最近的發現表明BERT字向量輸出了豐富的語言結構。在一個句子的向量輸出中編碼的是語法樹的幾何近似副本。句子中的單詞在高維空間中被給定位置,如果我們對這些單詞向量進行特定的轉換,這些位置之間的歐氏距離會映射到語法樹距離。從本質上講,我們可以通過使用特定的線性變換對單詞向量進行變換,然後在單詞向量之間的距離上找到最小生成樹,從而恢複句子的語法樹(以及具有方向邊的依賴樹)。

語法樹中的樹距(兩個節點之間的樹距是它們之間路徑上的邊數)和歐氏距離(最小生成樹中節點之間的距離由詞嵌入得到)之間的映射不是線性的。兩個單詞之間的語法樹距離對應于所提取的最小生成樹中相應節點之間的歐式距離的平方。第二篇論文給出了一個原因,為什麼它是歐氏距離的平方,而不是歐氏距離的平方(本節剩餘部分不是理解BERT模型的核心——可以跳過)。

nlp工具分類(揭示其在NLP任務中的最新性能)3

由于樹枝的關系,用等距法(映射保留距離)将一棵樹映射到歐幾裡德空間是不可能的。

例如,左邊節點A和B之間的樹距離為2 - d(A,X) d(X,B)

由于d(A,B) = d(A,X) d(X,B),在到歐幾裡德空間的等距映射中,A,X,B必須共線(X必須在連接A和B的直線上,才能滿足上述條件)

将同樣的參數應用到點A X C d(A,C) = d(A,X) d(X,C) A X C也必須是共線的。但這意味着B = C,這是一個矛盾的結論。

然而,從樹到平方距離有一個等距映射(勾股定理的嵌入),如下圖所示

nlp工具分類(揭示其在NLP任務中的最新性能)4

博客中也有更多的例子

nlp工具分類(揭示其在NLP任務中的最新性能)5

因此

nlp工具分類(揭示其在NLP任務中的最新性能)6

這個博客還有一些有趣的結果。例如,随機分支的樹,如果映射到一個足夠高維的空間,其中每個子節點與父節點被一個随機的單位高斯向量偏移,就近似于勾股定理的嵌入。一個實際的含義是上下文嵌入近似于勾股定理對句子依賴關系解析樹的嵌入。從距離的平方性質來看,我們可以從向量中恢複嵌入樹的整體形狀。

恢複樹的形狀(受節點間邊緣長度的影響)隻近似于理想樹—這種差異有一些模式。依賴關系之間的平均嵌入距離相差很大。目前還不清楚這些差異意味着什麼。可能是BERTs表示,除了依賴解析樹之外還有其他信息。

nlp工具分類(揭示其在NLP任務中的最新性能)7

順便提一句,如果我們對基因/蛋白質序列做同樣的實驗來檢查其中是否包含信息,不一定能證實實際的三維幾何配置,我們将會很有趣地看到一些異常的邊緣是接近的(部分/相同的/如上圖所示)。

語法樹也被捕獲在一個句子的attention 矩陣中

第二篇論文還顯示了句子的attention矩陣捕獲語法樹。比如我們看看這句“the old fox saw the new dog”,其中的單詞對“old,fox”。 我們可以通過從所有層中的attention矩陣獲取其對的标量值來構造向量(BERT基礎的12個層,每層有12個 attention heads),我們訓練線性分類器作為輸入model-wide 的attention 向量,如果兩個單詞之間存在關系以及關系的類型,則這些分類器表現得相當好(即使不是最先進的結果)表明句法信息在句子的attention 矩陣中可編碼。

nlp工具分類(揭示其在NLP任務中的最新性能)8

BERT似乎在它的嵌入中編碼語義特征

通過簡單地可視化die這樣的單詞在不同的上下文中的嵌入,我們可以看到詞義是如何影響嵌入的。

nlp工具分類(揭示其在NLP任務中的最新性能)9

一般情況下,embeddings這個詞表示

  • 單詞的不同含義是分開的(上面三個集群表示單詞"die")。詞義消歧就是通過這種分離來實現的
  • 在聚類中,似乎存在着更細微意義的分離(參見下面的嵌入詞"lie")。

nlp工具分類(揭示其在NLP任務中的最新性能)10

  • 與前面看到的位置表示語法類似,這裡的位置表示語義

第二篇論文聲稱,詞的感覺是在一個較低的維度空間中捕捉到的,盡管還不清楚這是如何做到的。根據這一觀察,它出現了一個向量,在互補子空間中同時編碼句法和語義信息

使用已發布代碼的實驗

第一篇論文的Github存儲庫有代碼,可以從上面描述的句子中恢複語法樹GitHub - john-hewitt/structural-probes: Codebase for testing whether hidden states of neural networks encode discrete structures.

從上面句子的詞嵌入向量中恢複的解析樹以及相同句子的依賴解析器輸出如下所示

nlp工具分類(揭示其在NLP任務中的最新性能)11

結論

今後将按照上述思路解構模型

是否可能揭示更多的語言結構(如解析樹)或更多的子空間

了解内部表示的幾何結構可能會發現改進模型體系結構的領域

,
Comments
Welcome to tft每日頭條 comments! Please keep conversations courteous and on-topic. To fosterproductive and respectful conversations, you may see comments from our Community Managers.
Sign up to post
Sort by
Show More Comments
推荐阅读
怎麼和雙子座女生聊天
怎麼和雙子座女生聊天
第一、要見風使舵。雙子座女生說變就變,所以一旦你察覺對方的情緒有所變化,你可一定要懂得見風使舵,千萬不要跟對方擰着來,不然你就等着對方跟你拜拜吧。第二、不要打斷對方。一旦對方在發表自己的言論時,你可不要不識時務的打斷對方,不然她可能會非常的生氣,因為雙子座女生可是擁有較強的表現欲望喲。第三、專注的看...
2024-04-27
老式鑄鐵管漏水怎麼辦
老式鑄鐵管漏水怎麼辦
1、可以使用環氧樹脂進行修補。先對老式鑄鐵管的漏水位置進行打磨,讓其保持幹淨,再把環氧樹脂刷在老式鑄鐵管的漏水位置,再使用白紗帶把漏水位置纏繞一圈,也可以使用玻璃絲帶來代替白紗帶。最後隻要在漏水位置再刷一層環氧樹脂即可。2、也可以把快幹水泥根據比例先調制好,再塗抹在老式鑄鐵管的漏水位置,然後使用物品對水泥抹層進行臨時固定,讓水泥可以和管道緊密的貼合在一起,避免出現掉落現象,當水泥固化以後,就可以把
2024-04-27
有機矽是什麼材料
有機矽是什麼材料
1、有機矽,即有機矽化合物,是指含有Si-C鍵、且至少有一個有機基是直接與矽原子相連的化合物,習慣上...
2024-04-27
費列羅寓意
費列羅寓意
送費列羅巧克力代表愛情。費列羅巧克力吃到口中的時候,濃濃的巧克力味,就像濃濃的愛情一樣。若正處于熱戀的狀态,就可以在重大節日的時候,把它作為禮物贈送給另一半。其把這個禮物贈送給自己的另一半非常有效果,因為現在的很多女生都比較喜歡吃巧克力。送費列羅巧克力代表友情。其實很多人認為他們生活中最珍貴的就是友情了,一塊巧克力吃到嘴中,所有的巧克力就融合在一起了,相互交織。就像生活中的友情一樣,很多時候都離不
2024-04-27
泡荔枝的水是什麼
泡荔枝的水是什麼
泡荔枝的水可以是冰水或者鹽水。把荔枝浸泡在冰塊或冰水裡,這樣做主要是為了保鮮;荔枝肉含有荔枝酸等成分,鹽水能起到分解荔枝酸等成分的作用。吃了泡過鹽水的荔枝,體内的酸性物質不容易積聚過多,可防止體内代謝性酸中毒,不容易上火。荔枝的營養含量:荔枝營養豐富,含葡萄糖、蔗糖、蛋白質、脂肪以及維生素A、B、C等,并含葉酸、精氨酸、色氨酸等各種營養素,對人體健康十分有益。荔枝具有健脾生津,理氣止痛之功效,适用
2024-04-27
Copyright 2023-2024 - www.tftnews.com All Rights Reserved