博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
词向量相关总结
阅读量:4147 次
发布时间:2019-05-25

本文共 1206 字,大约阅读时间需要 4 分钟。

最近准备把词向量相关知识串一下,会持续更

主要参考:

  • unigram模型:所有的词都是相互独立的
    P ( w 1 , w 2 , . . . , w n ) = ∏ i = 1 n P ( w i ) P(w_1,w_2,...,w_n)= \prod_{i=1}^n P(w_i) P(w1,w2,...,wn)=i=1nP(wi)
  • bigram模型:每一个词仅与前一个词相关
    P ( w 1 , w 2 , . . . , w n ) = ∏ i = 2 n P ( w i ∣ w i − 1 ) P(w_1,w_2,...,w_n)= \prod_{i=2}^n P(w_i|w_{i-1}) P(w1,w2,...,wn)=i=2nP(wiwi1)
  • ngram模型缺点:1.缺乏长期的依赖,因为只能建模到n-1个词,2.随着n的加大,计算和存储要求呈指数上涨,3.单纯基于统计词频,泛化能力差。
  • One-Hot编码:一个词为一个One-Hot向量,即一个位置是1,其余位置都是0,这种表示方法的最大缺点在于没办法表示出词语之间的相似性。
  • CBOW(Continuous Bag of Words):根据上下文预测中心词,每一个词会学习到两个向量,一个是词出现在上下文时的向量input vector ​v,和词出现在中心词时的向量output vector u:
  • Skip-gram模型:给定中心词,预测或者生成上下文词。
  • word2vec:其实是一种工具,支持它的两个模型为CBOW和Skip-gram,该类方法缺点是基于固定大小的窗口,对局部的语料进行特征提取。
  • GloVe:首先根据语料库去构建一个co-ocurrence matrix共现矩阵,其中每一个元素代表单词和上下文词在特定的上下文窗口内共同出现的次数,并且GloVe还提出了一个 decreasing weighting ,就是基于两个词在上下文窗口中的距离d,去给一个权重1/d,也就是说距离远的两个词,占总计数的权重就小;构建词向量和共现矩阵之间的近似关系。
  • Transformer结构:
    1.自注意力层:在编码某个单词时,就是将所有单词的表示(值向量)进行加权求和,而权重是通过该词的表示(键向量)与被编码词表示(查询向量)的点积并通过softmax得到
    在这里插入图片描述
    在这里插入图片描述
    2.多头注意力:它给出了注意力层的多个“表示子空间”(representation subspaces)。对于“多头”注意机制,我们有多个查询/键/值权重矩阵集(Transformer使用八个注意力头,因此我们对于每个编码器/解码器有八个矩阵集合)。这些集合中的每一个都是随机初始化的,在训练之后,每个集合都被用来将输入词嵌入(或来自较低编码器/解码器的向量)投影到不同的表示子空间中。
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    3.位置编码:加入词之间的位置信息
    在这里插入图片描述
    4.transformer每一层的机构图:
    在这里插入图片描述

转载地址:http://zmjti.baihongyu.com/

你可能感兴趣的文章
学会CSS3中的这几招,屌丝也能逆袭成为前端大神!
查看>>
HTML5+CSS3自制特效 | ul li横排显示效果、一闪一闪亮晶晶的动画特效、圆球分支斜线、圆形轨迹移动
查看>>
HTML5新增的拖放API
查看>>
bat脚本实现ftp文件传输以及如何运行jar包
查看>>
模板参数自动推导
查看>>
esmini接入外部ego车控制
查看>>
pscp 去掉 fingerprint
查看>>
法线和法线贴图
查看>>
select与pselect的信号屏蔽
查看>>
C++改变参数值的方式
查看>>
指针的运算
查看>>
计算机视觉、机器学习相关领域论文和源代码大集合(持续更新)
查看>>
收集的一些目标检测、跟踪、识别标准测试视频集和图像数据库
查看>>
特征选择常用算法综述
查看>>
gradient descent
查看>>
Multivariate Linear Regression
查看>>
Logistic Regression and Newton's Method
查看>>
regularized linear regression
查看>>
multithread(1)
查看>>
multiThread(2)
查看>>