Multimodal Machine Learning
模态在人机交互的背景下 模态是计算机和人之间的单一独立感官输入/输出通道的分类 如果系统仅实现一种模态 则将其指定为单模态 如果具有多个模态 则将其指定为多模态
多模态多模态指的是多种模态的信息(包括: 文本、视频、音频等) -> 多模态研究的就是这些不同类型的数据融合问题
多模态研究的是视觉语言问题,其任务是关于图像和文字的分类、问答、匹配、排序、定位等问题。
目标检测
NMS: Non-maximum suppression 即非极大值抑制在目标检测中的出镜率也很高呀。在目标检测中,不论是最初的region proposal,还是后来的anchor box,不可避免的一个问题就是对于同一个物体,会预测出多个bounding box。而NMS所做的就是去除掉多余的bounding box,只保留和ground truth重叠度最高的bounding box. (参考链接)
Bounding box regression: 其实就是对提取出来的不太准确的结果 进行微调调整为ground truth(参考链接)
Kalman Filter: 卡尔曼滤波法 简而理解的话就是 ...
pytorch
epoch:所有的训练样本输入到模型中称为一个epoch;
iteration:一批样本输入到模型中,成为一个Iteration;
batchszie:批大小,决定一个epoch有多少个Iteration;
迭代次数(iteration)=样本总数(epoch)/批尺寸(batchszie)
dataset (Dataset) – 决定数据从哪读取或者从何读取;
batch_size (python:int, optional) – 批尺寸(每次训练样本个数,默认为1)
shuffle (bool, optional) –每一个 epoch是否为乱序 (default: False);
num_workers (python:int, optional) – 是否多进程读取数据(默认为0);
drop_last (bool, optional) – 当样本数不能被batchsize整除时,最后一批数据是否舍弃(default: False)
pin_memory(bool, optional) - 如果为True会将数据放置到GPU上去(默认为false)
transfomer
Transformer - attention is all you need
layernorm: 每一个样本进行归一化
seqToseq模型
Encoder: 输入一个vector seq 输出另外一个 vector seq
Decoder:
Encoder的输出会输入Decoder
Decoder 看到的输入会是自身前一个的输出
Decoder 根据Encoder的输入 和 Decoder自己前一个的输入决定当前的输出(最开始的输入是Begin)
Decoder 的输出是一个一个产生(a1 a2 a3…) 而非一次性全部出现 所以会有withmask
Decoder 必须自己决定输出seq的长度 当Decoder输出到最后时 会根据Encoder的embeding 和 其自己之前的输出来判断当前是否输出End符号
NAT - Non-autoregressive: NAT一次性输入所有的begin 一次输出所有的结果 NAT忽略掉token后所有输出 从而确定每次输出的长度 但是NAT 通常其效果是不如 AT的
Cross Attention
Training
Copy ...
DLNotes
sigmoid 将所有值压缩到[0,1] 所以当input的输入变化很大时 通过sigmoid会将变化缩小至[0,1] 这个变化在network 层数越来越深时 其对于变化削减则越为明显对于这个问题的解决方法则是使用Relu 作为activation functionRelu 当input > 0时 output仍然是input 当input小于0时 output为0除此之外 Relu 由于函数简单 运算起来比sigmoid 快很多 且可以解决 Vanishing gradient problem的问题
Maxout 自动去学习 activation function , Relu 作为Maxout的一种特例
全连接层: 将特征整合到一起 输出为一个值 (全连接之前是特征提取)
learing rate: 学习率控制每一次迭代中梯度向损伤函数最优解移动的步长 其大小决定了网络学习速度快慢 在网络模型训练中 模型通过样本数据给出预测值 计算代价函数并通过反向传播来调整参数 重复上述过程直至模型参数逐步趋于最优解从而获得最优模型 在这个过程学习率控制每一步更新参数的步长 合适的学 ...
backpropagation
反向传播的这个反向过程就是利用根据节点的值 x 上游输出值 反向传播给下游
diary-2022-12-20
abb32f68827b16598088320c52df6dceed8d5732823a156d7b7dde0f3ca94ce092d793d245a28467421de433918fe97783ad87d643071b4aac7499e49ea5d4381e0064624190220d04ef98e0846cc340b317838685ec2d0257a5425bfdef7ecd9e788dade6781cb45b4ac1d6bd43e978fd16cb72fa694331a67f8ff722dffb14aab72e6896ff650d5259397a72346fd2ddd410f4006d3d56397c9b1b45482969ce61e6bd38d82118dba608ebfd01048537512b3583452b2c8f8136da476aade1c424c4d4ce8b36ae78f4ac19b370f987e2032c457ce1391c9954a9fa0025e70fae3f62b72c97a4f977f92f165537e25aef9bdb0f580c8ad53 ...
leetcode6268查询树中环的长度
原题链接:https://leetcode.cn/problems/cycle-length-queries-in-a-tree/
LCA 最长公共祖先问题LCA问题:根据完全二叉树的性质 越往下的节点值越大则从下往上的遍历的过程 即为值见减小的过程环长 = dist(LCA,a) + dist(LCA,b) + 1
1234567891011121314151617181920212223class Solution {public: vector<int> cycleLengthQueries(int n, vector<vector<int>>& queries) { vector<int>ans; for(int i = 0 ; i < queries.size() ; i++){ int a = queries[i][0], b = queries[i][1]; int res = 1; ...
leetcode6267添加边使所有节点度数为偶数
原题链接:https://leetcode.cn/problems/add-edges-to-make-degrees-of-all-nodes-even/
分类讨论这题基本上是图论的常规操作,但重要的是分清楚情况。最多添加两条额外的边使得所有点的度变为偶数则度为奇数的点数量x(x一定小于4) 有以下几种情况:
x > 4 return false
x = 4 时 a , b ,c ,d这四个点存在一对两个点之间不存在边 则可通过加两边方式使得奇数点均变为偶数否则不行
x = 2 时 a ,b 两个点如果两个点之间 不存在边则直接加边即可若两个点之间也存在点 则可通过加两条边的方式 将两个点都向那个点连一条边从而达成条件12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455565758596061626364656667686970717273747576777879808182838485#include ...
diary-2022-12-01
abb32f68827b16598088320c52df6dceed8d5732823a156d7b7dde0f3ca94ce092d793d245a28467421de433918fe97783ad87d643071b4aac7499e49ea5d4381e0064624190220d04ef98e0846cc340b317838685ec2d0257a5425bfdef7ecd9e788dade6781cb45b4ac1d6bd43e978fd16cb72fa694331a67f8ff722dffb14aab72e6896ff650d5259397a72346fd2ddd410f4006d3d56397c9b1b45482969ce61e6bd38d82118dba608ebfd01048537512b3583452b2c8f8136da476aade1c424c4d4ce8b36ae78f4ac19b370f9874e2e28509003cb6e4b59514b6281eb1404d286f4e91c8dd9234ab4fe41a1f0fc310cf44fcc1762cf1 ...
区块链基本概念
区块链的核心意义就是保证承诺不被违背
Immutable
Decentralized
Transparent
区块链的应用
DeFi
DAOs
NFTs