文献阅读
这里是论文的阅读记录
Benchmarking Large Language Models as AI Research Agents
GPT 找的2024会议盲审的 pdf,所以不知道作者是谁
- 让 LLM 执行训练机器学习 AI 的任务
- 用训练出的 AI
- 在相应数据集上的准确率
- LLM 怎么得到结果
- 用时,这三点来评价效果
- MLAgentBench - 作者搭建的让 LLM 能获取任务、执行代码、评测结果的框架(重点
- 结果:90% 的任务有性能提升,平均提升率 45%
- AI 的可靠性和鲁棒性有待提高
LARGE LANGUAGE MODELS AS GAMING AGENTS
也是 GPT 找的盲审(所以通过审核了吗
- 两个游戏:井字棋和德州扑克 - 完全信息游戏和不完全信息游戏(可以轻易判断输赢、生成过程
- 结果 - 大模型只比随机智能体好一点
- 本文揭示 LLM 不能在游戏中表现好的原因
- LLM lack gaming intents(不能 think ahead
- LLM suffer from hallucinations(幻觉)和事实错误(意识不到输赢
我试了,是真的(GPT 下井字棋下不过我
- 因此作者提出了一个 Think Ahead Language powered Gaming Agent (TALAGA).(这缩写比好多单词长吧
- 递归地预测对手行为
- 给预测的状态 reward signals
- 回溯到当前状态,根据 reward signals 选择行为
- outperforms ToT by 21%, CoT-SC by 17%, and CoT by 29%
- 指出用 Game 测评 LLM 可以 push 它突破限制
- 不足之处
- 考虑情况太少,只用了 GPT(其他大模型、其他游戏
Robust agents learn causal world models
Jonathan Richens - Google DeepMind &Tom Everitt Google DeepMind
(怎么就一个人
- 问题:因果推理在大模型的泛化中是否是必须的
- 作者的回答:在大量分布转移下能够满足遗憾界限的任何代理程序,必须已经学习了数据生成过程的近似因果模型(?感觉不是人类的语言了这个)
语音辅助的唇语识别研究
赵雅的博士学位论文
主要成果
- 初期 - 建立大规模普通话唇语数据集
- 唇语多义性 - 蒸馏语音辅助知识提升准确性
- 引入语音模态辅助信息带来的模态间异质性难题 - 基于语音与视频模态的上下文相关性,提升语音辅助唇语识别模型的准确性
- 说话人的身份和姿态 - 跨模态自监督预训练方法、“聚类-替换”操作解耦
一些概念记录
- 唇语识别系统包含 3 个组成部分:唇部定位、视觉特征提取和序列建模
- 理想的唇部视觉特征:
- 对噪声和环境变化(照明、变形、运动等)鲁棒;
- 可辨别性强,即不同类别之间的特征应该是可区分的,相同类别之间的特征应该尽可能相似;
- 特征数量和维度尽量少,但必须保证能代表说话人的内容;
- 独立于说话人。
- 特征提取方法
- 传统技术:基于像素的方法(低层)、基于形状的方法(ACM、高层)和混合特征方法(AAM)
- 深度学习:基于卷积神经网络(CNN,2D-动态特征图像、3D-加上时序)
-
序列建模
- 基于循环神经网路 - Seq2Seq 模型,注意力改善信息完整性,连接主义时序分类模型改善对齐
- 基于 Transformer - 也是 Seq2Seq 模型,自注意力机制计算特征(比 Bi-LSTM 效果更好
- 基于时间卷积网络
-
知识蒸馏 - 将一个模型学到的知识转移到另一个模型
- 基于标签(标签知识通常是指模型最后一层输出的、位于 softmax 前的特征,也就是 logits 概率分布
- 简单易懂,但无法获得中间层的监督信息(有时很重要
- 基于隐藏层特征 - “因素”
- 基于关系(特征图之间的内积来衡量这一对特征图之间的关系
- 基于标签(标签知识通常是指模型最后一层输出的、位于 softmax 前的特征,也就是 logits 概率分布
-
自监督学习 - 机器根据观察到的部分输入,预测该输入的任何部分
- 生成式
- 判别式
-
计划采样 - 在预测当前时间步的输出时,以一定概率采用前序时间步预测得到的标签作为输入
- 文章所用方法利用表示输入和输出序列之间对齐关系的编码器-解码器注意力分布计算跨模态变换矩阵
阅读中遇到的问题
- 一系列自监督模型的解释没看懂
- transformer 不太搞得懂
AUTO-AVSR: AUDIO-VISUAL SPEECH RECOGNITION WITH AUTOMATIC LABELS
- 人工标注数据集昂贵,用已有的准确度高的语音识别模型扩充所需的数据集,得到了很好的训练效果
- 跑了 github 上的代码