文献阅读

这里是论文的阅读记录

Benchmarking Large Language Models as AI Research Agents

GPT 找的2024会议盲审的 pdf，所以不知道作者是谁

让 LLM 执行训练机器学习 AI 的任务
用训练出的 AI
- 在相应数据集上的准确率
- LLM 怎么得到结果
- 用时，这三点来评价效果
MLAgentBench - 作者搭建的让 LLM 能获取任务、执行代码、评测结果的框架（重点
结果：90% 的任务有性能提升，平均提升率 45%
AI 的可靠性和鲁棒性有待提高

LARGE LANGUAGE MODELS AS GAMING AGENTS

也是 GPT 找的盲审（所以通过审核了吗

两个游戏：井字棋和德州扑克 - 完全信息游戏和不完全信息游戏（可以轻易判断输赢、生成过程
结果 - 大模型只比随机智能体好一点
本文揭示 LLM 不能在游戏中表现好的原因
- LLM lack gaming intents（不能 think ahead
- LLM suffer from hallucinations（幻觉）和事实错误（意识不到输赢

我试了，是真的（GPT 下井字棋下不过我

因此作者提出了一个 Think Ahead Language powered Gaming Agent (TALAGA).（这缩写比好多单词长吧
- 递归地预测对手行为
- 给预测的状态 reward signals
- 回溯到当前状态，根据 reward signals 选择行为
- outperforms ToT by 21%, CoT-SC by 17%, and CoT by 29%
指出用 Game 测评 LLM 可以 push 它突破限制
不足之处
- 考虑情况太少，只用了 GPT（其他大模型、其他游戏

Robust agents learn causal world models

Jonathan Richens - Google DeepMind &Tom Everitt Google DeepMind

（怎么就一个人

问题：因果推理在大模型的泛化中是否是必须的
作者的回答：在大量分布转移下能够满足遗憾界限的任何代理程序，必须已经学习了数据生成过程的近似因果模型（？感觉不是人类的语言了这个）

语音辅助的唇语识别研究

赵雅的博士学位论文

主要成果

初期 - 建立大规模普通话唇语数据集
唇语多义性 - 蒸馏语音辅助知识提升准确性
引入语音模态辅助信息带来的模态间异质性难题 - 基于语音与视频模态的上下文相关性，提升语音辅助唇语识别模型的准确性
说话人的身份和姿态 - 跨模态自监督预训练方法、“聚类-替换”操作解耦

一些概念记录

唇语识别系统包含 3 个组成部分：唇部定位、视觉特征提取和序列建模
理想的唇部视觉特征：
- 对噪声和环境变化（照明、变形、运动等）鲁棒；
- 可辨别性强，即不同类别之间的特征应该是可区分的，相同类别之间的特征应该尽可能相似；
- 特征数量和维度尽量少，但必须保证能代表说话人的内容；
- 独立于说话人。
特征提取方法
- 传统技术：基于像素的方法（低层）、基于形状的方法（ACM、高层）和混合特征方法（AAM）
- 深度学习：基于卷积神经网络（CNN，2D-动态特征图像、3D-加上时序）
序列建模
- 基于循环神经网路 - Seq2Seq 模型，注意力改善信息完整性，连接主义时序分类模型改善对齐
- 基于 Transformer - 也是 Seq2Seq 模型，自注意力机制计算特征（比 Bi-LSTM 效果更好
- 基于时间卷积网络
知识蒸馏 - 将一个模型学到的知识转移到另一个模型
- 基于标签（标签知识通常是指模型最后一层输出的、位于 softmax 前的特征，也就是 logits 概率分布
  - 简单易懂，但无法获得中间层的监督信息（有时很重要
- 基于隐藏层特征 - “因素”
- 基于关系（特征图之间的内积来衡量这一对特征图之间的关系
自监督学习 - 机器根据观察到的部分输入，预测该输入的任何部分
- 生成式
- 判别式
计划采样 - 在预测当前时间步的输出时，以一定概率采用前序时间步预测得到的标签作为输入
文章所用方法利用表示输入和输出序列之间对齐关系的编码器-解码器注意力分布计算跨模态变换矩阵

阅读中遇到的问题

一系列自监督模型的解释没看懂
transformer 不太搞得懂

AUTO-AVSR: AUDIO-VISUAL SPEECH RECOGNITION WITH AUTOMATIC LABELS

人工标注数据集昂贵，用已有的准确度高的语音识别模型扩充所需的数据集，得到了很好的训练效果
跑了 github 上的代码