logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

多模态大模型串讲--BLIP2、LLaVA、Qwen-VL,tokenizer是什么及其作用

本文系统梳理了多模态大模型(MLLM)的核心技术架构与发展趋势。首先详细解析了Tokenizer的工作原理,包括文本和图像的分词方法(如BPE、ViT、VQ-VAE),并比较了不同模态的统一tokenization实现。随后重点分析了BLIP、BLIP-2、LLaVA等代表性视觉语言模型的技术特点:BLIP通过多模态混合架构统一理解与生成任务;BLIP-2创新性地采用轻量级Q-Former桥接冻结

文章图片
#人工智能#论文阅读
代表网络串讲(MLP BNN VGG ResNet SENet UNet 多模态CLIP Vilt YOLO RNN VAE GAN 扩散模型 LSTM GRU Transforme注意力 ViT)

本文系统梳理了深度学习领域的重要模型发展历程,从基础的多层感知机(MLP)到前沿的大规模预训练模型。首先介绍了MLP的基本原理和训练过程,包括防止过拟合的方法;随后重点分析了适合图像分类的经典网络(BNN、AlexNet、VGG16、GoogLeNet、ResNet、SENet)及其创新点;然后探讨了目标检测网络(R-CNN、YOLO、SSD)和图像生成网络(GAN、VAE、扩散模型)的算法特点;

文章图片
#深度学习#神经网络
自然语言处理nlp--2.词汇分析(中英文单词形态分析,汉字自动分词原则、算法,未登录词识别,词性标注方法,词汇分析性能评价,含python.jieba库分词实验代码)

自然语言处理中的词法分析与词性标注是NLP的基础任务,其中词法分析包括英语的形态还原(处理规则/不规则变化、特殊形式和合成词)和中文分词(解决歧义切分和未登录词识别),主要采用最大匹配法、最短路径法和统计语言模型等方法;词性标注则针对词性兼类问题,结合规则(如词缀和上下文规则)、统计模型(HMM、ME)和深度学习方法(BiLSTM-CRF、BERT),并依赖标准标注集(如北大和Penn Treeb

文章图片
#自然语言处理#人工智能
论文精读--《Chain-of-Thought Prompting Elicits Reasoning in LLMs》--CoT“开山鼻祖”,含CoT微调实验过程

原论文探索了思维链(Chain-of-Thought, CoT)提示方法如何显著提升大语言模型在复杂推理任务中的表现。通过提供包含中间推理步骤的示例,该方法能有效激发大型语言模型的推理能力。实验表明,CoT提示在算术、常识和符号推理任务上均能带来性能提升,具有任务普适性,尤其对大型模型(如540B参数的PaLM)效果显著。研究发现CoT推理能力是模型规模达到约100B参数时涌现的特性,且对提示示例

文章图片
#人工智能#论文阅读
论文串读--OpenAI-GPT系列1.2.3.4--大语言模型标准架构和预训练流程

本文系统梳理了GPT系列模型的技术演进路线,从GPT-1到GPT-4的核心技术始终基于Decoder-only Transformer架构。GPT-1首创无监督预训练+微调范式,通过任务特定输入表示实现迁移学习;GPT-2转向纯预训练,探索zero-shot能力;GPT-3突破性地提出few-shot上下文学习,利用1750亿参数实现元学习;GPT-4则实现多模态突破,通过RLHF提升对齐能力。

文章图片
#人工智能
自然语言处理nlp--9.情感分析(一般框架、公开数据集,含LSTM/SnowNLP代码示例)

情感分析是通过计算技术对带有情感色彩的主观性文本进行分析和推理的过程,旨在识别用户的态度和观点。其核心任务包括情感信息抽取和情感分类。该领域发展得益于公开评测如TREC、NTCIR和丰富的数据如Cornell、MPQA和情感词典如GI、HowNet。技术上,情感分析方法从早期的基于规则和词典的方法发展到如今的机器学习如LSTM、SVM、预训练语言模型,其中SnowNLP等库提供了开箱即用的解决方案

文章图片
#自然语言处理#人工智能#lstm
论文精读--《Continuous Sign Language Recognition with Correlation Network》使用相关网络进行连续手语识别--翻译+笔记+复现

原论文提出了一种用于连续手语识别(CSLR)的新型网络结构CorrNet,通过显式建模跨帧人体运动轨迹来提升识别性能。论文主要贡献包括:1) 设计相关模块动态计算相邻帧间的相关性图,捕获手部和面部等关键部位的运动轨迹;2) 提出识别模块利用多尺度时空卷积定位信息区域,强调重要身体部位;3) 将两个模块插入现有CSLR框架,在不依赖额外监督的情况下实现端到端训练。实验表明,CorrNet在四个数据集

文章图片
#人工智能#论文阅读
自然语言处理nlp--3.句法分析(依存句法分析、性能评价、汉英句法短语结构,含SpaCy\LTP\HanLP示例代码)

句法分析通过树状结构分析句子语法合规性,任务涵盖歧义消除和结构解析,依赖形式化语法(CFG、LFG、HPSG)和算法(CYK、移进-规约)。基于规则的方法受限于覆盖度和主观性,而依存语法以动词为中心,定义配价和支配关系,遵循Robinson四公理。spacy、LTP、Stanford CoreNLP和HanLP实现中英文依存分析,输出结构化结果及可视化树。汉语特点包括流水复句、缺少形态变化,需分层

文章图片
#自然语言处理#人工智能
自然语言处理nlp--5.语义分析(命名实体识别与关系抽取,含各自不同方法代码)

命名实体识别(NER)和关系抽取(RE)是语义分析的核心技术。NER识别文本中的人名、地名等实体,主要方法包括规则匹配、统计学习和深度学习;RE抽取实体间的语义关系,分为基于规则、监督学习、半监督和开放抽取等方法。两者共同支撑知识图谱构建和智能问答等应用,当前趋势是结合深度学习和弱监督技术,以提升模型泛化能力并降低标注成本。

文章图片
#自然语言处理#人工智能
《人工智能前沿》课程报告--论文精读--Seeing the Unseen: A Frequency Prompt Guided Transformer for Image Restoration

《看见未见之物:一种频率提示引导的用于图像修复的变换器》图像修复是计算机视觉中的重要任务,特别是在恶劣环境下,如雨天或雾霾中拍摄的图像。传统方法依赖空间信息,忽视频率成分,而频率成分对图像质量有重要影响。本文提出了一种基于频率提示的修复方法FPro,通过动态学习低通和高通滤波器解耦图像特征,利用频率提示调制器增强修复效果。与传统方法相比,FPro能更有效恢复图像细节和结构,尤其适用于复杂退化情况。

文章图片
#人工智能#论文阅读
    共 49 条
  • 1
  • 2
  • 3
  • 4
  • 5
  • 请选择