logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

谷歌发布史上最大「机器人、视觉和语言“通才”」模型:PaLM-E 562B

2023年3月6日,Robotics at Google、柏林工业大学和 Google Research 团队提出了一个具身多模态语言模型 PaLM-E,通过 PaLM-540B 语言模型与 ViT-22B 视觉Transformer模型相结合,足足有5620亿参数,可以称之为「史上最大视觉语言模型(VLM)」,无需特殊训练就可执行各种任务。PaLM-E 不仅可以理解图像,还能理解、生成语言,而且

文章图片
#机器人#人工智能
正值AI大模型繁忙期:Mistral再开源8×22B大模型,OpenAI发布「视觉版」GPT-4 Turbo,谷歌重磅发布Gemini 1.5 Pro,Meta确认开源大模型LLaMA 3

根据科技外媒The Information4月8日发布的报道,作为对标GPT-4的大模型,LLaMA 3的大规模版本参数量可能超过1400亿,而最大的LLaMA 2版本的参数量为700亿。同一天,OpenAI发布了 GPT-4 Turbo with Vision,这是最新的 GPT-4 Turbo 模型,具有视觉功能,可处理用户上传的照片、绘图和其他图像。4月10日,Mixtral-8×7B-Mo

文章图片
#人工智能
数据预处理:离散特征编码方法

文章目录数据预处理:离散特征编码方法无监督方法:1.序号编码OrdinalEncoder2.独热编码OneHotEncoder3.二进制编码BinaryEncoder4.计数编码CountEncoder5.哈希编码HashingEncoder6.BaseNEncoder7.Sum Contrast8.Backward Difference Contrast9.Helmert Contrast10.

文章图片
#机器学习#人工智能#数据分析
全球最强端侧多模态模型!国产「面壁小钢炮」MiniCPM-Llama3-V 2.5 来了!

得益于 VisCPM 的跨语言泛化技术,在中英双语多模态能力的基础上,MiniCPM-Llama3-V 2.5 仅通过少量翻译的多模态数据的指令微调,高效泛化支持了德语、法语、西班牙语、意大利语、俄语等 30+ 种语言的多模态能力,几乎覆盖了所有一带一路的国家,意味着全球上百个国家的数十亿人口,都能与 MiniCPM-Llama3-V 2.5 丝滑交互。OCR 技术进一步打磨,复杂推理与多模态识别

文章图片
#人工智能
最新开源:开源科研神器 OpenScholar 来了!能检索4500万篇论文,科研效率提升10倍!

本质上,OpenScholar 是一个进行过检索增强(retrieval-augmented)的语言模型,外接一个包含4500万篇论文的数据库,性能可以优于专有系统,甚至媲美人类专家。为了方便自动化评估,研究团队还推出了全新的大规模基准 ScholarQABench,覆盖了CS、生物、物理等多个学科,用于评价模型在引用准确性、涵盖度和质量的等方面的表现。总体而言, OpenScholar 实现了S

文章图片
#人工智能
清华、北大团队推出 LLaVA-o1:首个自发性视觉 AI 模型

LLaVA-o1 拥有 110 亿个参数,基于 Llama-3.2-Vision-Instruct 模型开发,设计了总结(summary)、描述(caption)、推理(reasoning)和结论(conclusion)4 个推理阶段。LLaVA-o1(11B) 在六个具有挑战性的多模态基准测试中表现优异,超越了其他竞争者,如 Gemini-1.5-Pro、GPT-4o-mini 和 Llama-

文章图片
#人工智能
UC伯克利LLM排行榜(Chatbot Arena Leaderboard)再更新!GPT-4稳居第一,Vicuna-33B登顶开源模型第一

这表明开源模型仍有很大的改进空间。通过在聊天机器人竞技场运行2个月收集的一部分用户数据的分析,团队确定了用户提示的8个主要类别: 写作、角色扮演、提取、推理、数学、编码、知识一(STEM)和知识二(人文社科)。图注:用户与LLaMA-13B和Vicuna-13B之间的多轮对话,开始是MMLU基准中的问题和后续指令,然后将GPT-4与上下文一起呈现,比较谁的答案更好。另外,团队还发布了更新的Vicu

文章图片
#开源#Vicuna
常用的卷积神经网络【完整版】

文章目录1. CNN1.1 基本结构1.2 CNN 网络1.2.0 卷积和通道1.2.0.1 分组卷积(Group Convolution)1.2.0.2 Convolution VS Group Convolution1.2.0.3 Group Convolution的用途1.2.0.4 Depthwise Convolution && Pointwise Convolution

#计算机视觉#神经网络
最新开源:最强表格AI问世,浙大开源TableGPT2!

项目提供了不同 tokenizer 的推理代码和预训练模型,能够实现高达 2048 倍的总压缩率,同时保持较高的图像质量,并比现有的最先进方法快 12 倍。这些开源模型的性能大大超过了 GPT-4-Turbo(17.6%)和 GPT-4o(13.9%),也超过了之前在开源 LLM 上训练的 SOTA Web Agent(AutoWebGLM,18.2%)。最近,英伟达发布了新的视觉压缩工具——Co

文章图片
#人工智能
NLP基础——语言模型(LM)

文章目录NLP基础:语言模型(LM)1. 模型评估(概率估计)2. 平滑方法3. LM在拼写纠正(Spell Correction)中的应用NLP基础:语言模型(LM)语言模型(LM,Language Model)就是用来判断某个句子是否语义通顺。首先对句子进行分词,句子的概率可以表示为各个词的联合概率:P(s)=P(w1,w2,...,wn)P(s)=P(w_1,w_2,...,w_n)P(s)

#nlp#语言模型
    共 108 条
  • 1
  • 2
  • 3
  • 11
  • 请选择