logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

中科大发表TabPedia,使用大模型解析复杂表格数据,助力数据分析

TabPedia是一种新型的视觉语言大模型,它具备概念协同机制,可以无缝整合视觉表格理解任务,如表格检测、表格结构识别、表格查询和表格问答。为了验证TabPedia,本文建立了一个新的综合表格VQA基准ComTQA,包含约9000个QA对。通过在各种公共基准测试中进行广泛的定量和定性实验,验证了TabPedia的有效性和优越性。本研究验证了使用大模型来理解视觉表格的可行性。

文章图片
#数据分析#人工智能#深度学习 +3
多模态大模型技术点总结

BLIP2论文地址:https://arxiv.org/pdf/2301.12597(https://arxiv.org/pdf/2301.12597)发布时间:2023.06.15模型结构:论文主要提出Q-Former(Lightweight Querying Transformer)用于连接模态之间的gap。BLIP-2整体架构包括三个模块:视觉编码器、视觉和LLM的Adapter(Q-For

文章图片
#数据库#架构#人工智能 +2
【国内免费使用】谷歌最强大模型 Gemini Pro 1.5 超越 GPT-4

综上所述,谷歌的Gemini Pro 1.5无疑在技术创新和应用范围上超越了GPT-4。它不仅具有强大的语言理解能力和多模态处理能力,还能够高效地利用资源,满足多样化的用户需求。无论是在医疗、教育、金融还是创意产业,Gemini Pro 1.5都展现出了无与伦比的优势。相信在未来,随着技术的不断进步,Gemini Pro 1.5将会为我们的生活带来更多的便利和惊喜。

文章图片
#人工智能#百度
微软发布第四代Phi系列大模型,140亿参数的Phi-4 14B模型数学推理方面评测结果超过GPT 4o,复杂推理能力大幅增强

微软将大语言模型分为两类,参数较小的规模被称为小语言模型(Small Language Models, SLMs)。微软认为,使用高质量的数据集训练小规模参数语言模型,以达成更高的推理能力是很重要的一个方向。为此,微软发布了Phi系列的大语言模型。在2023年6月份,微软开源了第一代Phi模型,这个模型参数规模仅有13亿,这是一个纯粹的编程大模型,但是效果不错,三个月后,微软发布Phi-1.5模型

文章图片
#microsoft#人工智能#微服务 +3
高效多模态大模型与世界模型技术综述:多模态思维链、多模态指令调整、多模态上下文学习...

多模态大型模型(MLMs)正成为重要的研究焦点,它们结合了强大的大型语言模型和多模态学习,以在不同数据模态上执行复杂任务。本综述探讨了MLMs的最新发展和挑战,强调了它们在实现人工通用智能和作为通往世界模型的途径方面的潜力。我们提供了关键技术(如多模态思维链(M-COT)、多模态指令调整(M-IT)和多模态上下文学习(M-ICL))的概览。此外,我们讨论了多模态模型的基础和特定技术,突出了它们的应

文章图片
#学习#人工智能#深度学习 +2
本地部署大模型?看这篇就够了,Ollama 部署和实战

如果要使用的模型不在 Ollama 模型库怎么办?至此,我们一起走完了 Ollama 的部署和实战流程。在我看来,Ollama 也许是目前最便捷的大模型部署和使用工具,对小白非常友好。简单的命令行操作,用户即可快速启动和管理模型,极大降低了技术门槛,用户可以专注于模型的应用,而无需关注底层技术细节。此外,Ollama 的离线运行也为数据安全提供了保障。

文章图片
#人工智能#百度#语言模型 +1
揭示小规模SFT在R1-Style强化学习中的关键作用

我们提出一种解释性方法(re-distillation, 重蒸镏),用1K样本SFT可达到与R1-style RL相同的泛化性能,而后者采样次数超过100K。可压缩性质说明RL并非天然具有内在的泛化性优势,SFT也并非天然缺乏泛化能力。

文章图片
#java#数据库#前端 +2
AI的关键不是提示词而是上下文-谈从Prompt工程到Context工程

在前几天,Hacker News 的头条发表了一篇文章,核心观点是:决定 AI 代理效果的关键,已经从“写好提示词”转向了“上下文工程”。作者将上下文工程描述为一整套把信息在恰当时机、以恰当格式送入模型的技术手段,**包括 RAG 检索、工具调用、状态管理、分层摘要等**。评论区里,支持者列举了 VS Code Copilot Chat、AnyTool 等产品如何动态拼装上下文,也有人质疑这不过是

文章图片
#人工智能#大数据#知识图谱 +2
2025如何学习Agent?谷歌重磅发布Agent白皮书

2025 年将是 AI Agent 发展的重要一年。谷歌最近发布了一篇关于 Agent 的白皮书。以下是白皮书的主要内容:AI Agent 简介工具在 Agent 中的角色通过针对性学习提升模型性能使用 LangChain 快速上手智能体利用 Vertex AI Agents 构建生产级应用。✅ 什么是 Agent?他们将生成式 AI Agent 定义为“。⭐️ 组件以下是通用 Agent 架构及

文章图片
#学习#人工智能#知识图谱 +2
DeepSeek核心技术解码:图解MoE架构如何实现大模型的智能「分诊」系统

混合专家 (MoE) 是一种使用许多不同子模型(或「专家」)来提高 LLM 质量的技术。专家:每个 FFNN 层现在都有一组“专家”,可以从中选择一个子集。这些“专家”通常本身就是 FFNN。路由器或门网络:确定哪些令牌被发送给哪些专家。在具有 MoE 的 LLM 的每个层级中,我们都会找到(某种程度上专业的)专家。注意,我们这里提到的专家并不是专攻「心理学」或「数据」等特定领域的专家。它最多只是

文章图片
#架构#开源#语言模型 +1
    共 809 条
  • 1
  • 2
  • 3
  • 81
  • 请选择