
简介
微信公众号:@蚝油菜花 如果你也关注大模型发展现状,或对大模型应用开发非常感兴趣,很期待你的关注,我会每日分享最新的热点资讯和开源模型实例。
擅长的技术栈
可提供的服务
分享大模型与AI领域的最新应用和热点信息,提供开源实例和实用教程,帮助快速上手AI技术。
本文介绍由DeepWisdom与香港科技大学联合研发的SPO框架,通过自我监督机制实现大语言模型提示优化,仅需3个样本即可达到SOTA效果,优化成本降低至传统方法的1.1%-5.6%。

阿里巴巴开源 mPLUG-DocOwl 1.5,专注 OCR-free 文档理解,基于统一结构学习,强化图像结构信息理解,多任务覆盖文档、表格等,性能领先。

PSHuman 是一种先进的单图像3D人像重建技术,仅需一张照片即可生成高度逼真的3D模型,支持面部细节、全身姿态和纹理恢复,适用于影视、游戏、虚拟现实等多个领域。

Valley 是字节跳动推出的多模态大模型,能够处理文本、图像和视频数据,在电子商务和短视频领域表现优异,并在 OpenCompass 测试中排名第二。

腾讯推出的开源视频生成模型HunyuanVideo,拥有130亿参数,是目前参数量最大的开源视频模型之一。该模型具备物理模拟、高文本语义还原度、动作一致性和电影级画质等特性,能生成带有背景音乐的视频,推动了视频生成技术的发展和应用。

Hunyuan3D 2.0 是腾讯推出的大规模 3D 资产生成系统,专注于从文本和图像生成高分辨率的 3D 模型,支持几何生成和纹理合成。

OpenAI o3-mini是OpenAI推出的全新推理模型,专为科学、数学和编程等技术领域优化,支持三种推理强度,灵活调整性能。

LitServe 是基于 FastAPI 的高性能 AI 模型部署引擎,支持批处理、流式处理和 GPU 自动扩展,简化了模型部署流程,速度至少是 FastAPI 的两倍,适用于多种 AI 模型部署。

VideoLLaMA3 是阿里巴巴开源的多模态基础模型,专注于图像和视频理解,支持多语言生成、视频内容分析和视觉问答任务,适用于多种应用场景。

GraphAgent 是香港大学和香港科技大学联合推出的智能图形语言助手,能够处理结构化和非结构化数据,并通过知识图谱展示复杂关系。
