
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
它的架构明显得益于先进的 OCR 功能,能够熟练地转录图像和文档中的文本内容,在解读图表和数字方面的性能也得到了提高。Idefics2 的一个突出特点是其全面的训练理念,它融合了公开可用的数据集,包括网络文档、图像字幕对和 OCR 数据。它的性能提升和技术创新凸显了将视觉和文本数据结合起来,创建复杂的、能感知上下文的人工智能系统的潜力。简化视觉特征与语言主干的整合,标志着 Idefics2 与其前

Sora 是 OpenAI 开发的AI视频生成模型,它能够根据用户的文本描述生成长达 60 秒、1080P 高质量视频,其中包含精细复杂的场景、生动的角色表情以及复杂的镜头运动。

据Stability AI称,这个模型能够处理通常只有大得多的模型才能完成的任务,这些大模型通常需要大量的计算和内存资源,比如大型的专家混合模型(Mixture-of-Experts, MoEs)。Stability AI已推出其Stable LM 2语言模型系列的最新成员:一个120亿参数的基础模型和一个经过指令调优的变体。通过这一新发布,Stability AI将StableLM 2系列扩展到

ChatGPT移动应用收入碾压竞争对手,2025年前7个月创收13.5亿美元,同比增长673%,月均收入达1.93亿美元。其下载量达6.9亿次,是Grok的17倍。美国用户单次下载消费10美元,贡献38%收入。数据表明ChatGPT在移动端占据绝对主导地位,其他AI助手短期内难以追赶。

ChatGPT移动应用收入碾压竞争对手,2025年前7个月创收13.5亿美元,同比增长673%,月均收入达1.93亿美元。其下载量达6.9亿次,是Grok的17倍。美国用户单次下载消费10美元,贡献38%收入。数据表明ChatGPT在移动端占据绝对主导地位,其他AI助手短期内难以追赶。

本周AI领域发生了音乐公司指控两家开发AI歌曲生成器的初创公司Udio和Suno侵犯版权的事件。美国音乐唱片行业协会(RIAA)周一宣布,由索尼音乐娱乐公司、环球音乐集团、华纳唱片公司等发起的诉讼已经提起。诉讼声称,Udio和Suno在未经音乐公司同意的情况下,使用这些公司的音乐训练生成型AI模型,要求每首涉嫌侵权的作品赔偿15万美元。唱片公司在投诉中表示,“合成音乐输出可能会使市场充斥机器生成的

OpenAI近期因GPT-5发布引发争议:先是承诺简化模型选择界面,后又恢复复杂选项,导致用户困惑。用户对AI模型表现出强烈情感依赖,如对下架GPT-4o的抗议。OpenAI承认需要改进个性化定制,但快速迭代策略导致体验不稳定。这反映出AI发展中的关键矛盾:技术迭代与用户体验的平衡、模型个性化需求,以及用户情感依赖这一新课题。虽然OpenAI仍在探索最佳方案,但事件揭示了AI产品开发中用户心理研究

【摘要】2025年8月5日,OpenAI时隔五年推出真正开源模型GPT-oss系列,包括1200亿参数的GPT-oss-120b和200亿参数的GPT-oss-20b。两款模型采用创新架构,性能接近闭源旗舰产品,支持工具调用和商用部署,遵循Apache2.0许可。此次开源标志着OpenAI战略转向,回应了市场对开源AI的需求。尽管迟于Meta等竞争对手,GPT-oss的发布仍为开发者提供了高性能开

通过对英文和中文数学基准测试(包括GSM8K、Math、MMLU-STEM、CMATH和高考数学)的严格评估,Qwen2-Math展现了其卓越的能力。值得注意的是,其旗舰模型Qwen2-Math-72B-Instruct在各种数学任务中的表现超过了GPT-4o和Claude 3.5等专有模型。这种对包容性的承诺旨在让全球受众都能获得先进的数学问题解决方案。Qwen团队指出:"Qwen2-Math-

给定一个主题文本和相关的视频库(该视频库可看做深度学习里的训练数据),生成的视频旨在描绘给定的叙述,提供多样化的视觉内容,并遵循电影摄影指导原则。Sora 的训练需要大量的视频数据,这些视频的数据量至少是以PB 为单位的。随着技术的发展,人们发现动态可扩展的Transformer架构运用在文生图模型或文生视频模型中是非常有意义且有效的,比如,Meta提出的Diffusion Transformer
