logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

google突然就发布了Gemini

然后会把Gemini放到Pixel手机上,Pixel 8 pro是第一款搭载Gemini Nano的智能手机,拥有一些强大的特性,比如能总结录音app里的内容,还会在放到GBoard的智能回复里,从Whatsapp开始,明年会放到更多消息类应用。Gemini是原生多模态大模型,是谷歌大模型新时代的第一步,它包括三种量级:能力最强的Gemini Ultra,适用于多任务的Gemini Pro,以及适

文章图片
#AI
我在生活中能用到人工智能吗

人工智能这个词儿已经很早了,太远的不说,就说我十几年前的专业就是人工智能方向的,那时候还没有用到现在深度学习这一套,还是处于逻辑分析应用和优化各种算法到业务的传统方法。然而,现在提起人工智能,直接潜移默化地就变成了CHATGPT、STABLE DIFFUSION、MidJourney等等这些工具了,对,我说的是工具,都不是算法或者技术了。这就是人工智能突然进化一大截的证明,不光停留在专业场景层面,

文章图片
#人工智能
填坑 3D gaussian splatting里SIBR_viewers的安装

那剩下的就是我把这个链接地址给换掉了,反正就是换成了可以访问的到,并且就是要下载的那个资源。因为3DGS生成的模型要跑起来得用到GPU,所以一开始我就只能用它带的viewer,结果装了半天装不上,上篇文章评论里我看大家也遇到了吧。然后再编译,就成功了,安装完,所有的view软件都装在这个目录的install/bin里了。然后不出意外,就编译报错了,就是因为编译过程需要用个插件是github上的,结

文章图片
#AIGC
3D Gaussian Splatting的使用

Gaussian splatting 快速生成自己屋子的模型

文章图片
#计算机视觉#github
语音识别神器 Whisper 的几个小技巧

综述所述,最后就固定一个prompt的写法,就能解决标点符号和繁体字问题。以下是普通话的句子,这是一段会议记录。如果想输出繁体字,上面内容就全用繁体字写。后半句写语音的内容概括,并且一定要加上句号。祝大家成功!

文章图片
#语音识别#人工智能
很厉害的语音克隆TTS:coqui-ai TTS的使用过程

我录了几句话,十几秒的音频,然后就能克隆输出了,我用GPU,速度很快,3秒内就输出了,当然这和传的音频还有合成文字的长度有关系。这一串tts_models--multilingual--multi-dataset--xtts_v2 是程序自动创建的目录,如果模型下载失败,这个目录会直接删掉的,注意。coqui-ai开源的TTS,它的特色我总结为:可以上传自己的一段人声音频(哪怕就几句),它就能给你

文章图片
#语音识别#人工智能
语音识别神器 Whisper 的几个小技巧

综述所述,最后就固定一个prompt的写法,就能解决标点符号和繁体字问题。以下是普通话的句子,这是一段会议记录。如果想输出繁体字,上面内容就全用繁体字写。后半句写语音的内容概括,并且一定要加上句号。祝大家成功!

文章图片
#语音识别#人工智能
到底了