用户可以随心所欲自定义桌崽的形象、声线、性格。
想怎么捏,就怎么捏。
只需上传一张图片,辅以一段文字描述,就能获得独属于自己的3D的、可动的二次元小姐姐或小哥哥。
并且可以把崽崽们调教出自己的性格。
有的爱吃醋,有的很傲娇。
据了解,“捏人”这个自定义功能不是桌崽最开始就有的。但该功能上线后,广受好评。
直接拿数据说话——创始人Adam表示,有了捏人功能后,用户的留存直接提升了1.5倍。
不过,目前能“捏”的范围,还停留在二次元品类中。
“但我们希望最终这款产品能够把任何东西‘桌宠化’,不只局限在人。”Adam举例表示,家里去了喵星的猫猫,或者一架直升机,未来都可以成为用户的AI桌崽。
三款自研大模型
当然了,比起其它所有的功能,根据用户数据反馈的结果,大家最喜欢的还是「AI陪我玩游戏」的感觉。
作为一个多模态陪伴平台,满足“懂你”的需求,离不开背后支撑的大模型。
分别为以下几个,均为自研:
多模态游戏陪玩大模型
“ChatGPT有一个功能是会建议你下一步说什么话,在用户输入问题之前就给用户提供ta下一步可能需要的答案。”创始人Adam表示,脸谱心智自研的多模态游戏陪伴大模型,就是在做视觉版、游戏攻略版的这个功能。
顾名思义,这款大模型主要功能是陪玩。
具体操作过程中,是经用户授权后,模型把游戏画面、游戏音效和用户带有各种情绪的声音作为输入,从而给予和游戏进度同频的个性化反馈。
利用这个模型,崽崽们可以提供情绪价值,以及为用户推荐相应攻略。
二次元视频生成大模型
而团队自研的视频生成模型,主要运用在捏崽,即自定义桌崽的动态3D形象这个步骤。
用户使用过程中,需要喂一张希望生成的崽崽的图像作为输入,以此生成动态形象。
需要注意的是,这个模型是专门针对二次元形象研发的。
相比写实风格的视频生成,二次元形象的数据更少,所以也更偏门,更难以训练,“Pika、可灵、Runway这些相比较而言更适合真实画风视频生成。”
事实真的如此吗?来看看和市面上视频生成模型的效果对比。
这是完成“图生视频”丢进去的那张图:
丢给hedra和heygen,都没能识别出面部:
丢给Pika,能眨眼,但肢体上几乎没啥“动态”可言:
来看AI视频届当红炸子鸡Luma的表现:
丢给runway 2……不多说,大家自己看:
这是丢给桌崽AI视频生成模型的效果:
相比其它视频生成模型,桌崽AI的自研模型在生成二次元形象的动态3D形象时,崩坏情况更少。
语音声线定制大模型
最后是语音声线定制模型,它支持用户自定义桌崽的声音。
Adam介绍,这个语音模型是以指令为输入的模型。
现在很多用户都会在桌崽里克隆自己喜欢的角色、人物甚至是真人的声音,这就需要提供几条音色样本。
从技术层面来说,要在桌崽AI这个平台实现音色克隆,其实就是在背后训练一个few shot的模型,只需要在原本的语音模型中加入几条样本——这些样本不仅仅是TTS的文本内容,还会加入一些对音色的文字描述。
加入本文信息后,会更好地淡化AI味,也更好地学习样本音色特点,完成克隆。
95后带队20名成员创业
桌崽AI,出自一家叫做脸谱心智的AI创业公司,成立于去年6月。
公司目前有20名员工,一半是产品运营,另一半是技术。
他们希望通过产品达到的目的,是“让天下没有寂寞和抑郁的人”。
创始人Adam,95后,本硕毕业于帝国理工学院。
在创业前,他在亚马逊、微软都工作过,主要工作更偏向研究性,聚焦在聊天机器人方向。
以前搞研究的时候,我就觉得这是一个非常棒的赛道。我自己非常想做一个很好的聊天机器人,但在实验室里做这件事情非常难。
不管是营销、本地化还是技术、产品,有很多要考虑,也不是一个实验室会选择的重点。
因此,离开大厂出来创业,是一件兴趣使然、很自然而然的事情。
有意思的是,他的创业启动资金几乎全部自他初中时期的第一桶金:卖游戏王卡牌,获利150万人民币。
创始人Adam表示,自己很喜欢赚钱,也很喜欢游戏,“二次元浓度很高的团队更能和玩家共情,也更能在打磨产品的时候清楚分辨哪些是玩家的声音。”
联合创始人Victor,同样本硕毕业于帝国理工学院生物医学工程(电子电器方向),后在剑桥大学拿下博士学位。
过去十几年来,他都倾心多模态领域的研究。
在我们的交谈中,Adam还提到,选游戏和二次元人群做切入点,是因为这是一个很快就被注意到的真需求。
团队的不足,更多在商业化和运营方面。为了补足这点,需要去不断地招贤纳才。
“并且我们自己也需要去学习,这些都很简单的。”Adam笑着表示,“投资人可能听到心里会有一个大大的‘真的吗?’。但是这比拿到一个PhD学位简单很多的。”
目前,”桌崽AI”主要面向PC端,不过据说手机版本也即将推出。
也许用不了多久,陪伴你的除了电脑手机,还会有一个AI驱动的专属桌面小伙伴。