聆思视觉语音大模型AI开发套件,基于CSK6系芯片打造,一套硬件即可接入星火大模型,并可自主接入DeepSeek等行业主流模型,本地搭载业界领先的语音及视觉算法,支持从功能调试到产品原型的一站式DIY开发验证,让AI创意从构思到量产只需“一块开发板”的距离!

大模型生态“全家桶 ”

全面接入星火大模型图片内容理解、语音生成图片、行业知识库问答、全能个人助理……多样化AI大模型能力,终身免费使用!支持自主接入主流大模型支持自主接入DeepSeek及Kimi、ChatGLM、Stable Diffusion、文心一言等行业主流模型,并配套八大主流模型接入教程,充分满足大模型开发需求。

超拟人交互“1秒 ”响应

极速响应大模型语音交互全链路响应仅需1秒。超拟人TTS采用大模型超拟人合成能力,音色更自然、情感丰富、语调灵动。声纹识别基于声纹特征识别用户,区分男女、成人、小孩、老人,实现个性化服务。

10+ 本地领先算法开箱即用

本地语音能力离线语音交互、语音合成……本地视觉能力人脸识别、头肩检测、手势识别、坐姿检测……本地认知AI能力中英翻译、字母拼读、中文分词……开箱即用、自由切换TF卡自带AI应用”全家桶“,无需更换硬件,轻松切换AI能力。

视觉语音大模型AI开发套件

本套件针对大模型视觉和语音交互的人工智能场景进行开发设计,集成摄像头、麦克风、扬声器、屏幕、网络组等外设配件,完成了星火大模型的对接且提供终身免费调用,同时还开放了来自量产产品使用的端侧语音识别、坐姿检测、人脸识别、头肩追踪、活体检测、语音合成、鼾声检测等十几种AI算法并支持离线使用。

适用人群

企业与个人开发者、技术创客、高校专业教师与学生、电子大赛参赛者·…

海量 AI应用开箱即用,自由切换

套件配套TF卡自带AI应用“全家桶”轻轻一划一点,即可随心切换。

全面对接星火大模型

通过拍照并提交给大模型理解,能识别图片中的物体、场景和动作。可用于工业设备巡检、门铃人物识别、儿童相机物体识别等场景。

语音生成图片

通过在线语音识别实时将语音转为文字,由大模型理解将你的想法生成对应的图片,可支持带屏故事机配图生成、手表表盘生成、智能面板背景生成等功能。

专属知识库问答

通过上传你的行业文档,可以让模型具备专属知识库的问答能力,能快速准确回答用户问题。可用于产品说明书问答,设备故障排查、商场信息问答等场景。

全能个人助理

借助大模型全领域知识储备,可以打造全能个人助理。可应用于智能音箱、故事机、学习机等产品。

大模型超拟人

超拟人发音

采用超拟人发音,大幅提升合成音频中的情绪表达能力,音色更自然、情感丰富、语调灵动,告别“播音腔,提供多个音色选择,可用于陪伴型机器人、玩具等产品。

声纹特征识别

通过声音特征区分儿童(男、女)、成人(男、女),分辨成员类别,实现个性化服务,如内容推荐、权限管理等。

大模型语音交互全链路1秒响应

深度优化音频生成速度,实现毫秒级响应;融合全新端侧降噪算法,音频处理速度提升7倍以上。

丰富的视觉AI能力

坐姿检测

可检测图像中人物的坐姿情况,返回各种不良的坐姿的识别结果和手臂、身体状态,可应用于坐姿检测仪、儿童学习台灯、学习桌等产品。

人脸识别

录入特定人脸,返回当前画面中的人脸是否已录入,及人脸在画面中的位置坐标、头部姿态等检测结果。可应用于人脸识别的门锁、门禁、闸机等产品。

活体识别

通过活体检测,避免人脸识别被照片突破。可应用于安防要求较高的人脸识别产品。

头肩跟踪

检测画面中是否存在人物的头肩,返回头肩所在位置坐标并进行跟踪。可应用于智能跟拍云台、三轴稳定器等产品。

手势识别

自动识别五种手势信息。

物体分类

对画面中的物体进行识别,目前支持100+种物体的识别。

精准的语音AI能力

语音合成TTS

将文字内容合成为语音并进行播放,支持使用文本标记功能,对合成语音的效果进行控制。可应用于公交报站、停车场、叫号机、考勤机等场景的语音。

拼读查词

通过语音拼读单词字母,快速准确地查询单词的发音和含义,可应用于扫描词典笔、单词卡、学习机等产品。

鼾声检测

对环境中的鼾声进行检测,并输出鼾声的可能性评分。可用于智能枕头、智能床垫等产品。

芯片内置高性能NPU

支持自主适配AI算法模型

配套为CSK芯片量身定做的AI训练推理工具LNN,AI算法快速、精确匹配芯片。自主量化训练+部署推理无缝衔接,15分钟完成算法迁移。

 

免责声明:凡注明为其它来源的信息均转自其它平台,目的在于传递更多信息,并不代表本站观点及立场。若有侵权或异议请联系我们处理。

相关推荐