公告信息: | |||
采购项目名称 | 中国科学技术大学多语种语音识别数据库采购 | ||
品目 | 货物/通用设备/广播、电视、电影设备/音频设备/语音语言实验室设备 | ||
采购单位 | 中国科学技术大学 | ||
行政区域 | 蜀山区 | 公告时间 | 2021年04月23日 17:56 |
首次公告日期 | 2021年04月16日 | 更正日期 | 2021年04月23日 |
更正事项 | 采购文件 | ||
联系人及联系方式: | |||
项目联系人 | 刘志凌、魏思宇 | ||
项目联系电话 | 0551-62220268、62220264 | ||
采购单位 | 中国科学技术大学 | ||
采购单位地址 | 合肥市金寨路96号 | ||
采购单位联系方式 | 郭武:0551-63607871 | ||
代理机构名称 | 安徽省招标集团股份有限公司 | ||
代理机构地址 | 合肥市包河大道236号 | ||
代理机构联系方式 | 应急客服电话:0551-62220153(接听时间:8:30-12:00,13:30-17:30,节假日除外。潜在投标人应优先拨打项目联系人联系电话,无人接听时再拨打该“应急客服电话”) |
一、项目基本情况
原公告的采购项目编号:ZF2021-06-0148
原公告的采购项目名称:中国科学技术大学多语种语音识别数据库采购
首次公告日期:2021年04月16日
二、更正信息
更正事项:采购文件
更正内容:
我公司现对中国科学技术大学多语种语音识别数据库采购招标文件做出如下答疑澄清。此次答疑澄清作为招标文件的组成部分,具有同等效力。答疑澄清与招标文件不同之处,按本次答疑澄清内容执行。
项目答疑澄清内容如下:
【评标办法部分】
1. 招标文件详细评审标准中“拟派实施团队”成员是否可以是劳动签约主体为关联公司的正式员工?
答:招标文件详细评审标准中“拟派实施团队”成员须为投标人或其全资子公司员工。如为投标人全资子公司员工,除招标文件中要求的相关证明材料,另须提供可证明投标人及其全资子公司股权关系的“国家企业信用信息公示系统”截图。
2.投标人承诺组建不少于10 人的实施团队,其中外语专业本科,其中项目团队能否为非外语专业,但具备以下条件之一:1外语院校毕业;2国外院校毕业;3具备外语水平资格证书的工作人员?满足以上条件是否可满足得4分?
答: 不予修改,执行原招标文件。
【数据采集部分】
1. 采集设备:按照以往合作经验,普通手机无法达到贵司的音频参数要求,现有两个方案想与贵司沟通是否可行:
方案一、与贵司协商,由贵司指定手机型号(如高端机型)
方案二、更换为麦克风采集,并强制要求一定需要用麦克风进行采集?
答:高端机型可以达到音频参数要求。
2. 音频参数:贵司要求16kHz 采样率,16bit 编码大小,单声道,44 字节头信息,标准 wav 格式
贵司是否有额外的参数要求,如果有则需要与贵司明确该项参数是否均为常规参数,可直接从音频属性中直接获得?或者需要专业软件由人工评估得到?
答:音频参数要求为16kHz 采样率,16bit 编码大小,单声道,44 字节头信息,标准 wav 格式,除此之外没有额外参数要求。
3.录音环境:针对贵司要求,录音环境是否可以为家居环境、办公场景等,实际采集环境背景噪音低于50分贝,混响低于1.5s,音频无明显回音、无电噪、喷麦、截幅、能量缺失等现象。
答:录音环境可以为家居环境、办公场景,但不限于此;采集环境可以为背景噪音低于50分贝,人声大于噪声,信噪比大于10db;不接受混响低于1.5s,音频要求无混响。
4. 性别:个别涉及到阿拉伯语国家或伊斯兰国家,女性采集困难,按以往经验,男女比一般是9:1,这种特殊国家,贵司是否可以接受性别比例差异,如男女比例9:1。
答:不接受男9:女1 。执行原招标文件。
5. 采集工具:贵司是否有指定的采集工具,如可使用百度APP采集,则我司仅需进行数据处理,如果非我方APP采集,则需要在数据质检前对回收数据进行参数检测、时长检测等,会增加相应的开发成本以及开发周期。
答:不指定采集工具。
6. 句数要求:贵司要求单人录音数据不高于 1000 句,根据百度以往经验,单人限制在300-500句是一个比较好的状态,这个数量是否符合贵司要求?
答:单人录音数据不高于 1000 句的均符合要求。
7. 语音重复率:要求单个语种语音内容重复率不高于 5%,需辛苦贵司明确判定重复率的标准,是检测文字重复,还是其他内容相似?
答:重复率的标准是检测文字重复(去除标点)。
8. 历史数据库重复率:采购人历史数据库重复率检测如何进行判定,我方是否能在采集前知晓历史数据库情况,以避免重复。
答:投标人按照招标文件技术规格要求开展项目实施工作,基本不会出现与历史数据库重复的数据。
9. 第三方检测机构:贵司是否能指定一些具有 CMA 或 CNAS 检测资质的第三方检测机构,经过初步调研,大部分第三方检测机构都针对食品、产品等,没有对于数据的检测,因此希望贵司能指定符合要求的机构,或者看贵司有什么其他的建议。
答:不指定第三方检测机构。
10. 验收规则:贵司是先验收采集数据还是直接验收标注后的数据?
答:招标文件采购需求及技术规格要求有采集和标注两个步骤的资源制作要求的,投标人需交付标注后的成品数据给采购人验收,采购人会对音频和标注内容同时做验收。
【数据标注部分】
音频采标相关——
1. 项目需求因为是采集标注一体的,在【语音识别采购需求】、【语言数据库采购需求】中的数据库一、四文档中提到语音有效时长需控制在2秒-8秒以内,总时长需控制在2秒-10秒。这个是按照语句切分好的吗?送标的数据是严格的控制在这个范围吗?如果超出这个范围我们是否需要在标注时裁切?短句是否需要切分出真正有效的部分?
答:“语音有效时长需控制在2秒-8秒以内,总时长需控制在2秒-10秒。”指的是单句录音采集时就需要控制这个时间要求。送标数据不接受裁剪/切分。
2. 对标注切分的精确度有具体的要求吗?比如0.5s
答:包5、包6中对标注切分的精确度要求在1秒以内。
其他标包中采集标注一体的数据类型,不可以对采集数据进行切分。
3. 每个子项目是采集采完数据后贵司确认数据是否合格我们再进行标注?还是采集采完我们去审核并标注,整体的结果再给到贵司去验收呢?
答:招标文件采购需求及技术规格要求有采集和标注两个步骤的资源制作要求的,投标人需交付标注后的成品数据给采购人验收,采购人会对音频和标注内容同时做验收。
项目运转相关——
1. 项目验收贵司是否可在百度众测平台上进行人工验收?
答:不接受。
2.交付时间是指供应商标注完提交验收,贵司验收合格后未返回数据前的一个时间节点?还是对应批次数据完整交付返回到贵司后的时间节点?如果是后者,在验收和交付过程中若因为贵司验收不及时或其他贵司影响因素导致项目数据延期交付,那交付规定的时间上是否可以调整?
答:数据交付里程碑时间点是指交付对应量级的数据且经过采购人验收合格。在验收和交付过程中,采购人会组建专职团队进行验收。
标注细节相关——
1. 音频中若存在听不清楚的情况需要怎么处理?听不清楚情况有以下两种——情况a:模糊不清;情况b: 截断。
(1)可以推断。例:今天出去玩。这句话中的“今”字只念了一半,需完整标注处理还是省略这一半的字不标?
(2)不可以判断。例:--出去玩。这句话中只听到一个尾音,不能判断昨天、今天还是明天,应如何标注?
答:(1)答复:
1)招标文件采购需求及技术规格要求中有采集和标注两个步骤的资源制作要求的,上述两种情况系录音操作不符合招标文件技术规格要求,该数据会验收不合格。
2)针对包5、包6中,一个字节模糊不清和截断的情况,按照推断的标注,例如“今天出去玩”;大于一个字节的,可以切分。
(2)答复:
1)招标文件采购需求及技术规格要求中有采集和标注两个步骤的资源制作要求的,上述情况系录音操作不符合招标文件技术规格要求,该数据会验收不合格。
2)针对包5、包6中, 1个字节模糊不清和截断的情况,仅标注“出去玩”即可 ;大于一个字节的,可以切分。
2. 音频对话中存在重叠的情况,应如何处理?重叠有以下两种情况——
情况a:能听清主说人的话。例:甲(主说人):晚饭吃什么?乙:我正在考虑吃什么?甲和乙的音色相近,无法分清两句话是否是两个人说的~
情况b:不能听清主说人讲的话。例:甲和乙同时都在说话,语句重叠在一起,应该如何标注?
答:1)招标文件采购需求及技术规格要求中有采集和标注两个步骤的资源制作要求的,上述情况系录音操作不符合招标文件技术规格要求,该数据会验收不合格。
2)针对包5、包6中,双人说话重叠,且没有说话先后顺序的数据直接舍弃,不算有效时长。
3. 音频中若存在结巴情况,应如何处理?情况a:词语重复。例:一起吃饭吗?一起一起一起。这种是按实际发音说了几次标几次还是根据意思标注一遍词语(一个一起)?
情况b:纯结巴。例:我我我我…很好。这种是按实际发音说了几次标几次还是根据意思标注一遍词语(一个我)?
答:重复/结巴多少次,就标注多少次。
更正日期:2021年04月23日
三、其他补充事宜
无
四、凡对本次公告内容提出询问,请按以下方式联系。
1.采购人信息
名 称:中国科学技术大学
地址:合肥市金寨路96号
联系方式:郭武:0551-63607871
2.采购代理机构信息
名 称:安徽省招标集团股份有限公司
地 址:合肥市包河大道236号
联系方式:应急客服电话:0551-62220153(接听时间:8:30-12:00,13:30-17:30,节假日除外。潜在投标人应优先拨打项目联系人联系电话,无人接听时再拨打该“应急客服电话”)
3.项目联系方式
项目联系人:刘志凌、魏思宇
电 话: 0551-62220268、62220264
ccgp