星环科技(688031):天健会计师事务所(特殊普通合泛亚电竞伙)关于星环信息科技(上海)股份有限公司向特定对象发行股票申请文件的审核问询函的回复
请保荐机构进行核查并发表明确意见,请申报会计师对问题(1)、(2)进行核查并发表明确意见。
(一) 公司前次募投项目投入进度较低的原因及合理性,各募投项目的实施进度是否符合预期,募集资金是否按计划投入,项目实施环境是否发生变化,是否存在重大不确定性
(1) 公司于2022年10月完成首次公开发行股票并上市,截至2023年6月末,公司前次募集资金到账时间尚不足9个月。虽然公司使用募集资金置换了2022年初以来预先投入的自筹资金,但由于公司上市前自有资金较为紧张,在募集资金到账前,公司适当控制了项目投资节奏。此外,受到去年外部环境因素影响,公司的研发、交付活动的开展受到了一定的阻碍,前次募集资金投资项目的投资进度也受到了一定的影响。
(2) 前次募集资金投资项目中分布式关系型数据库建设项目建设周期为5年,该项目投资规模占前次募集资金投资规模的36.18%,该项目实施周期相对较长,其实施进度也会相对较为缓慢。
(3) 由于公司实际募集资金到账规模低于拟投入的募集资金规模,为提高募集资金使用效率,公司尽可能利用目前设备资源,未在资金到账的第一时间安排设备购置,各项目设备采购进度低于原定计划,这也导致前次募集资金使用进度偏低。
2. 各募投项目的实施进度是否符合预期,募集资金是否按计划投入 截至2023年6月30日,公司各项目募集资金使用进度与招股说明书中募集资金中披露的使用计划安排对比如下:
募集资金实际使用金额低于招股说明书中披露的第一年计划投资额,除上文已提及原因外,主要系公司根据实际募集资金到账规模调整了项目投资安排。
公司首次公开发行股票原计划募集资金金额为196,053.38万元,实际募集资金净额为134,783.29万元。由于实际募集资金金额低于《首次公开发行股票并在科创板上市招股说明书》中拟投入的募集资金金额,2022年10月公司召开公司第一届董事会第十一次会议、第一届监事会第十次会议对于前次募集资金项目的募集资金投资规模进行了缩减。结合公司战略规划、2023年度向特定对象发行股票募集资金投资项目情况、首次公开发行股票募集资金实际使用情况,2023年6月公司召开第一届董事会第十六次会议、第一届监事会第十五次会议、2022年年度股东大会,对于前次募集资金总投资规模进行了调整,缩减各项目投资总额,不再使用自有或自筹资金予以投入,主要缩减的投资构成项目为场地使用费用、铺底流动资金、产品交付费用。其中,公司不再将场地购置费用列入前次募集资金投资总额,不再为前次募集资金投资项目专门投入铺底流动资金,适当缩减产品交付费用。
根据调整后的募集资金投资项目安排,若在原定计划中扣除场地购置、铺底流动资金,截至2023年6月末,分布式关系型数据库建设项目、数据开发与智能分析工具软件研发项目投资金额均已大幅超过第一年原计划投资金额,大数据与云基础平台建设项目投资金额与第一年原计划投资金额大致相当。考虑到实际募集资金净额低于预期,为提高募集资金使用效率,公司尽可能利用目前设备资源,未在资金到账的第一时间安排设备购置,从而导致各项目设备采购支出金额均一定程度低于计划值。由于大数据与云基础平台建设项目第一年原计划设备购置金额较大,虽然公司加大了研发人员的投入力度,但项目实际投资金额仍然略低于第一年原计划投资金额。
公司是一家企业级大数据基础软件开发商,围绕数据的集成、存储、治理、建模、分析、挖掘和流通等数据全生命周期提供基础软件及服务,已形成大数据与云基础平台、分布式关系型数据库、数据开发与智能分析工具的软件产品矩阵,支撑客户及合作伙伴开发数据应用系统和业务应用系统,助力客户实现数字化转型。公司前次募集资金投资项目即围绕公司现有大数据基础软件业务的三大产品矩阵进行研发提升,旨在增强公司产品和技术实力,提高公司的核心竞争力,巩固和扩大技术和服务的优势,为公司提升持续经营能力提供切实保障。
当前,中国大数据软件领域处于发展的历史机遇期,我国高度重视大数据在经济社会发展中的作用。根据信通院发布的《大数据白皮书(2022年)》,2021年,我国大数据产业规模增加到1.3万亿,复合增长率超过30%。根据工信部印发的《“十四五”大数据产业发展规划》,在“十三五”时期,我国大数据产业快速起步,但仍然存在一些制约因素,目前国内的技术支撑不够强,基础软件等关键领域与国际先进水平存在一定差距。在工信部印发的《“十四五”软件和信息技术服务业发展规划》中相关内容亦指出,要聚力攻坚基础软件,对数据库等关键基础软件补短板。
据IDC发布的报告,2022年中国大数据市场总规模约为170亿美元,并在2026年增至365亿美元,实现规模翻倍,年均复合增长率接近30%,产业发展取得显著成效。各大厂商也在积极布局大数据分析、知识图谱等相关业务,同时Chat GPT的突然爆火将大数据市场带入更大体量、更强计算和更专业化服务的新世界。数字中国、大数据等新政策发布和一系列产业落地,各行业将面临数据挖掘处理的需求,未来中国大数据市场将迎来高速发展阶段。
前期,国内数据管理软件基本被Oracle、IBM和微软为代表的国外关系型数据库厂商主导,国产软件产品渗透率低。随着国内客户越来越重视数据与信息安全,国产软件产品在关键领域实现替代成为其中重要环节,越来越多的客户已经开始或计划相关软硬件的采购计划。公司作为国产大数据软件的代表企业之一,有望在基础软件国产化进程中取得较为有利的发展态势。
在技术方向上,随着海量及异构数据的数据分析需求增长,分布式系统成为了大数据基础软件技术架构的主要发展方向,数据管理软件趋向于统一多数据模型的平台,云原生大数据平台架构成为未来的主要发展方向。公司专注于分布式技术、数据库技术、编译技术、数据云技术等基础软件领域的研发,与行业的技术发展方向保持一致。
前次募集资金投入以来,公司在三个募集资金投资项目上均实现了较为明显的研发成果产出,具体说明如下:
2022年,公司发布了TDH9.0产品,新版本更好地实现更平滑的国产化迁移,与国外开源软件及商业版本相比有更强的功能和性能上的优势。同时,公司面向高校、科研机构推出TDH社区版本,可以免费获得该版本用于教学或科研;开发者也可以使用网络社区版。社区版针对付费客户推出了订阅制的收费模式,商业客户可采用订阅方式使用。数据云平台TDC支持公司全系产品新版本,同时PaaS能力持续增加,新增联邦云管理功能可以支持信创和多云环境下的部署,新增隐私计算区能够支持公共数据运营场景下的需求。
2023年上半年,公司发布了大数据基础平台TDH9.3版本,推出了新一代数据湖、数据仓库、数据集市一体化的存储格式,一份数据可以满足数据湖的离线/实时接入、数据仓库的复杂加工以及数据集市的分析需求,避免数据冗余,减少数据流转。此外,TDH9.3版本在多模型统一架构上迭代升级,全新发布了向量模型存储,通过10种存储引擎,共支持11种模型的数据统一存储管理,并支持使用统一查询处理语言完成跨模型数据流转与关联分析。数据云平台TDC推出了3.2版本,支持TDH数据底座就地升级到TDC上,实现大数据系统产品、计算、存储资源池化,提高调度资源的灵活性和利用率,并实现多租户的隔离能力。
2022年,公司的分布式数据库产品实现了较大的升级。公司的分布式分析型数据库ArgoDB实现了四种混合负载:数据实时写入、交互式分析、高并发查询、大规模批处理。目前业内单一数据库能同时实现前述四种功能比较少。报告期内,KunDB研发的基于内存的数据库存储引擎,单节点运行基准测试TPC-C的性能高达180万TPMC(每分钟内系统处理的新订单个数),达到国内领先水平并通过信通院的认证测试,此外还大幅提升了PL/SQL的兼容度。
2023年上半年,公司发布了ArgoDB6.0升级产品,该产品进一步强化实时分析能力,构建安全高效的国产化多模引擎,一站式满足用户数据仓库、数据集市、实时数仓、OLAP、AETP(联合KunDB)、联邦计算等需求,可以在批处理和OLAP、Ad hoc分析等场景,替代Oracle、DB2、Teradata、SAP HANA等国外产品。公司的分布式交易型数据库KunDB 3.2可以在交易型OLTP的业务场景、高并发在线数据服务场景等,替代Oracle/DB2/MySQL,并且提升了基于Paxos共识算法的高可用与跨数据中心容灾能力以及对Oracle的兼容能力,完整支持Oracle PL/SQL,支持集中式和分布式的一体化部署。
2022年,公司对TDS和Sophon持续进行迭代升级。TDS在原有十多款工具的基础上,新增了数据服务平台、数据标签平台、数据商城等三大新组件。Sophon产品则持续提升智能数据分析平对不同场景下统计机器学习、深度学习等多种人工智能分析任务的支持,针对近年新增的迁移学习、强化学习、元学习等方式提供易用且高性能的平台。Sophon在2022年,第一个通过了3TB数据量下(当前TPCx-AI已通过测试最大体量)的TPCx-AI基准测试,并通过了事务处理性能委员会(TPC)的审核。
2023年上半年,公司发布了TDS3.1升级产品,TDS 3.1版本以完善全生命周期数据资产运营功能为闭环,满足数字化转型的战略战术诉求。资产运营流程包括了面向平台管理员、生产者、消费者、平台运维等不同人群的操作流程和步骤,能够帮助企业梳理和记录相应的数据资产和资源。新版本中围绕全生命周期数据资产运营,增强了数据资产元模型化、管建一体、敏捷数据交付等功能,应对复杂数据环境挑战。Sophon3.2升级版本通过以数据和模型为中心,提供“六易三仓两中心”的功能服务,让用户能够基于自身需求构建紧密贴合其业务场景的新一代AI应用。
基于公司目前的业务发展环境和发展现状,公司前募项目的实施环境未发生重大不利变化,公司后续进一步开展募集资金投入无重大不确定性。
(二) 公司前次募投项目未承诺预计效益的原因,各募投项目实际实现效益是否达到规划预期
公司前次募投项目为首次公开发行股票募集资金投资项目。公司于2022年10月在科创板上市,当时有效的《科创板首次公开发行股票注册管理办法(试行)》《公开发行证券的公司信息披露内容与格式准则第41号——科创板公司招股说明书》未要求公司就募投项目的预计效益进行承诺或说明,因此公司未在《星环信息科技(上海)股份有限公司首次公开发行股票并在科创板上市招股说明书》对前次募投项目的预计效益情况进行承诺或说明。
2021年,公司在对前次募投项目进行投资规划时,基于当时经济情况对前次募投项目的效益情况进行了初步预计,未公开其预计情况,也不构成预测或承诺。2022年公司各前募项目的实际实现效益均已达到前期预计值。由于公司营业收入存在季节性,第四季度收入远高于其他三个季度,公司仅按照年度进行了效益预计,未预计各季度的募投效益情况,因此无法对2023年1-6月是否达到预计值进行说明。
2023年1-6月公司实际实现效益较低,除季节性因素外,主要原因为: (1) 公司前募项目均为既有产品的升级研发项目。公司大数据基础软件业务主要由大数据与云基础平台软件、分布式关系型数据库、数据开发与智能分析工具软件三大产品矩阵构成,前募三个项目即为对公司现有三大产品矩阵的升级研发投入。大数据基础软件作为信息系统的重要基础设施,对上层应用系统的稳定性、可扩展性等有着非常重要的影响,因此客户在采购大数据基础软件时对于软件的运行稳定性有着较高的要求。虽然公司研发的升级产品在产品功能上有一定的提升,但复购客户从稳定性角度通常会倾向于原版本扩容,而非产品升级。并且由于基础软件的属性,既有客户在短期内进行产品功能升级的概率相对较低。
对于新客户而言,新版本产品也需要一定的售前试用周期。上述因素都影响了前募项目在研发初期的销售推广。虽然公司三大产品矩阵的业务收入和订单量均持续保持较快的速度,但前募投入形成的升级产品需要一定的时间方可实现较大体量的收入产出。
(2) 公司的订单执行周期相对较长。根据客户对软件、服务或硬件具体需求等不同,公司大数据基础软件业务的交付形式分为软件产品授权、软件产品授权及配套服务、软硬一体产品、软硬一体产品及服务四种交付形式,以前两类交付方式为主。目前,公司软件产品授权订单的执行周期约为一个季度,软件产品授权与配套服务订单的执行周期约为三至四个季度。对于客户来说,前次募投项目升级形成的新产品,早期主要采用软件产品授权与配套服务的方式进行交付。前次募投项目于2022年初启动,当年年中公司向客户发布了阶段性研发成果,当年下半年逐步开始客户签约,由于存在三至四个季度的订单执行周期,前期签署的前募项目产品订单在2023年6月底前尚无法实现收入确认。
(3) 2022年下半年外部环境因素发生了较大的变化,公司的销售和交付活动受到了一定的阻碍。由于出行受限新客户的销售拓展受到了一定的冲击。如前所述,复购客户通常会倾向于原版本扩容,而非产品升级。在上述情况下,前募投入形成的升级产品销售推广受到了一定的影响。上述因素也导致了2023年1-6月前募项目的实际效益较低。
公司主营业务由大数据与云基础平台、分布式关系型数据库、数据开发与智能分析工具三大产品矩阵构成,公司前募项目即是对上述三大产品矩阵的升级研发,形成新版本产品向市场进行销售。随着公司逐步加大前募投入所形成新版本产品的推广力度,积极引导新客户采购新版本产品、复购客户进行产品升级。结合公司目前在手订单情况以及下半年预计商机转化签约的情况,前募投入形成的新版本产品将逐渐成为公司主营业务收入的主要来源,前募项目的效益将有明显的增长。
(1) 查阅了公司首次公开发行股票并上市的招股说明书,前次募集资金项目相关的决策文件、年度募集资金使用情况报告、项目可行性研究报告; (2) 取得公司经董事会和股东大会批准的《前次募集资金使用情况报告》,核查了前次募集资金使用进度;
(3) 取得了公司就调整前次募集资金投资规模的相关董事会、股东大会决议;
(4) 就公司前次募集资金使用情况、后续使用安排与公司管理层进行了沟通讨论;
(6) 取得了公司的在手订单情况统计表和合同统计表,对于在手订单和合同签约情况进行了分析,就全年预期收益的可实现性与公司管理层进行了沟通交流。
经核查,我们认为:(1)公司前次募集资金使用比例较低原因合理,符合实际情况。整体来看,公司前次募集资金项目按照计划进行投入。基于公司目前的业务发展环境和发展现状,公司前募项目的实施环境未发生重大不利变化,公司后续进一步开展募集资金投入无重大不确定性;(2)公司前次募投项目未承诺预计效益系由于当时有效的监管规定中未作要求。2022年公司各前募项目的实际实现效益均已达到前期预计值,由于公司营业收入存在季节性,第四季度收入远高于其他三个季度,公司2021年规划前募项目时仅按照年度进行了效益预计,未预计各季度的募投效益情况,因此无法对2023年1-6月是否达到预计值进行说明。
2023年1-6月公司实际实现效益较低,存在一定的客观因素,随着公司逐步加大前募投入所形成新版本产品的推广力度,积极引导新客户采购新版本产品、复购客户进行产品升级,结合公司目前在手订单的情况以及下半年预计商机转化签约的情况,前募投入形成的新版本产品将逐渐成为公司主营业务收入的主要来源,前募项目的效益预计将有明显的增长。
根据申报材料,1)本次向特定对象发行股票预计募集资金总额不超过152,066.64万元,其中用于“数据分析大模型建设项目”35,183.08万元、“智能量化投研一体化平台建设项目”25,906.46万元、“数据要素安全与流通平台建设项目”21,535.36万元、“AI知识助理建设项目”19,113.55万元、“研发及运营中心建设项目”50,328.19万元。2)本次募集资金投资项目中研发投入金额合计为60,021.69万元,其中资本化金额为15,159.31万元,研发投入资本化占比为25.26%;截至2023年3月末,公司研发项目所形成的无形资产账面净值与开发支出均为0元。3)公司对各募投项目的收入、成本、毛利等进行测算,项目内部收益率分别为13.32%、26.87%、15.82%、12.49%。
请发行人说明:(1)场地租赁费、软硬件设备购置费、数据购置费、研发人员工资薪酬、技术服务费等具体内容及测算过程,建筑面积、设备购置数量、数据购置等的确定依据及合理性,本次购置房屋的面积与公司业务规模及人员数量是否匹配;(2)本次募投项目中研发投入的具体构成,资本化的具体时点,与同行业可比公司的对比情况及差异原因,本次研发投入资本化与公司前期会计处理存在重大差异的原因及合理性,相关会计处理是否符合《企业会计准则》规定;(3)本次募集资金实质上用于补流的规模是否超过本次募集资金总额的30%,是否存在募集资金用于支付其他人员工资、货款、市场推广费等情形,是否存在置换董事会前投入的情形;(4)结合公司现有资金余额、用途、缺口和未来现金流入情况,说明本次融资规模的合理性;(5)效益测算情况,包括单价、销量、毛利率等关键指标的确定依据,相关测算是否审慎,与现有类似产品及同行业可比公司的对比情况。
请保荐机构及申报会计师根据《证券期货法律适用意见第18号》第5条、《监管规则适用指引—发行类第7号》第5条进行核查并发表明确意见。
(一) 场地租赁费、软硬件设备购置费、数据购置费、研发人员工资薪酬、技术服务费等具体内容及测算过程,建筑面积、设备购置数量、数据购置等的确定依据及合理性,本次购置房屋的面积与公司业务规模及人员数量是否匹配 1. 研发类募集资金投资项目的投资测算合理性
各研发类募集资金投资项目的投资明细由临时场地租赁费用、软硬件设备购置费、数据购置费、机房及带宽租赁费、研发人员工资薪酬、技术服务费构成。
各研发募集资金投资项目投资细项的具体投资内容、确定依据及计算过程如下: (1) 数据分析大模型建设项目
本项目投资金额共计35,183.08万元,全部使用募集资金予以投入,相关投资的明细见下表:
公司新建的研发及运营中心预计2025年初完成装修投入使用,本项目2024年将在临时租用的场地内进行实施。临时租用场地情况如下:
该场地将为公司现有经营业务、IPO募集资金投资项目、再融资募集资金投资项目共同使用,本次再融资募集资金项目第一年人数合计为211人,2024年末公司预计现有业务上海办公研发、运营人员约为450人,约合人均使用面积为9.7平方米。新研发项目临时场地租赁费用四舍五入后按照人均办公面积按照10平方米计算。
本项目所需软硬件设备规格和数量根据公司具体项目需求确定,设备单价根据近期市场询价结果或公司采购价格预估。
数据密集型服务器用于各类数据的存储。本项目需要使用公开数据以及采购的原始语料数据进行软件开发,预计至少需要约400TB的数据。每台数据密集型服务器的存储空间为25TB,合计共需16台。
高通量计算服务器(多卡)、低通量计算服务器(多卡)均作为训练服务器使用,由于设备参数差异,因此价格上存在区别。本项目将预训练三种参数规模的数据分析大模型,分别为130亿、320亿、720亿,分别用于简单代码生成和初级自然语言理解,复杂代码生成、需求理解和任务拆解,复杂推理、理解和自指令调整(self-instruct)。参考知名的海外商用开源大模型LLaMA2的服务器配置和训练周期预估,训练700亿参数规模2T tokens数据量的基础大模型大约需要GPU卡运转172万小时。结合前述数据,本项目拟购置512张卡(即64台8卡服务器)开展模型训练,考虑GPU卡利用率,预计6-12个月可完成1次720亿参数规模的大模型训练,训练周期较长。在使用研发及运营中心的公共服务器资源的情况下,预计3-6个月可完成1次720亿参数规模的大模型训练,与目前市场上大模型的训练周期大致相当。320亿、130亿参数规模的大模型训练将在720亿参数规模大模型训练空档期内安排训练或者使用公司研发及运营中心的公共服务器资源进行模型训练。随着后期技术的迭代升级,公司未来还需要进一步压缩模型训练周期,届时本项目将需使用公司研发及运营中心的公共服务器资源进行模型训练。
本项目共安排数据购置费用2,000万元,每年投资额为500万元,分4年进行投资。本项目拟通过第三方数据服务商采购海内外已商业化运用的通用大模型输出的原始语料数据并由其进行一定的标注后作为本项目的训练数据使用。
机房使用费结合服务器数量、服务器运行所需的能耗、带宽资源和机房市场租赁价格水平计算得出。机房使用费单价为每年1.68万元/KW,该价格系参考公司目前机房租赁价格确定。根据服务器的能耗情况结合服务器数量计算,本项目每年的设备能耗量分别为159.2KW、238.8KW、318.4KW、395.2KW、395.2KW。
带宽租赁费用按照采用专线连接机房与公司的需求进行配置,结合公司目前带宽租赁价格标准,预计后续每年的带宽租赁费为44.40万元。
研发人员工资薪酬根据项目所需不同类型、层级人员数量,结合人均企业薪酬成本计算得出。其中,薪酬水平按照年均增长3%计算。
本项目技术服务费由产学研服务费用和外包技术服务费构成。外包技术服务费金额根据预计的外包服务采购量,结合公司目前的采购价格估算得出,具体明细如下:
本项目投资金额共计25,906.46万元,全部使用募集资金予以投入,相关投资的明细见下表:
公司新建的研发及运营中心预计2025年初完成装修投入使用,本项目2024年将在临时租用的场地内进行实施,临场租用的场地情况可见“数据分析大模型建设项目”中的相关说明。临时场地租赁费用按照人均办公面积按照10平方米计算,本项目2024年人员构成情况如下:
本项目所需软硬件设备规格和数量根据公司具体项目需求确定,设备单价根据近期市场询价结果或公司采购价格预估。
计算密集型服务器由研发人员使用,本项目共计划安排50名研发人员,其中软件测试人员6名,软件开发人员44名。由于本项目采购了高通量计算服务器(多卡),因此无需按照1人1台的标准配置服务器,按照人均0.6台计算,本项目需要30台计算密集型服务器。
数据密集型服务器主要用于各类数据的存储。本项目需要使用公开数据以及采购的商业数据进行软件开发,使用的数据类型包括各类金融数据,预计需要存储使用750TB的数据。每台数据密集型服务器的存储空间为25TB,合计共需30台。
高通量计算服务器(多卡)用于模型训练。由于本项目交付的是具有行业属性的产品,因此需要依托于基础大模型结合客户所处的行业和使用场景进行微调训练。本项目拟训练320亿参数规模的行业模型。参考知名的海外商用开源大模型LLaMA2的服务器配置和训练周期预估,训练340亿参数规模2T tokens数据量的基础大模型大约需要GPU卡运转104万小时。本项目拟购置168张卡(即21台8卡服务器)开展320亿参数规模的行业模型训练,预计一年可完成1.5次的模型训练。
随着后期技术的迭代升级,公司后续还需要进一步压缩模型训练周期,届时本项目将需使用公司研发及运营中心的公共服务器资源进行模型微调训练。
本项目将采购金融相关的行情、产业链、舆情、大宗商品等数据,采购价格依据市场行情价格进行预估。具体采购明细如下:
机房使用费结合服务器数量、服务器运行所需的能耗、带宽资源和机房市场租赁价格水平计算得出。机房使用费单价为每年1.68万元/KW,该价格系参考公司目前机房租赁价格确定。根据服务器的能耗情况结合服务器数量计算,本项目每年的设备能耗量分别为109.50KW、219.00KW、219.00KW、219.00KW、219.00KW。
带宽租赁费用按照采用专线连接机房与公司的需求进行配置,结合公司目前带宽租赁价格标准,预计后续每年的带宽租赁费为44.40万元。
研发人员工资薪酬根据项目所需不同类型、层级人员数量,结合人均企业薪酬成本计算得出。其中,薪酬水平按照年均增长3%计算。
本项目技术服务费由产学研服务费用和外包技术服务费构成。外包技术服务费金额根据预计的外包服务采购量,结合公司目前的采购价格估算得出,具体明细如下:
本项目投资金额共计21,535.36万元,全部使用募集资金予以投入,相关投资的明细见下表:
公司新建的研发及运营中心预计2025年初完成装修投入使用,本项目2024年将在临时租用的场地内进行实施。临场租用的场地情况可见“数据分析大模型建设项目”中的相关说明。临时场地租赁费用按照人均办公面积按照10平方米计算,本项目2024年人员构成情况如下:
本项目所需软硬件设备规格和数量根据公司具体项目需求确定,设备单价根据近期市场询价结果或公司采购价格预估。
计算密集型服务器由研发人员使用,本项目共计划安排58名研发人员,其中软件测试人员12名,软件开发人员46名。软件开发人员每人配备1台服务器用于产品功能和算法的开发,共需46台服务器。软件测试人员每人配备2台服务器,用于常规的功能测试、UAT测试、故障容错能力测试、版本发布测试等日常测试工作,共需24台服务器。另外项目还需配备30台服务器用于研发效能建设,具体用于持续集成交付、漏洞扫描、性能测试、可靠性测试等。
数据密集型服务器主要用于各类数据的存储。本项目需要使用公开数据以及采购的商业数据进行软件开发,使用的数据类型包括半结构化数据(各类文本内容)、非机构化数据(医疗影像数据、照片、自动驾驶采集的道路数据等)等,本项目将使用上述数据进行分类分级、重要数据识别等软件功能开发。预计公司需要存储使用约1PB的原始数据,考虑到数据备份以及处理过程中产生的数据,预计需要消耗存储空间2PB。每台数据密集型服务器的存储空间为25TB,合计共需80台。考虑到后续的数据量增长和外部商业数据的购买,公司还需配备20台服务器用于相关数据采购和内部服务开放。
本项目将采购营销、征信、保险、跨境合规等场景基础数据,采购价格依据市场行情价格进行预估。具体采购明细如下:
机房使用费结合服务器数量、服务器运行所需的能耗、带宽资源和机房市场租赁价格水平计算得出。机房使用费单价为每年1.68万元/KW,该价格系参考公司目前机房租赁价格确定。根据服务器的能耗情况结合服务器数量计算,本项目每年的设备能耗量分别为24KW、48KW、96KW、192KW、240KW。
带宽租赁费用按照采用专线连接机房与公司的需求进行配置,结合公司目前带宽租赁价格标准,预计后续每年的带宽租赁费为44.40万元。
研发人员工资薪酬根据项目所需不同类型、层级人员数量,结合人均企业薪酬成本计算得出。其中,薪酬水平按照年均增长3%计算。
本项目技术服务费由产学研服务费用和外包技术服务费构成。外包技术服务费金额根据预计的外包服务采购量,结合公司目前的采购价格估算得出,具体明细如下:
本项目投资金额共计19,113.55万元,全部使用募集资金予以投入,相关投资的明细见下表:
公司新建的研发及运营中心预计2025年初完成装修投入使用,本项目2024年将在临时租用的场地内进行实施。临场租用的场地情况可见“数据分析大模型建设项目”中的相关说明。临时场地租赁费用按照人均办公面积按照10平方米计算,本项目2024年人员构成情况如下:
本项目所需软硬件设备规格和数量根据公司具体项目需求确定,设备单价根据近期市场询价结果或公司采购价格预估。
计算密集型服务器由研发人员使用,本项目共计划安排52名研发人员,其中软件测试人员8名,软件开发人员44名。考虑到本项目涉及较多的定制化开发,开发工作量较大,软件开发人员每人配备1台服务器,软件测试人员每人配备2台服务器,合计共需60台服务器。另配置4台用于研发效能建设。
数据密集型服务器主要用于各类数据的存储。本项目需要使用公开数据以及客户提供的模拟数据进行软件开发,预计需要存储使用800TB的数据。每台数据密集型服务器的存储空间为25TB,合计共需32台。
高通量计算服务器(多卡)用于模型训练微调。由于本项目交付的是具有行业属性的产品,因此需要依托于基础大模型结合客户所处的行业和使用场景进行微调训练。本项目拟训练320亿参数规模的行业模型。参考知名的海外商用开源大模型LLaMA2的服务器配置和训练周期预估,训练320亿参数规模2T tokens数据量的基础大模型大约需要GPU卡运转104万小时。本项目拟购置160张卡(即20台8卡服务器)开展300亿参数规模的行业模型微调训练,预计一年可完成1.5次的模型训练。随着后期技术的迭代升级,公司后续还需要进一步压缩模型训练周期,届时本项目将需使用公司研发及运营中心的公共服务器资源进行模型微调训练。
机房使用费结合服务器数量、服务器运行所需的能耗、带宽资源和机房市场租赁价格水平计算得出。机房使用费单价为每年1.68万元/KW,该价格系参考公司目前机房租赁价格确定。根据服务器的能耗情况结合服务器数量计算,本项目每年的设备能耗量分别为127.86KW、255.46KW、255.46KW、255.46KW、255.46KW。
带宽租赁费用按照采用专线连接机房与公司的需求进行配置,结合公司目前带宽租赁价格标准,预计后续每年的带宽租赁费为44.40万元。
研发人员工资薪酬根据项目所需不同类型、层级人员数量,结合人均企业薪酬成本计算得出。其中,薪酬水平按照年均增长3%计算。泛亚电竞 泛亚电竞app泛亚电竞 泛亚电竞app
扫一扫关注AVIA ESPORTS泛亚电竞微信公众帐号