2.2.1数据收集
1、可以通过人工智能进行数据的检索,提高数据检索的效率和范围。
2、确保数据可追溯,来源可靠,并对数据的真实性、合法性、完整性、客观性、准确性、合理性等进行人工检查,需采取有效措施防止产生民族、信仰、国别、地域、性别、年龄、职业、健康等歧视[12],同时注意数据版权的使用问题。
3、不得通过人工智能生成数据。尤其对于科学研究和科学实验,禁止使用人工智能生成的虚假数据,数据必须是由实验、统计等方式科学研究方式得来的。
4、对于某些情况,如数据不可得、隐私保护、风险预判训练等特殊场景,可以适当地通过人工智能生成模拟数据,比如为医院生成虚拟患者就诊数据,来测试门急诊分流、药物储备预案等情况,但同时对数据需要严格的人为把控,当自己无法判断时,需要咨询导师或者资深学者、专家。如果使用了由人工智能生成的模拟仿真数据、测试数据等,应全面如实声明使用情况[7]。
5、采集人体试验数据或涉及隐私、保密的敏感数据,应严格遵守相关法律法规和伦理规范,在获得相关人员知情同意或有审批权限机构审批同意后才可进行[3]。
2.2.2统计分析
1、要使用可靠数据(参考1.2.1节),不得有选择地记录、使用数据以获得特定结果[3]。
2、可通过人工智能对可靠数据进行计算统计学指标或分析,并对分析结果做一些简单的描述。研究人员需要对通过人工智能所得的结果进行验证,保证结果的可靠性和有效性,通过人工智能对结果所作的描述不能替代研究者自己对数据的解释[1]。
3、通过人工智能可为研究人员提供分析方法的参考或指导,打开研究人员思路,帮助研究人员找到合适的分析方法。对于人工智能提供的参考、指导,可能并非全面或准确,研究人员要考虑其可行性,必要时结合其他已经成熟的数据分析工具进行对比和判断,或咨询相关领域的专家[1]。
4、对于可用于分析的隐私、敏感、保密数据,不得使用在线的或公共的人工智能[13],若确实需要分析这类数据,需使用本地版本的人工智能,同时应防止数据泄露,必要时需要做数据脱敏处理。

