AssemblyAI 宣布对其 PII 涂抹和实体检测功能进行了重大升级,旨在增强数据安全性并从音频转录中提取关键见解。根据 AssemblyAI 的说法,最新更新包括对 47 种语言的 PII 文本涂抹支持,并为其实体检测模型增加了 16 种新实体类型,总数达到 44 种。
增强的 PII 涂抹能力
更新后的 PII 文本涂抹功能现在支持 47 种语言,确保在不同地区全面保护个人身份信息 (PII)。此升级允许用户识别和删除转录中的敏感数据,如地址、电话号码和信用卡信息。此外,用户可以生成删除 PII 的转录或使用该工具在音频文件中“屏蔽”敏感信息。
AssemblyAI 提供了如何使用 API 进行 PII 涂抹的示例:
import assemblyai as aai
aai.settings.api_key = "YOUR API KEY"
audio_url = "https://github.com/AssemblyAI-Community/audio-examples/raw/main/20230607_me_canadian_wildfires.mp3"
config = aai.TranscriptionConfig(speaker_labels=True).set_redact_pii(
policies=[
aai.PIIRedactionPolicy.person_name,
aai.PIIRedactionPolicy.organization,
aai.PIIRedactionPolicy.occupation,
],
substitution=aai.PIISubstitutionPolicy.hash,
)
transcript = aai.Transcriber().transcribe(audio_url, config)
for utterance in transcript.utterances:
print(f"Speaker {utterance.speaker}: {utterance.text}")
print(transcript.text)
用户可以参考 AssemblyAI 的文档,了解更多详细示例和对更新的深入探讨。
扩展的实体检测
实体检测模型已经升级,增加了 16 种新实体类型,可以在转录中自动识别和分类关键信息。这使支持的实体类型达到总数 44 种,包括姓名、组织、地址等。模型在主要语言中确保 99% 的准确性,使其成为从音频数据中提取有价值见解的强大工具。
API 实体检测使用示例:
import assemblyai as aai
aai.settings.api_key = "YOUR API KEY"
audio_url = "https://github.com/AssemblyAI-Community/audio-examples/raw/main/20230607_me_canadian_wildfires.mp3"
config = aai.TranscriptionConfig(entity_detection=True)
transcript = aai.Transcriber().transcribe(audio_url, config)
for entity in transcript.entities:
print(entity.text)
print(entity.entity_type)
print(f"Timestamp: {entity.start} - {entity.end}\n")
其他资源
AssemblyAI 还分享了几篇新博客文章和教程,帮助用户充分利用其产品。主题包括使用 Claude 3.5 Sonnet 处理音频数据,了解微软的 Florence-2 图像模型,以及在 JavaScript 中使用 AssemblyAI 和 DeepL 创建实时语言翻译服务。
有关这些更新的更多信息和探索其他资源,请访问 AssemblyAI 的官方博客。
Image source: Shutterstock