信息抽取/实体关系抽取之UIE

admin

2024-03-22 04:05:59

0次

目前需要的NLP岗位要求中常见字眼“信息抽取，关系抽取”，不懂的就会问，这是啥？莫不是token 分类，NER？其实不是，应该是类似于属性信息，比如商品，价格25，销量1w+，加购2000+，产地北京，等等一些商品的描述信息，也可以是人的属性信息，比如我，年龄25，身高183，体重73，身价1kw，家乡北京，等等。当然也可以是人与人之间的信息，比如娱乐圈，谁的谁是谁的前任，谁的女儿是谁的孩子，他爹是谁，他后爹是谁，他干爹是谁，等等。也可以是结构化信息。

下面以飞酱的开源UIE（Universal Information Extraction）为例进行实际操作，

安装飞酱是基础，否则paddlenlp也不能用。

$ pip install --upgrade paddlenlp
$ python -m pip install paddlepaddle==2.3.0 -i https://pypi.tuna.tsinghua.edu.cn/simple
##
>>> from pprint import pprint
>>> from paddlenlp import Taskflow
/opt/anaconda3/lib/python3.9/site-packages/_distutils_hack/__init__.py:30: UserWarning: Setuptools is replacing distutils.warnings.warn("Setuptools is replacing distutils.")
schema = ['时间', '人物', '赛事'] # Define the schema for entity extraction
ie = Taskflow('information_extraction', schema=schema)
>>> pprint(ie("12月6日上午卡塔尔世界杯中国队以满分100分获得金牌！"))
[{'时间': [{'end': 7,'probability': 0.9871144616784733,'start': 0,'text': '12月6日上午'}],'赛事': [{'end': 13,'probability': 0.9676816951303167,'start': 7,'text': '卡塔尔世界杯'}]}]
#277356808 Q group

可见少了人物，如果语言不够规范，可能就无法识别。

医学方面结构信息也可提取：（medical）当然也有其他模型，taskflow那里设置

>>> schema = ['肿瘤的大小', '肿瘤的个数', '肝癌级别', '脉管内癌栓分级']
>>> ie.set_schema(schema)#277356808 Q group
>>> pprint(ie("（右肝肿瘤）肝细胞性肝癌（I-III级，梁索型和假腺管型），肿瘤包膜不完整，紧邻肝被膜，侵及周围肝组织，未见脉管内癌栓（MVI分级：M0级）及卫星子灶形成。（肿物3个，大小4.2×5.0×1.8cm）。"))
[{'肝癌级别': [{'end': 20,'probability': 0.9246462251936833,'start': 13,'text': 'I-III级'}],'肿瘤的个数': [{'end': 84,'probability': 0.7917894830730177,'start': 82,'text': '3个'}],'肿瘤的大小': [{'end': 100,'probability': 0.830017001399554,'start': 87,'text': '4.2×5.0×1.8cm'}],'脉管内癌栓分级': [{'end': 70,'probability': 0.9117307134953805,'start': 67,'text': 'M0级'}]}]

除了上面的基本信息抽取还有关系抽取，事件抽取，情感分类，观点抽取，可用模型如下，taskflow里面设置model="*****",默认的是“uie-base”

`uie-base` (默认)	12-layers, 768-hidden, 12-heads	中文
`uie-base-en`	12-layers, 768-hidden, 12-heads	英文
`uie-medical-base`	12-layers, 768-hidden, 12-heads	中文
`uie-medium`	6-layers, 768-hidden, 12-heads	中文
`uie-mini`	6-layers, 384-hidden, 12-heads	中文
`uie-micro`	4-layers, 384-hidden, 12-heads	中文
`uie-nano`	4-layers, 312-hidden, 12-heads	中文
`uie-m-large`	24-layers, 1024-hidden, 16-heads	中、英文
`uie-m-base`	12-layers, 768-hidden, 12-heads	中、英文

此外也有数据标注的专门库，飞酱支持数据从标注到训练使用。

也可对数据进行微调，如下示例：

export finetuned_model=./checkpoint/model_best
#Q group 277356808
python finetune.py  \--device gpu \--logging_steps 10 \--save_steps 100 \--eval_steps 100 \--seed 42 \--model_name_or_path uie-base \--output_dir $finetuned_model \--train_path data/train.txt \--dev_path data/dev.txt  \--max_seq_length 512  \--per_device_eval_batch_size 16 \--per_device_train_batch_size  16 \--num_train_epochs 100 \--learning_rate 1e-5 \--label_names 'start_positions' 'end_positions' \--do_train \--do_eval \--do_export \--export_model_dir $finetuned_model \--overwrite_output_dir \--disable_tqdm True \--metric_for_best_model eval_f1 \--load_best_model_at_end  True \--save_total_limit 1 \

愿我们终有重逢之时，而你还记得我们曾经讨论的话题

词库加载错误:未能找到文件“E:\highferrum_mysql\Configuration\Dict_Stopwords.txt”。

上一篇：java计算机毕业设计社区图书馆借阅管理系统源程序+mysql+系统+lw文档+远程调试

下一篇：Vue响应式系统的作用与实现（三）

信息抽取/实体关系抽取之UIE

愿我们终有重逢之时，而你还记得我们曾经讨论的话题

相关内容

热门资讯