目前需要的NLP岗位要求中常见字眼“信息抽取,关系抽取”,不懂的就会问,这是啥?莫不是token 分类,NER?其实不是,应该是类似于属性信息,比如商品,价格25,销量1w+,加购2000+,产地北京,等等一些商品的描述信息,也可以是人的属性信息,比如我,年龄25,身高183,体重73,身价1kw,家乡北京,等等。当然也可以是人与人之间的信息,比如娱乐圈,谁的谁是谁的前任,谁的女儿是谁的孩子,他爹是谁,他后爹是谁,他干爹是谁,等等。也可以是结构化信息。
下面以飞酱的开源UIE(Universal Information Extraction)为例进行实际操作,
安装飞酱是基础,否则paddlenlp也不能用。
$ pip install --upgrade paddlenlp
$ python -m pip install paddlepaddle==2.3.0 -i https://pypi.tuna.tsinghua.edu.cn/simple
##
>>> from pprint import pprint
>>> from paddlenlp import Taskflow
/opt/anaconda3/lib/python3.9/site-packages/_distutils_hack/__init__.py:30: UserWarning: Setuptools is replacing distutils.warnings.warn("Setuptools is replacing distutils.")
schema = ['时间', '人物', '赛事'] # Define the schema for entity extraction
ie = Taskflow('information_extraction', schema=schema)
>>> pprint(ie("12月6日上午卡塔尔世界杯中国队以满分100分获得金牌!"))
[{'时间': [{'end': 7,'probability': 0.9871144616784733,'start': 0,'text': '12月6日上午'}],'赛事': [{'end': 13,'probability': 0.9676816951303167,'start': 7,'text': '卡塔尔世界杯'}]}]
#277356808 Q group
可见少了人物,如果语言不够规范,可能就无法识别。
医学方面结构信息也可提取:(medical)当然也有其他模型,taskflow那里设置
>>> schema = ['肿瘤的大小', '肿瘤的个数', '肝癌级别', '脉管内癌栓分级']
>>> ie.set_schema(schema)#277356808 Q group
>>> pprint(ie("(右肝肿瘤)肝细胞性肝癌(I-III级,梁索型和假腺管型),肿瘤包膜不完整,紧邻肝被膜,侵及周围肝组织,未见脉管内癌栓(MVI分级:M0级)及卫星子灶形成。(肿物3个,大小4.2×5.0×1.8cm)。"))
[{'肝癌级别': [{'end': 20,'probability': 0.9246462251936833,'start': 13,'text': 'I-III级'}],'肿瘤的个数': [{'end': 84,'probability': 0.7917894830730177,'start': 82,'text': '3个'}],'肿瘤的大小': [{'end': 100,'probability': 0.830017001399554,'start': 87,'text': '4.2×5.0×1.8cm'}],'脉管内癌栓分级': [{'end': 70,'probability': 0.9117307134953805,'start': 67,'text': 'M0级'}]}]
除了上面的基本信息抽取还有关系抽取,事件抽取,情感分类,观点抽取,可用模型如下,taskflow里面设置model="*****",默认的是“uie-base”
uie-base (默认) | 12-layers, 768-hidden, 12-heads | 中文 |
uie-base-en | 12-layers, 768-hidden, 12-heads | 英文 |
uie-medical-base | 12-layers, 768-hidden, 12-heads | 中文 |
uie-medium | 6-layers, 768-hidden, 12-heads | 中文 |
uie-mini | 6-layers, 384-hidden, 12-heads | 中文 |
uie-micro | 4-layers, 384-hidden, 12-heads | 中文 |
uie-nano | 4-layers, 312-hidden, 12-heads | 中文 |
uie-m-large | 24-layers, 1024-hidden, 16-heads | 中、英文 |
uie-m-base | 12-layers, 768-hidden, 12-heads | 中、英文 |
此外也有数据标注的专门库 ,飞酱支持数据从标注到训练使用。
也可对数据进行微调,如下示例:
export finetuned_model=./checkpoint/model_best
#Q group 277356808
python finetune.py \--device gpu \--logging_steps 10 \--save_steps 100 \--eval_steps 100 \--seed 42 \--model_name_or_path uie-base \--output_dir $finetuned_model \--train_path data/train.txt \--dev_path data/dev.txt \--max_seq_length 512 \--per_device_eval_batch_size 16 \--per_device_train_batch_size 16 \--num_train_epochs 100 \--learning_rate 1e-5 \--label_names 'start_positions' 'end_positions' \--do_train \--do_eval \--do_export \--export_model_dir $finetuned_model \--overwrite_output_dir \--disable_tqdm True \--metric_for_best_model eval_f1 \--load_best_model_at_end True \--save_total_limit 1 \