728x90
참고자료가 너무나 잘 정리되어있다.
핵심은
document2word방식(이를 forward index)의 index를 뒤집어서 word2document(Inverted index)로 저장한다는 것
document를 database에 추가할 때 추가 cost가 들더라도, full text search때 fast하게 하겠다는 것이 목적
inverted file은 word마다 document만 mapping
inverted list은 word마다 document + position정보까지 mapping, 따라서 document를 insert할 때 더 cost가 들긴 하지만 강력한 검색엔진이 됨
참고자료:
en.wikipedia.org/wiki/Inverted_index
728x90
'CS' 카테고리의 다른 글
파이썬에서 원소 체크를 자주한다면 list말고 set이나 dictionary를 쓰자. (0) | 2020.10.29 |
---|---|
(미완)[Elasticsearch]특징 (0) | 2020.10.29 |
(미완)[Docker] option 정리 (0) | 2020.10.21 |
(미완)Ubuntu 명령어 정리 (0) | 2020.10.21 |
[Numpy] np.vectorize는 사용하지 말자. (0) | 2020.10.20 |