728x90
728x90
728x90

현재 디렉터리 내 및 하위 모든 디렉터리에서 파일/디렉터리 검색 -> find . -name [NAME]

전체 시스템 내에서 파일/디렉터리 검색 -> find / -name [NAME]

 

*을 사용하여 prefix, suffix 설정 -> [NAME]에 prefix*나 *suffix, 혹은 둘다 가능

ex) find . -name '*project*' -> project를 포함(substring)하는 파일 검색

 

728x90
728x90

현재 상황:

docker환경

OS:ubuntu 18.04.5 LTS

python3.8 installed

 

목표:

python3실행하면 python3.9가 실행되며

기존 python library들도 잘 실행되게

 

Python3.9설치과정:

sudo apt update

sudo apt install software-properties-common

sudo add-apt-repository ppa:deadsnakes/ppa

# 여기서 ModuleNotFoundError:no module named 'apt_pkg'에러가 뜨면

#  sudo vim /usr/bin/add-apt-repository를 입력 후 상단에 #!/usr/bin/python 을 #!/usr/bin/python3.6으로 변경, 혹은 3.5로 변경

sudo apt install python3.9

sudo apt list *distutils*

sudo apt-get install -y python3.9-distutils

curl https://bootstrap.pypa.io/get-pip.py -o get-pip.py

python3 get-pip.py --force-reinstall

 

 

 

설치확인:

python3.9 -V

pip3 -V

 

python3입력하면 python3.9로 실행되게 변경:

sudo update-alternatives --install /usr/bin/python3 python3 /usr/bin/python3.8 1

sudo update-alternatives --install /usr/bin/python3 python3 /usr/local/bin/python3.9 2

sudo update-alternatives --config python3  # type the number corresponding to python3.9 and then hit the enter

 

pip3입력하면 pip3.9로 실행되게 변경:

필요 없음

 

python3.8에 설치된 라이브러리를 3.9에도 설치하기:

python3.8 -m pip freeze > requirements.txt

pip3 install -r requirements.txt

 

기타 error 대응:

"sudo apt-get install python3.9-dev"

# cannot compile 'python.h'. perhaps you need to install python-dev python-devel error발생시 실행(특히 numpy깔다가)

 

"sudo apt-get install gfortran libopenblas-dev liblapack-dev"

# numpy.distutils.system_info.NotFoundError: no lapack/blas resources found error 발생시 실행(특히 scipy깔다가)

 

무엇보다 중요한 것은, 아직 tensorflow==2.3.0은 python3.9에선 안된다는 것...따라서 tf2쓰려면 아직 python3.8쓰는게 맞다.ㅠㅠ

https://www.tensorflow.org/install/source

 

소스에서 빌드  |  TensorFlow

소스에서 TensorFlow pip 패키지를 빌드하고 Ubuntu Linux 및 macOS에 설치합니다. 명령어는 다른 시스템에도 적용될 수 있지만, Ubuntu 및 macOS용으로만 테스트되었으며 지원됩니다. 참고: 잘 테스트되고 ��

www.tensorflow.org

 

728x90
728x90

Table 1, Table 2 가 있다고 하자.

Table 2의 특정 column(Ck)을 foreign key로 설정하여 만든 테이블이라 하자, Table 1의 column(Ck)을 참조하는

Table 2에다가 row를 추가하는데 Ck에 해당하는 데이터가 Table 1의 Ck에 존재하지 않으면 error가 생김

 

이러한 foreign key에 들어올 data를 확인하는 것을 "Foreign key check"라 한다.

 

SQL사용시 해당 설정을 끄고, Table 2에 row를 추가하고, 다시 해당 설정을 키도록 하자.

(이미 Inserted된 row에 대해서는 Foreign key check를 하지 않는다.)

 

MySQL에서는

 

qry = "SET FOREIGN_KEY_CHECKS=0"

cursor.execute(qry)

"Do your job"

qry = "SET FOREIGN_KEY_CHECKS=1"

cursor.execute(qry)

 

728x90
728x90

1. DELETE

DML의 일종(Data Manipulation Language)

DELETE는 TABLE의 RECORDS만 지울 뿐, TABLE을 지우진 않는다.

Ex) DELETE FROM table_nm WHERE col=val;

one, some, all records를 삭제할 때 사용

return은 삭제된 row개수

삭제된 row는 모두 lock이 걸려서 rollback이 가능하다. 즉 트랜잭션 로그를 기록하기에 많은 데이터 삭제시 오래 걸릴 수 있다.

auto-increment를 keeping한다. 즉, ID 20(=last)을 지우고 새 row를 추가하면 ID 20이 아니라 21로 들어감

따라서, Table의 정의를 유지하면서도 rows(records)을 지우는 데에 사용

 

2. TRUNCATE

DDL의 일종(Data Definition Language)

TRUNCATE는 TABLE의 RECORDS를 모두 지움

roll back이 안되는 패키지가 존재 (SQL Server, PostgreSQL은 가능, MySQL이랑 Oracle은 불가)

DELETE보다 빠름(매 row를 scan하지 않기 때문)

DELETE보다 less transaction space를 사용, whole table을 lock하기 때문

auto-increment가 reset됨(패키지마다 옵션이 좀 다름)

 

3. DROP

DDL의 일종

DROP은 TABLE 자체를 지움(with all records)

roll back 지원(MySQL은 안됨)

 

정리하면,

테이블 전체 내용 삭제하며 테이블 구조가 필요없다면 DROP

테이블 전체 내용 삭제하며 테이블 구조가 필요하다면 TRUNCATE

트랜잭션 로그를 남겨야하는 삭제라면 DELETE

 

 

 

 

 

 

 

참고자료:

learnsql.com/blog/difference-between-truncate-delete-and-drop-table-in-sql/

 

TRUNCATE TABLE vs. DELETE vs. DROP TABLE: Removing Tables and Data in SQL

What’s the difference between DROP TABLE, TRUNCATE TABLE, and DELETE in SQL? We’ll look at the syntax of each operation and discuss their usage, details, and differences.

learnsql.com

 

728x90
728x90

1. dictionary merge/update

a, b : dictionary

c = a|b  # merge a with b, right always win if key conflicts, a,b 모두 합치되 common key에 대한 value는 b에 것 사용

a |= b  # update a, a와 b모두에 있는 key는 b에서의 value로 update, a에만 있는 key는 그대로 유지

 

 

2. remove prefix/suffix of strings

a : string

a.removeprefix(prefix)  # a가 입력한 prefix로 시작한다면 그것을 slicing으로 제외한 결과를 return

a.removesuffix(suffix)  # a가 입력한 suffix로 끝나면 그것을 slixing으로 제외한 결과를 return

 

3. Type hinting for built-in generic types

type hinting에서 generic type에 대한 지원이 추가

Type hin

 

728x90
728x90

Streaming metric(or stateful metric)이란, (예를 들어 precision)

First batch때 (True positive, False positive) = (4, 5) -> Precision = (4) / (5) = 0.8

Second batch때 (True positive, False positive) = (0, 3) -> Precision = (4+0) / (5+3) = 0.5

...

 

방식으로 batch때마다 metric의 평균이 아니라

batch때마다 각 amount들을 누적해서 계산하는 방식의 metric을 가리킨다.

 

 

728x90
728x90

Proxy variable이란

one that stands in for the true variable of interest, which may be unavailable, too costly, or too time-consuming to measure.

 

예를 들면, 실내 인테리어 서비스하는 회사를 생각하자. 웹페이지를 어떻게 꾸려야 좋을지 A/B test를 하려고 한다.

하지만 이러한 서비스는 고가라 판매횟수 자체가 크게 쌓이지 않으며 실제 판매까지 오래 걸리므로 회사는 A, B 선택에 있어서 오랜 기간을 기다려야한다. 이때 판매횟수라는 variable말고 "서비스 상세보기"라는 버튼을 누른 횟수(proxy variable)을 사용하여 A/B test를 하자.

 

위의 예제에서 더 나은 proxy variable은 "서비스 상세보기 페이지 내에 체류시간"을 사용

 

 

728x90
728x90

Paper:

https://dl.acm.org/doi/pdf/10.1145/3298689.3347012

 

Remarks:

-click|like|purchase 등의 활동으로 User-Item binary matrix 생성

(혹은 특정 threshold지정하고 그 값 이상은 1 아니면 0으로 binarize하기)

-

 

Remarks:

 

 

 

-논문에서 제시하는 모델을 살펴보면

  -X는 User-item binary matrix(user가 item을 클릭했다면 1, 아니면 0, 혹은 rating matrix로부터 threshold이상이면 1, 아니면 0으로 binarize해서 사용 가능)

  -

 

 

논문내용 쭉 정리

논문에서 말하는 장점(특히 missing value에 대한 얘기 등)위주로정리

 

728x90
728x90

NDCG

MAPK 등

정의와

예시

해석시 주의할점, 단점, 단점보강방법 등

 

728x90
728x90

Learning to rank란 

item의 정확한 score를 regression하는게 아니라, optimal ordering of list of items.

 

 

 

종류:Pointwise|Pairwise|Listwise

각각은 loss function에 들어가는 document의 개수에 따라 구분된다.

pointwise는 1개, Pairwise는 2개, Listwise는 

 

pointwise는 document가 query에 해당하는 relevancy를 학습하고, 실제 inference할 때는 각 document의 relevancy 순으로 출력, 즉 관건은, documents끼리 independent하다는 것, classical classification/regression을 사용

pairwise는 a pair of documents를 보고 ordering을 매김, the number of inversions를 줄이게끔 loss function을 정의하여 사용, relative order를 예측하는 게 좀 더 ranking의 본질에 가깝다. 단점은 training/inference가 시간복잡도가 크고 사실 낮은 ranking에 존재하는 pair끼리의 계산이나 상위 ranking에 존재하는 pair끼리의 계산이 동일하게 들어가는 점이 단점,  

listwise는 entire list of documents를 보고 optimal ordering을 찾는 것, 예를 들면, NDCG를 utility function으로 보고 학습, 장점이 training/inference의 시간복잡도가 낮음, 

 

Recommender system과 Ranking의 차이점은?

-ranking은 ordering이 결과임, 개별 item의 score도 predicted rating이 아니라, ordering으로서의 score이며 utility로서의 score가 아님

-ranking은 user의 input(query나 category선택, 지리적 정보 등)이 중요한 역할

 

가장 처음 드는 의문 점, labeled data를 어떻게 얻느냐?

 

1. Human (relevance) judgement

각 query마다

binary로 각 document가 relevant인지 irrelevant인지->pointwise용

document A가 B보다 더 relevant인지->pairwise용

document A,B,C의 ordering->listwise용, 다만 수집 비용이 큼(time consuming and exhaustive)

혹은

한개의 query당 얻은 document(item)의 relevance(perfect, excellent, good, fair, bad 형태의 five level이 한 예)를 judge

majority voting으로 query당 document의 label로 선정

 

2. query당 documents의 전체 고객들의 click number로 relative relevance 측정

대개 상위 ranking document가 더 클릭될 확률이 높은데 (click bias라 불림)

그럼에도 불구하고 lower ranked가 더 큰 클릭을 얻었다면 그것이 more relevant

 

각각이 단점이 존재, 둘다 noisy할 가능성이 있고

전자는 각 human이 query를 직접 관심갖고 입력한 상황이 아니므로 error가 발생할 확률이 높고

후자는 high frequency query만 labeling이 가능

 

 

 

참고자료:

medium.com/recombee-blog/introduction-to-personalized-search-2b70eb5fa5ae

 

Introduction to personalized search

Personalized search should take into account user preferences and interactions of similar users. We combined search engine and recommender.

medium.com

www.iro.umontreal.ca/~nie/IFT6255/Books/Learning-to-rank.pdf

 

728x90

+ Recent posts