2022
DOI: 10.26434/chemrxiv-2022-9xx75
|View full text |Cite
Preprint
|
Sign up to set email alerts
|

Atom-in-SMILES tokenization

Abstract: Tokenization is an important preprocessing step in natural language processing that may have a significant influence on prediction quality. In this study we show that the conventional SMILES tokenization itself is at fault, resulting in tokens that fail to reflect the true nature of molecules. To address this we propose atom-in-SMILES approach, resolving the ambiguities in the genericness of SMILES tokens. Our findings in multiple translation tasks suggest that proper tokenization has a great impact on the pre… Show more

Help me understand this report
View published versions

Search citation statements

Order By: Relevance

Paper Sections

Select...
1
1

Citation Types

0
1
0

Year Published

2023
2023
2024
2024

Publication Types

Select...
2

Relationship

0
2

Authors

Journals

citations
Cited by 2 publications
(2 citation statements)
references
References 32 publications
0
1
0
Order By: Relevance
“…99 Somut bir olayda kişilik haklarının ölümden sonra da korunup korunmayacağının değerlendirilmesinde hâkim ölen kişinin hatırası ve üçüncü kişilerin menfaati arasındaki dengeyi karşılaştırmalıdır. 100 Kişilik hakları kişiye sıkı sıkıya bağlı olmasına rağmen kişilikten doğan haklardan dolaylı olarak etkilenenlerin de haklarının koruma değerinin bulunduğu kabul edilmelidir. Burada ölümden sonra kişilik haklarının korunmasını savunan "ölüm sonrası kişiliğin korunması" teorisi önemlidir.…”
Section: A Unutulma Hakkinin Mi̇rasçilar Tarafindan Kullanilmasina İ...unclassified
“…99 Somut bir olayda kişilik haklarının ölümden sonra da korunup korunmayacağının değerlendirilmesinde hâkim ölen kişinin hatırası ve üçüncü kişilerin menfaati arasındaki dengeyi karşılaştırmalıdır. 100 Kişilik hakları kişiye sıkı sıkıya bağlı olmasına rağmen kişilikten doğan haklardan dolaylı olarak etkilenenlerin de haklarının koruma değerinin bulunduğu kabul edilmelidir. Burada ölümden sonra kişilik haklarının korunmasını savunan "ölüm sonrası kişiliğin korunması" teorisi önemlidir.…”
Section: A Unutulma Hakkinin Mi̇rasçilar Tarafindan Kullanilmasina İ...unclassified
“…It is easy to expand SMILES to novel representation by adding topological or atom environmental to capture precise molecular information from the structure. 48 To adapt the deep learning, O'Boyle et al and Krenn et al proposed DeepSMILES and Self-referencing Embedded Strings (SELFIES) for molecules generation, respectively((Fig. 2)a).…”
Section: Chemical Structure Representationmentioning
confidence: 99%