The document discusses logical-statistical methods for knowledge acquisition from texts, including distribution-statistical analysis, component analysis, and frequency-semantic analysis. Distribution-statistical analysis uses the frequency of words occurring together to determine their semantic relationship. Component analysis examines word definitions for common elements. Frequency-semantic analysis considers both the similarity and frequency of elements in word definitions. These methods are used to build semantic fields by grouping words into descriptive categories.
The document discusses logical-statistical methods for knowledge acquisition from texts, including distribution-statistical analysis, component analysis, and frequency-semantic analysis. Distribution-statistical analysis uses the frequency of words occurring together to determine their semantic relationship. Component analysis examines word definitions for common elements. Frequency-semantic analysis considers both the similarity and frequency of elements in word definitions. These methods are used to build semantic fields by grouping words into descriptive categories.
2024 State of Marketing Report – by HubspotMarius Sescu
https://www.hubspot.com/state-of-marketing
· Scaling relationships and proving ROI
· Social media is the place for search, sales, and service
· Authentic influencer partnerships fuel brand growth
· The strongest connections happen via call, click, chat, and camera.
· Time saved with AI leads to more creative work
· Seeking: A single source of truth
· TLDR; Get on social, try AI, and align your systems.
· More human marketing, powered by robots
ChatGPT is a revolutionary addition to the world since its introduction in 2022. A big shift in the sector of information gathering and processing happened because of this chatbot. What is the story of ChatGPT? How is the bot responding to prompts and generating contents? Swipe through these slides prepared by Expeed Software, a web development company regarding the development and technical intricacies of ChatGPT!
Product Design Trends in 2024 | Teenage EngineeringsPixeldarts
The realm of product design is a constantly changing environment where technology and style intersect. Every year introduces fresh challenges and exciting trends that mold the future of this captivating art form. In this piece, we delve into the significant trends set to influence the look and functionality of product design in the year 2024.
How Race, Age and Gender Shape Attitudes Towards Mental HealthThinkNow
Mental health has been in the news quite a bit lately. Dozens of U.S. states are currently suing Meta for contributing to the youth mental health crisis by inserting addictive features into their products, while the U.S. Surgeon General is touring the nation to bring awareness to the growing epidemic of loneliness and isolation. The country has endured periods of low national morale, such as in the 1970s when high inflation and the energy crisis worsened public sentiment following the Vietnam War. The current mood, however, feels different. Gallup recently reported that national mental health is at an all-time low, with few bright spots to lift spirits.
To better understand how Americans are feeling and their attitudes towards mental health in general, ThinkNow conducted a nationally representative quantitative survey of 1,500 respondents and found some interesting differences among ethnic, age and gender groups.
Technology
For example, 52% agree that technology and social media have a negative impact on mental health, but when broken out by race, 61% of Whites felt technology had a negative effect, and only 48% of Hispanics thought it did.
While technology has helped us keep in touch with friends and family in faraway places, it appears to have degraded our ability to connect in person. Staying connected online is a double-edged sword since the same news feed that brings us pictures of the grandkids and fluffy kittens also feeds us news about the wars in Israel and Ukraine, the dysfunction in Washington, the latest mass shooting and the climate crisis.
Hispanics may have a built-in defense against the isolation technology breeds, owing to their large, multigenerational households, strong social support systems, and tendency to use social media to stay connected with relatives abroad.
Age and Gender
When asked how individuals rate their mental health, men rate it higher than women by 11 percentage points, and Baby Boomers rank it highest at 83%, saying it’s good or excellent vs. 57% of Gen Z saying the same.
Gen Z spends the most amount of time on social media, so the notion that social media negatively affects mental health appears to be correlated. Unfortunately, Gen Z is also the generation that’s least comfortable discussing mental health concerns with healthcare professionals. Only 40% of them state they’re comfortable discussing their issues with a professional compared to 60% of Millennials and 65% of Boomers.
Race Affects Attitudes
As seen in previous research conducted by ThinkNow, Asian Americans lag other groups when it comes to awareness of mental health issues. Twenty-four percent of Asian Americans believe that having a mental health issue is a sign of weakness compared to the 16% average for all groups. Asians are also considerably less likely to be aware of mental health services in their communities (42% vs. 55%) and most likely to seek out information on social media (51% vs. 35%).
AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork
Creative operations teams expect increased AI use in 2024. Currently, over half of tasks are not AI-enabled, but this is expected to decrease in the coming year. ChatGPT is the most popular AI tool currently. Business leaders are more actively exploring AI benefits than individual contributors. Most respondents do not believe AI will impact workforce size in 2024. However, some inhibitions still exist around AI accuracy and lack of understanding. Creatives primarily want to use AI to save time on mundane tasks and boost productivity.
Organizational culture includes values, norms, systems, symbols, language, assumptions, beliefs, and habits that influence employee behaviors and how people interpret those behaviors. It is important because culture can help or hinder a company's success. Some key aspects of Netflix's culture that help it achieve results include hiring smartly so every position has stars, focusing on attitude over just aptitude, and having a strict policy against peacocks, whiners, and jerks.
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
PepsiCo provided a safe harbor statement noting that any forward-looking statements are based on currently available information and are subject to risks and uncertainties. It also provided information on non-GAAP measures and directing readers to its website for disclosure and reconciliation. The document then discussed PepsiCo's business overview, including that it is a global beverage and convenient food company with iconic brands, $91 billion in net revenue in 2023, and nearly $14 billion in core operating profit. It operates through a divisional structure with a focus on local consumers.
Content Methodology: A Best Practices Report (Webinar)contently
This document provides an overview of content methodology best practices. It defines content methodology as establishing objectives, KPIs, and a culture of continuous learning and iteration. An effective methodology focuses on connecting with audiences, creating optimal content, and optimizing processes. It also discusses why a methodology is needed due to the competitive landscape, proliferation of channels, and opportunities for improvement. Components of an effective methodology include defining objectives and KPIs, audience analysis, identifying opportunities, and evaluating resources. The document concludes with recommendations around creating a content plan, testing and optimizing content over 90 days.
How to Prepare For a Successful Job Search for 2024Albert Qian
The document provides guidance on preparing a job search for 2024. It discusses the state of the job market, focusing on growth in AI and healthcare but also continued layoffs. It recommends figuring out what you want to do by researching interests and skills, then conducting informational interviews. The job search should involve building a personal brand on LinkedIn, actively applying to jobs, tailoring resumes and interviews, maintaining job hunting as a habit, and continuing self-improvement. Once hired, the document advises setting new goals and keeping skills and networking active in case of future opportunities.
A report by thenetworkone and Kurio.
The contributing experts and agencies are (in an alphabetical order): Sylwia Rytel, Social Media Supervisor, 180heartbeats + JUNG v MATT (PL), Sharlene Jenner, Vice President - Director of Engagement Strategy, Abelson Taylor (USA), Alex Casanovas, Digital Director, Atrevia (ES), Dora Beilin, Senior Social Strategist, Barrett Hoffher (USA), Min Seo, Campaign Director, Brand New Agency (KR), Deshé M. Gully, Associate Strategist, Day One Agency (USA), Francesca Trevisan, Strategist, Different (IT), Trevor Crossman, CX and Digital Transformation Director; Olivia Hussey, Strategic Planner; Simi Srinarula, Social Media Manager, The Hallway (AUS), James Hebbert, Managing Director, Hylink (CN / UK), Mundy Álvarez, Planning Director; Pedro Rojas, Social Media Manager; Pancho González, CCO, Inbrax (CH), Oana Oprea, Head of Digital Planning, Jam Session Agency (RO), Amy Bottrill, Social Account Director, Launch (UK), Gaby Arriaga, Founder, Leonardo1452 (MX), Shantesh S Row, Creative Director, Liwa (UAE), Rajesh Mehta, Chief Strategy Officer; Dhruv Gaur, Digital Planning Lead; Leonie Mergulhao, Account Supervisor - Social Media & PR, Medulla (IN), Aurelija Plioplytė, Head of Digital & Social, Not Perfect (LI), Daiana Khaidargaliyeva, Account Manager, Osaka Labs (UK / USA), Stefanie Söhnchen, Vice President Digital, PIABO Communications (DE), Elisabeth Winiartati, Managing Consultant, Head of Global Integrated Communications; Lydia Aprina, Account Manager, Integrated Marketing and Communications; Nita Prabowo, Account Manager, Integrated Marketing and Communications; Okhi, Web Developer, PNTR Group (ID), Kei Obusan, Insights Director; Daffi Ranandi, Insights Manager, Radarr (SG), Gautam Reghunath, Co-founder & CEO, Talented (IN), Donagh Humphreys, Head of Social and Digital Innovation, THINKHOUSE (IRE), Sarah Yim, Strategy Director, Zulu Alpha Kilo (CA).
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
The search marketing landscape is evolving rapidly with new technologies, and professionals, like you, rely on innovative paid search strategies to meet changing demands.
It’s important that you’re ready to implement new strategies in 2024.
Check this out and learn the top trends in paid search advertising that are expected to gain traction, so you can drive higher ROI more efficiently in 2024.
You’ll learn:
- The latest trends in AI and automation, and what this means for an evolving paid search ecosystem.
- New developments in privacy and data regulation.
- Emerging ad formats that are expected to make an impact next year.
Watch Sreekant Lanka from iQuanti and Irina Klein from OneMain Financial as they dive into the future of paid search and explore the trends, strategies, and technologies that will shape the search marketing landscape.
If you’re looking to assess your paid search strategy and design an industry-aligned plan for 2024, then this webinar is for you.
5 Public speaking tips from TED - Visualized summarySpeakerHub
From their humble beginnings in 1984, TED has grown into the world’s most powerful amplifier for speakers and thought-leaders to share their ideas. They have over 2,400 filmed talks (not including the 30,000+ TEDx videos) freely available online, and have hosted over 17,500 events around the world.
With over one billion views in a year, it’s no wonder that so many speakers are looking to TED for ideas on how to share their message more effectively.
The article “5 Public-Speaking Tips TED Gives Its Speakers”, by Carmine Gallo for Forbes, gives speakers five practical ways to connect with their audience, and effectively share their ideas on stage.
Whether you are gearing up to get on a TED stage yourself, or just want to master the skills that so many of their speakers possess, these tips and quotes from Chris Anderson, the TED Talks Curator, will encourage you to make the most impactful impression on your audience.
See the full article and more summaries like this on SpeakerHub here: https://speakerhub.com/blog/5-presentation-tips-ted-gives-its-speakers
See the original article on Forbes here:
http://www.forbes.com/forbes/welcome/?toURL=http://www.forbes.com/sites/carminegallo/2016/05/06/5-public-speaking-tips-ted-gives-its-speakers/&refURL=&referrer=#5c07a8221d9b
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
Everyone is in agreement that ChatGPT (and other generative AI tools) will shape the future of work. Yet there is little consensus on exactly how, when, and to what extent this technology will change our world.
Businesses that extract maximum value from ChatGPT will use it as a collaborative tool for everything from brainstorming to technical maintenance.
For individuals, now is the time to pinpoint the skills the future professional will need to thrive in the AI age.
Check out this presentation to understand what ChatGPT is, how it will shape the future of work, and how you can prepare to take advantage.
The document provides career advice for getting into the tech field, including:
- Doing projects and internships in college to build a portfolio.
- Learning about different roles and technologies through industry research.
- Contributing to open source projects to build experience and network.
- Developing a personal brand through a website and social media presence.
- Networking through events, communities, and finding a mentor.
- Practicing interviews through mock interviews and whiteboarding coding questions.
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
1. Core updates from Google periodically change how its algorithms assess and rank websites and pages. This can impact rankings through shifts in user intent, site quality issues being caught up to, world events influencing queries, and overhauls to search like the E-A-T framework.
2. There are many possible user intents beyond just transactional, navigational and informational. Identifying intent shifts is important during core updates. Sites may need to optimize for new intents through different content types and sections.
3. Responding effectively to core updates requires analyzing "before and after" data to understand changes, identifying new intents or page types, and ensuring content matches appropriate intents across video, images, knowledge graphs and more.
A brief introduction to DataScience with explaining of the concepts, algorithms, machine learning, supervised and unsupervised learning, clustering, statistics, data preprocessing, real-world applications etc.
It's part of a Data Science Corner Campaign where I will be discussing the fundamentals of DataScience, AIML, Statistics etc.
Time Management & Productivity - Best PracticesVit Horky
Here's my presentation on by proven best practices how to manage your work time effectively and how to improve your productivity. It includes practical tips and how to use tools such as Slack, Google Apps, Hubspot, Google Calendar, Gmail and others.
The six step guide to practical project managementMindGenius
The six step guide to practical project management
If you think managing projects is too difficult, think again.
We’ve stripped back project management processes to the
basics – to make it quicker and easier, without sacrificing
the vital ingredients for success.
“If you’re looking for some real-world guidance, then The Six Step Guide to Practical Project Management will help.”
Dr Andrew Makar, Tactical Project Management
2024 State of Marketing Report – by HubspotMarius Sescu
https://www.hubspot.com/state-of-marketing
· Scaling relationships and proving ROI
· Social media is the place for search, sales, and service
· Authentic influencer partnerships fuel brand growth
· The strongest connections happen via call, click, chat, and camera.
· Time saved with AI leads to more creative work
· Seeking: A single source of truth
· TLDR; Get on social, try AI, and align your systems.
· More human marketing, powered by robots
ChatGPT is a revolutionary addition to the world since its introduction in 2022. A big shift in the sector of information gathering and processing happened because of this chatbot. What is the story of ChatGPT? How is the bot responding to prompts and generating contents? Swipe through these slides prepared by Expeed Software, a web development company regarding the development and technical intricacies of ChatGPT!
Product Design Trends in 2024 | Teenage EngineeringsPixeldarts
The realm of product design is a constantly changing environment where technology and style intersect. Every year introduces fresh challenges and exciting trends that mold the future of this captivating art form. In this piece, we delve into the significant trends set to influence the look and functionality of product design in the year 2024.
How Race, Age and Gender Shape Attitudes Towards Mental HealthThinkNow
Mental health has been in the news quite a bit lately. Dozens of U.S. states are currently suing Meta for contributing to the youth mental health crisis by inserting addictive features into their products, while the U.S. Surgeon General is touring the nation to bring awareness to the growing epidemic of loneliness and isolation. The country has endured periods of low national morale, such as in the 1970s when high inflation and the energy crisis worsened public sentiment following the Vietnam War. The current mood, however, feels different. Gallup recently reported that national mental health is at an all-time low, with few bright spots to lift spirits.
To better understand how Americans are feeling and their attitudes towards mental health in general, ThinkNow conducted a nationally representative quantitative survey of 1,500 respondents and found some interesting differences among ethnic, age and gender groups.
Technology
For example, 52% agree that technology and social media have a negative impact on mental health, but when broken out by race, 61% of Whites felt technology had a negative effect, and only 48% of Hispanics thought it did.
While technology has helped us keep in touch with friends and family in faraway places, it appears to have degraded our ability to connect in person. Staying connected online is a double-edged sword since the same news feed that brings us pictures of the grandkids and fluffy kittens also feeds us news about the wars in Israel and Ukraine, the dysfunction in Washington, the latest mass shooting and the climate crisis.
Hispanics may have a built-in defense against the isolation technology breeds, owing to their large, multigenerational households, strong social support systems, and tendency to use social media to stay connected with relatives abroad.
Age and Gender
When asked how individuals rate their mental health, men rate it higher than women by 11 percentage points, and Baby Boomers rank it highest at 83%, saying it’s good or excellent vs. 57% of Gen Z saying the same.
Gen Z spends the most amount of time on social media, so the notion that social media negatively affects mental health appears to be correlated. Unfortunately, Gen Z is also the generation that’s least comfortable discussing mental health concerns with healthcare professionals. Only 40% of them state they’re comfortable discussing their issues with a professional compared to 60% of Millennials and 65% of Boomers.
Race Affects Attitudes
As seen in previous research conducted by ThinkNow, Asian Americans lag other groups when it comes to awareness of mental health issues. Twenty-four percent of Asian Americans believe that having a mental health issue is a sign of weakness compared to the 16% average for all groups. Asians are also considerably less likely to be aware of mental health services in their communities (42% vs. 55%) and most likely to seek out information on social media (51% vs. 35%).
AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork
Creative operations teams expect increased AI use in 2024. Currently, over half of tasks are not AI-enabled, but this is expected to decrease in the coming year. ChatGPT is the most popular AI tool currently. Business leaders are more actively exploring AI benefits than individual contributors. Most respondents do not believe AI will impact workforce size in 2024. However, some inhibitions still exist around AI accuracy and lack of understanding. Creatives primarily want to use AI to save time on mundane tasks and boost productivity.
Organizational culture includes values, norms, systems, symbols, language, assumptions, beliefs, and habits that influence employee behaviors and how people interpret those behaviors. It is important because culture can help or hinder a company's success. Some key aspects of Netflix's culture that help it achieve results include hiring smartly so every position has stars, focusing on attitude over just aptitude, and having a strict policy against peacocks, whiners, and jerks.
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
PepsiCo provided a safe harbor statement noting that any forward-looking statements are based on currently available information and are subject to risks and uncertainties. It also provided information on non-GAAP measures and directing readers to its website for disclosure and reconciliation. The document then discussed PepsiCo's business overview, including that it is a global beverage and convenient food company with iconic brands, $91 billion in net revenue in 2023, and nearly $14 billion in core operating profit. It operates through a divisional structure with a focus on local consumers.
Content Methodology: A Best Practices Report (Webinar)contently
This document provides an overview of content methodology best practices. It defines content methodology as establishing objectives, KPIs, and a culture of continuous learning and iteration. An effective methodology focuses on connecting with audiences, creating optimal content, and optimizing processes. It also discusses why a methodology is needed due to the competitive landscape, proliferation of channels, and opportunities for improvement. Components of an effective methodology include defining objectives and KPIs, audience analysis, identifying opportunities, and evaluating resources. The document concludes with recommendations around creating a content plan, testing and optimizing content over 90 days.
How to Prepare For a Successful Job Search for 2024Albert Qian
The document provides guidance on preparing a job search for 2024. It discusses the state of the job market, focusing on growth in AI and healthcare but also continued layoffs. It recommends figuring out what you want to do by researching interests and skills, then conducting informational interviews. The job search should involve building a personal brand on LinkedIn, actively applying to jobs, tailoring resumes and interviews, maintaining job hunting as a habit, and continuing self-improvement. Once hired, the document advises setting new goals and keeping skills and networking active in case of future opportunities.
A report by thenetworkone and Kurio.
The contributing experts and agencies are (in an alphabetical order): Sylwia Rytel, Social Media Supervisor, 180heartbeats + JUNG v MATT (PL), Sharlene Jenner, Vice President - Director of Engagement Strategy, Abelson Taylor (USA), Alex Casanovas, Digital Director, Atrevia (ES), Dora Beilin, Senior Social Strategist, Barrett Hoffher (USA), Min Seo, Campaign Director, Brand New Agency (KR), Deshé M. Gully, Associate Strategist, Day One Agency (USA), Francesca Trevisan, Strategist, Different (IT), Trevor Crossman, CX and Digital Transformation Director; Olivia Hussey, Strategic Planner; Simi Srinarula, Social Media Manager, The Hallway (AUS), James Hebbert, Managing Director, Hylink (CN / UK), Mundy Álvarez, Planning Director; Pedro Rojas, Social Media Manager; Pancho González, CCO, Inbrax (CH), Oana Oprea, Head of Digital Planning, Jam Session Agency (RO), Amy Bottrill, Social Account Director, Launch (UK), Gaby Arriaga, Founder, Leonardo1452 (MX), Shantesh S Row, Creative Director, Liwa (UAE), Rajesh Mehta, Chief Strategy Officer; Dhruv Gaur, Digital Planning Lead; Leonie Mergulhao, Account Supervisor - Social Media & PR, Medulla (IN), Aurelija Plioplytė, Head of Digital & Social, Not Perfect (LI), Daiana Khaidargaliyeva, Account Manager, Osaka Labs (UK / USA), Stefanie Söhnchen, Vice President Digital, PIABO Communications (DE), Elisabeth Winiartati, Managing Consultant, Head of Global Integrated Communications; Lydia Aprina, Account Manager, Integrated Marketing and Communications; Nita Prabowo, Account Manager, Integrated Marketing and Communications; Okhi, Web Developer, PNTR Group (ID), Kei Obusan, Insights Director; Daffi Ranandi, Insights Manager, Radarr (SG), Gautam Reghunath, Co-founder & CEO, Talented (IN), Donagh Humphreys, Head of Social and Digital Innovation, THINKHOUSE (IRE), Sarah Yim, Strategy Director, Zulu Alpha Kilo (CA).
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
The search marketing landscape is evolving rapidly with new technologies, and professionals, like you, rely on innovative paid search strategies to meet changing demands.
It’s important that you’re ready to implement new strategies in 2024.
Check this out and learn the top trends in paid search advertising that are expected to gain traction, so you can drive higher ROI more efficiently in 2024.
You’ll learn:
- The latest trends in AI and automation, and what this means for an evolving paid search ecosystem.
- New developments in privacy and data regulation.
- Emerging ad formats that are expected to make an impact next year.
Watch Sreekant Lanka from iQuanti and Irina Klein from OneMain Financial as they dive into the future of paid search and explore the trends, strategies, and technologies that will shape the search marketing landscape.
If you’re looking to assess your paid search strategy and design an industry-aligned plan for 2024, then this webinar is for you.
5 Public speaking tips from TED - Visualized summarySpeakerHub
From their humble beginnings in 1984, TED has grown into the world’s most powerful amplifier for speakers and thought-leaders to share their ideas. They have over 2,400 filmed talks (not including the 30,000+ TEDx videos) freely available online, and have hosted over 17,500 events around the world.
With over one billion views in a year, it’s no wonder that so many speakers are looking to TED for ideas on how to share their message more effectively.
The article “5 Public-Speaking Tips TED Gives Its Speakers”, by Carmine Gallo for Forbes, gives speakers five practical ways to connect with their audience, and effectively share their ideas on stage.
Whether you are gearing up to get on a TED stage yourself, or just want to master the skills that so many of their speakers possess, these tips and quotes from Chris Anderson, the TED Talks Curator, will encourage you to make the most impactful impression on your audience.
See the full article and more summaries like this on SpeakerHub here: https://speakerhub.com/blog/5-presentation-tips-ted-gives-its-speakers
See the original article on Forbes here:
http://www.forbes.com/forbes/welcome/?toURL=http://www.forbes.com/sites/carminegallo/2016/05/06/5-public-speaking-tips-ted-gives-its-speakers/&refURL=&referrer=#5c07a8221d9b
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
Everyone is in agreement that ChatGPT (and other generative AI tools) will shape the future of work. Yet there is little consensus on exactly how, when, and to what extent this technology will change our world.
Businesses that extract maximum value from ChatGPT will use it as a collaborative tool for everything from brainstorming to technical maintenance.
For individuals, now is the time to pinpoint the skills the future professional will need to thrive in the AI age.
Check out this presentation to understand what ChatGPT is, how it will shape the future of work, and how you can prepare to take advantage.
The document provides career advice for getting into the tech field, including:
- Doing projects and internships in college to build a portfolio.
- Learning about different roles and technologies through industry research.
- Contributing to open source projects to build experience and network.
- Developing a personal brand through a website and social media presence.
- Networking through events, communities, and finding a mentor.
- Practicing interviews through mock interviews and whiteboarding coding questions.
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
1. Core updates from Google periodically change how its algorithms assess and rank websites and pages. This can impact rankings through shifts in user intent, site quality issues being caught up to, world events influencing queries, and overhauls to search like the E-A-T framework.
2. There are many possible user intents beyond just transactional, navigational and informational. Identifying intent shifts is important during core updates. Sites may need to optimize for new intents through different content types and sections.
3. Responding effectively to core updates requires analyzing "before and after" data to understand changes, identifying new intents or page types, and ensuring content matches appropriate intents across video, images, knowledge graphs and more.
A brief introduction to DataScience with explaining of the concepts, algorithms, machine learning, supervised and unsupervised learning, clustering, statistics, data preprocessing, real-world applications etc.
It's part of a Data Science Corner Campaign where I will be discussing the fundamentals of DataScience, AIML, Statistics etc.
Time Management & Productivity - Best PracticesVit Horky
Here's my presentation on by proven best practices how to manage your work time effectively and how to improve your productivity. It includes practical tips and how to use tools such as Slack, Google Apps, Hubspot, Google Calendar, Gmail and others.
The six step guide to practical project managementMindGenius
The six step guide to practical project management
If you think managing projects is too difficult, think again.
We’ve stripped back project management processes to the
basics – to make it quicker and easier, without sacrificing
the vital ingredients for success.
“If you’re looking for some real-world guidance, then The Six Step Guide to Practical Project Management will help.”
Dr Andrew Makar, Tactical Project Management
3. Ә әбиәтҙ
Материал лекции представлен в
книге:
Ю.Н.Филиппович, А.В.Прохоров.
Семантика
информационных
технологий:
опыты словарно-тезаурусного
описания. /
Серия «Компьютерная лингвистика».
Вступ. Статья А.И.Новикова.
М.: МГУП, 2002.
— книга в комплекте с CD ROM
— С. 46–54.
5. КОНТЕКСТАР ЫҢ ЙЫШЛЫҘ Ҡ
ЫЛЫ ҺРЛАМАҺЫҠ Ҡ
Контекст Сi(T) — текст ө өгө, синтагмалар ың э мә-э леклелеге (сынйыр).ҙ ҙ ҙ ҙ
T = C1(T)+...+Cq(T), где Сi(T)∩ Cj(T)=∅, i,j (i≠j) ∈[1,q]
Әгәр синтагма телдең мәғәнәле элементы (һү ) булһа :ҙ
NA, fA=NA/N — А һү е генә тап булған контекстар нисбәте һәм йышлығыҙ ;
NB , fB=NB/N — В һү е генә тап булған контекстар нисбәте һәм йышлығыҙ
NAB , fAB=NAB/N — А менән В һү әре бергә тап килеүе кү әтелгән контекстарҙҙ ҙ
нисбәте һәм йышлығы .
6. «БӘЙЛӘНЕШ КӨСӨ» КОЭФФИЦИЕНТТАР
ФОРМУЛАҺЫ (1)
K f
N
NAB AB
AB
= =
K f f
N N N
NAB AB AB
A B
= + =
− −
f
N N N N
NAB
AB A B
=
− − −
K
N
N N NAB
AB
A B AB
=
+ −
— Т.Танимото (T.T.Tаnimоtо),
Л.Дойл (L.B.Dоуlе).
N
ffN
K BAAB
AB
⋅−
= — М.Мэйрон (M.E.Mаrоn),
Дж.Кунс (J.Kuhns).
7. «БӘЙЛӘНЕШ КӨСӨ» КОЭФФИЦИЕНТТАР
ФОРМУЛАҺЫ (2)
K
f N
f fAB
AB
A B
=
⋅
⋅
— А.Я.Шайкевич, Дж.Солтон (G.Sаltоn),
Р.Куртис (R.M.Curtiсе).
K
f N f f
f f N f N f
AB
AB A B
A B A B
=
⋅ − ⋅
⋅ ⋅ − ⋅ −( ) ( )
K
N N N
N N
AB
AB A B
A B
=
− ⋅
⋅
— С.Деннис (S.Dеnnis).
K
f N f f
N
N
f f N f N fAB
AB A B
A B A B
=
⋅ − ⋅ − ⋅
⋅ ⋅ − ⋅ −
log
[( ) ]
( ) ( )10
2
2 — Х.Е. Стайлз (H.E.Stilеs)
8. «БӘЙЛӘНЕШ КӨСӨ» КОЭФФИЦИЕНТТАР
ФОРМУЛАҺЫН АНАЛИЗЛАУ (1)
«Бәйләнеш көсө» коэффициенттарының бөтә
формулаларын да осра лы күренеш системаһы булара Аҡ ҡ
һәм В һү әре тап килгән ва иғалар ы арау берләштерә.ҙҙ ҡ ҙ ҡ
Ысул процедураһы түбәндәге фактты ра ларға яр ам итәҫ ҙ :
әгәр A һәм B – рекле ва иға булһа, P(AB)=P(A)P(B).ҡ
«Бәйләнеш көсө» коэффициентының и әп аңлатмаһыҫ
интерпретация (аңлатыу) талап итә.
Контекст дәүмәле ( күрше һү әр нисбәте) түбәндәгеләр еҙҙ ҙ
асы ларға мөмкинлек бирә:ҡ
а) 1–2 һүҙ — һү бәйләнештәр еңҙ ҙ контактлы синтагматик
бәйләнештәрен.
б) 5–10 һүҙ — дистант синтагматик бәйләнештәр һәм
парадигматик мөнәсәбәттәр
в) 50–100 һү — һү әр араһындаҙ ҙҙ тематик бәйләнештәр
11. КОМПОНЕНТЛЫ АНАЛИЗЛАУ
Компонентлы анализлау ысулы ике төшөнсәнең
икәү –ара бәйләнешен , улар ың аңлатмаларынҙ
анализлау ниге ендә табырға яр ам итә.ҙ ҙ
A
төшөсәһе
нең
аңлатмаһы
A
төшөнсәһе
fAB B
төшөнсәһе
B
төшөнсәһе
нең
Ысулдың төп модификациялары :
• Бәйләнештең нисбәт спецификацияһы .
• Гипертекст һылтанмаһы . Берәй текст йә
һүрәткә ба ып икенсе биткә,файлға сығаһыңҫ .
12. КОЛИЧЕСТВЕННАЯ СПЕЦИФИКАЦИЯ СВЯЗИ
Два слова А и В считаются связанными силой связи
fаb = k,
если в дефинициях каждого из них есть k общих слов
— множество одинаковых слов,
используемых в дефинициях слов A и B;
}{x
AB
i
— количество одинаковых слов.x
AB
i
k = , где = k >1
Кластеры слов, связанных между собой силой связи
f = k , k = 1, 2, 3, ..., K.
15. Ә әбиәтҙ
Караулов Ю.Н.
Частотный словарь
семантических множителей
русского языка.
– М.: Наука, 1980.
Караулов Ю.Н., В.И.Молчанов,
В.А.Афанасьев, Н.В.Михалев.
Анализ метаязыка словаря с
использованием ЭВМ.
– М.: Наука, 1982. – 96 с.
16. СЕМАНТИК МАЙ АНДАР ТӨ ӨҮҘ Ҙ (1)
Aa
k
DWwd ij
∈ Dw ji
∈
a ij wd
A
k
DW
,
әгәр булһа була , бында :
— wi һү е һәмҙ dj дескрипторы араһындағы семантик
көс аңлатмаһы
— һү һәм дескриптор араһындағы семантикҙ
бәйләнештәр көсөнөң абул ителгән аңлатмалар күмәклегеҡ
;
Dj = {wij} —дескриптор ың һү күмәклеге ;ҙ ҙ
wi — һү ,ҙ i = 1...|W|, W = {wi} — һү әр күмәклеге ;ҙҙ
dj — дескриптор, j = 1...|D|, D = {dj} —дескриптор ар күмәклеге.ҙ
Практик эш :
9000 һү е 1600 дескрипторға таратырғаҙҙ
17. СЕМАНТИК МАЙ АНДАР ТӨ ӨҮҘ Ҙ (2)
ПРАКТИК МӘСЬӘЛӘЛӘР СИСЕҮ ӨСӨН ҺОРАУ АРҘ
1.Һү әр е сағыштырыу ысулын билдәләүҙҙ ҙ
Семантик абатлаусыны табыу юлын һайлау (тамғалауҡ )
(лемматизация, ы артыу, тамыр табыу,,ҡ ҫҡ
һү ең ниге ен айырыу,, һү ең квазиниге ен айырыу)ҙҙ ҙ ҙҙ ҙ
• Һү ең семантик кодын табыу ысулын эшләүҙҙ
2. Семантик абатлаусылар ың йышлы параметр арынҡ ҙ ҡ ҙ
асы лау .ҡ
3. Һү әр ең һәм дескриптор ар ың семантик бәйләнешҙҙ ҙ ҙ ҙ
критерий арын табыу.ҙ
• Бәйләнгәнлектең тик бер осрағының феноменологик моделы
• K бәйләнгәнлектең феноменологик моделы
• Бәйләнгәнлектең абатлаусылар йышлығын и әпкә алыусыҡ ҫ
моделы.
19. СЕМАНТИК АБАТЛАУСЫНЫҠ
(КҮБӘЙТЕҮСЕНЕ) ТАБЫУ (ТАМҒАЛАУ )
САРАЛАРЫ
Лемматизация — һү ең каноник алыбын табыу .ҙҙ ҡ
Свертка —һү әр е йомоу, йәғни тәүге ижектең һу ың ыларынанҙҙ ҙ ҙ ҡ
баш а һу ың ылар ы алып ташлау.ҡ ҙ ҡ ҙ
Выделение корня —тамыр морфемалы һү әр.ҙҙ
Выделение основы слова — һү күп морфеманан тора –ҙ
префикстан һәм тамыр ан.ҙ
Выделение квазиосновы слова — һү ең ирекле башына һү еңҙҙ ҙҙ
төп мәғәнәһе ята .
20. ҺҮ ЕҢ СЕМАНТИК КОДЫН ТАБЫУ ЫСУЛЫҘҘ
ПРОЦЕДУР ЫСУЛДАР
1. Иң еңел кодлана торған һү е уның кодына индерергәҙҙ
2. Семантик абатлаусының абатланыуын булдырмау .ҡ ҡ
3. Фильтрация : «нулле » семантик абатлаусылар ы алыпҡ ҙ
ташлау (мә әлән , күренеш, күмәклек, система, һ.б.),ҫ
грамматик һү әр еҙҙ ҙ
(мә әлән повести, поискать, придержать һ.б.),ҫ
предлогтар, союздар һ.б..
4. атып алған һү бәйләнештәр е лексикализацияларғаҠ ҡ ҙ ҙ
(мә әлән ,ҫ железная дорога — желдор).
5. Һү әр ең квазиниге әрен тө өргә .ҙҙ ҙ ҙҙ ҙ
ЫСУЛДЫ ТОРМОШ А АШЫРЫУ ЙОМҒА ТАРЫҠ Ҡ
}{s
jd
x
а) дескриптор ар —ҙ dj = б) һү әр —ҙҙ wi = }{s
iw
x
21. СЕМАНТИК АБАТЛАУСЫДАР ЫҢҠ Ҙ
ЙЫШЛЫ ПАРАМЕТР АРЫН ТАБЫУҠ Ҙ
Семантик абатлаусыҡ х - аҡ ике йышлы ылы һырламаһыҡ ҡ ҡ
тап килтерелә :
||
|,}{|
W
f wsw ixiW
x
∈
=
||
|,}{|
D
f
dsw jxiD
x
∈
=
— семантик абатлаусыныңҡ
дескриптор ар ың аңлатмаларындаҙ ҙ
осрау йышлығы
— семантик абатлаусының һү әр еңҡ ҙҙ ҙ
аңлатмаларында осрау йышлығы
Семантик абатлаусылар ың йышлы анализы ысулыҡ ҙ ҡ
а) йышлы ты и әпләп сығарыу;ҡ ҫ
б) абатлаусылар ы аңлатмалар буйынса дәрәжәләре артыу ю ығындаҡ ҙ ҫ
рәтләү һәм тәртипкә килтереү.
22. ҺҮ ӘР ЕҢ ҺӘМҘҘ Ҙ ДЕСКРИПТОР АР ЫҢҘ Ҙ
СЕМАНТИК БӘЙЛӘНЕШ КРИТЕРИЙ АРЫНҘ
АСЫ ЛАУҠ
Семантик бәйләнеш критерий арын эшләү этаптарыҙ
1. Бәйләнгәнлектең тик бер осрағының феноменологик
моделы бар,әгәр һү әр ең һәм дескриптор ар ыңҙҙ ҙ ҙ ҙ
аңлатмаһында бер генә дәйәм семантик абатлаусы булһаҡ
| dj ∩ wi | = 1; 1}{}{ =ss
ij w
x
d
x
2. K бәйләнгәнлектең феноменологик моделы бар,әгәр
һү әр ең һәм дескриптор ар ың аңлатмаһында К дөйөмҙҙ ҙ ҙ ҙ семантик
абатлаусы булһа :ҡ
| dj ∩ wi | = K; K}{}{ =ss
ij w
x
d
x
3. Бәйләнгәнлектең абатлаусылар йышлығын и әпкә алыусы моделы.ҡ ҫ
( Карауловтың селектив критерийы ).
;2≥K f
D
x .6≤
23. КАРАУЛОВТЫҢ СЕЛЕКТИВ КРИТЕРИЙЫ
( )
(( ) )( )61}{}{
2}{}{
≤∧==∨
≥==
fK
K
D
x
iw
x
jd
x
w
x
d
xwd
ss
ssa
ij
ij
Әгәр һү һәм дескриптор ү аңлатмаһында икенән күп семантикҙ ҙ
абатлаусы тотһа,йәки улар ың аңлатмаһында бер генә уртаҡ ҙ ҡ
семантик абатлаусы булып һәм уның йышлығы дескриптор арҡ ҙ
күмәклегендә алтынан артһа улар бер-береһе менән семантик
бәйләнештә тора.
Семантик май андар тө өү процедураларыҙ ҙ
1. Бәйләнгәнлектең тик бер осрағының моделы буйынса май ан тө өү.ҙ ҙ
2. Тап килеүсе абатлаусылар ы и әпкә алыу юлы менән май андыҡ ҙ ҫ ҙ
тарайтыу.
3. Семантик абатлаусылар ы и әпкә алыу юлы менән май андыҡ ҙ ҫ ҙ
тарайтыу.
Dw ji
∈
Әгәр
, була
24. Ү -Ү ЕҢДЕ ТИКШЕРЕҮ ӨСӨНҘ Ҙ
ҺОРАУ АРҘ
Текстар ан белем э тәү ең логик-статистик ысулдарынҙ ҫ ҙ
һанап биреге .ҙ
Тексты анализлау ың дистрибутив-статистик ысулынҙ
аңлатығыҙ
Тексты анализлау ың йышлы - семантик ысулынҙ ҡ
аңлатығы .ҙ
Тексты анализлау ың компонентлы ысулын аңлатығы .ҙ ҙ
Editor's Notes
Тема 1 «Естественно-языковые знаковые системы» включает шесть разделов, первые три из которых являются основными.
1.1. Модели и методы представления и организации знаний — лекции 1-2.
1.2. Спецификация ЕЯ систем — лекция 3.
1.3. Логико-статистические методы извлечения знаний — лекции 4–5.
Материал этих разделов представлен в лекциях.
Три других раздела предназначены для самостоятельного изучения, а его материал представлен в рекомендованной литературе.
2.4. Технология автоматизированного построения словаря-тезауруса.
2.5. Пример исследования ЕЯ ресурса.
Третья лекция посвящена количественной спецификации естественно-языковых систем. В ней рассматриваются три метода:
Дистрибутивно-статистический
Компонентный анализ
Частотно-семантический метод
Материал лекции представлен в книге:
Ю.Н.Филиппович, А.В.Прохоров. Семантика информационных технологий: опыты словарно- тезаурусного описания. / Серия «Компьютерная лингвистика». Вступ. Статья Анатолия Ивановича Новикова. М.: МГУП, 2002.— книга в комплекте с CD ROM — С. 46–54.
Дистрибутивно-статический метод позволяет на основе частотной информации о ЕЯ единицах получать по некоторой заданной формуле количественную характеристику их связанности. Философия данного метода состоит в том, «что семантическую классификацию значимых элементов языка можно с большим основанием индуктивно извлечь из анализа текста, чем получить ее с некоторой точки зрения, внешней по отношению к структуре языка. Следует ожидать, что такая классификация даст более надежные ответы на проблемы синонимии и выражения смысла, чем существующие тезаурусы и списки синонимов, основанные главным образом на интуитивных ощущаемых сходствах без адекватной эмпирической проверки» [Москович,1971. С.115–116]. В основе всех вариантов метода лежат количественные оценки, которые характеризуют совместную встречаемость языковых единиц текста в контекстах определенной величины. Основная гипотеза метода состоит в том, что слова, встречающиеся вместе в пределах некоторого текстового интервала, как-то связаны между собой. Для оценки связанности вводится коэффициент «силы связи», который рассчитывается по некоторой формуле. Вне зависимости от вида формулы, в ней обычно используются характеристики совместной встречаемости пар слов и одиночной встречаемости каждого из слов.
Применение дистрибутивно-статистического метода связано с использованием понятия контекста. Контекст это некоторый отрезок текста, выделенная последовательность синтагм, некоторая их цепочка. Любой текст можно представить как сумму (конкатенацию) непересекающихся контекстов:
T = C1(T)+...+Cq(T), где Сi(T) Cj(T)=, i,j (ij) [1,q]
В качестве синтагм могут рассматриваться элементы языка: значимые слова, словосочетания, в общем случае некоторые языковые единицы. Если в качестве значимых элементов языка рассматривать слова, то можно получить следующие частотные характеристики контекстов:
NA, fA=NA/N — количество и частота контекстов, где встретилось только слово A;
NB , fB=NB/N — количество и частота контекстов, где встретилось только слово B;
NAB , fAB=NAB/N — количество и частота контекстов, в которых наблюдалась совместная встречаемость слов A и B;
N — общее количество контекстов.
Приведем несколько формул, по которым часто производится расчет «силы связи» в дистрибутивно-статистическом методе [Москович,1971]:
— Т.Танимото (T.T.Tаnimоtо), Л.Дойл (L.B.Dоуlе).
— М.Мэйрон (M.E.Mаrоn), Дж.Кунс (J.Kuhns).
— А.Я.Шайкевич, Дж.Солтон (G.Sаltоn), Р.Куртис (R.M.Curtiсе).
Количественная характеристика, используемая для вычисления «плотных групп» (сlumрs ... — в дословном переводе с англ. «плотные группы») [Nееdhаm, 1964; Dаlе, 1965]:
— С.Деннис (S.Dеnnis).
В качестве оценки степени близости слов использовал так называемый «ассоциативный фактор», который рассчитывается по формуле [Stуlеs, 1963]:
— Х.Е. Стайлз (H.E.Stilеs)
Все вышеприведенные формулы объединяет рассмотрение событий, связанных с появлением слов A и B как системы случайных явлений. А в качестве критерия, определяющего меру связи, используется следующий факт: если A и B – независимые события, то P(AB)=P(A)P(B).
Однако такой подход позволяет определить только степень независимости событий, а не величину динамической (функциональной) связи. Все формулы, какими бы расчетами они не были получены, требуют интерпретации. Та ассоциация, которую они извлекают из текста, требует дальнейшего анализа. Важным является выяснение, насколько полученные формально значения связей соответствуют ожидаемым, или возможным объяснениям.
Величина контекста, в рамках которого осуществляются подсчеты коэффициентов «силы связи», как показывают результаты исследований, позволяет наиболее вероятно устанавливать: а) при малых размерах контекста, ограниченного одним или двумя соседними словами — контактные синтагматические связи словосочетаний; б) при размере 5–10 слов — дистантные синтагматические связи и парадигматические отношения; в) дальнейшее увеличение ширины контекста до 50–100 слов (размер предложения, сверхфразового единства, абзаца) — тематические связи между словами. Тематические связи могут оказаться доминирующими, если принять размер контекста величиной с сам текст [Москович, 1971. С.120].
В результате вычислений на всем массиве текста формируется матрица связности слов (языковых единиц) или ассоциативная матрица, внешний вид которой представлен на рисунке 4.5:
слово...аi...слово частота fа...bj fb...fаb......
Матрица ассоциативных связей
Дистрибутивно-статистический метод может использоваться как процедура формирования ядра тематически связанных между собой текстов. Кроме этого данный метод может использоваться и как технология автоматического составления тезауруса, и как следствие этого, в качестве формально-языковой системы для информационного поиска и индексирования.
Обобщенная методика разработки тезауруса на основе дистрибутивно-статистического метода выглядит следующим образом:
Конкорданс – это список всех употреблений заданного языкового выражения (например, слова) в контексте, возможно, со ссылками на источник.
Составление частотных словников и конкордансов.
Анализ совместной встречаемости слов (языковых единиц) и составление на его основе матрицы ассоциативных связей.
Субъектная интерпретация матрицы ассоциативных связей и формирование классов типовых связей (отношений).
Группировка (выделение) отдельных типов отношений (родовидовых, каузальных и др.).
Интерпретация отдельных связей слов.
Группировка семантических полей.
Метод компонентного анализа позволяет установить связь между двумя понятиями на основе анализа их дефиниций. Для реализации метода необходимым является наличие словаря определений. Возможны несколько основных модификаций данного метода, которые условно назовем:
Количественная спецификация связи.
Гипертекстовая ссылка. Что же такое гипертекстовая ссылка? Все просто - Это текст или рисунок, нажав на который, вы переходите на другую страницу, загружаете файл или запускаете программу.
Рассмотрим эти варианты.
Количественная спецификация связи. В этом варианте два слова А и В считаются связанными силой связи fаb = k, если в дефиниции каждого из них есть k общих слов — {}, где = k >1.
Данный вариант компонентного метода позволяет построить множество тезаурусов различной степени связности. В общей системе потенциально связанных между собой слов можно выделить подмножества слов, связанных между собой силой связи f = k , k = 1, 2, 3, ..., K. Данные подмножества можно рассматривать как некоторые кластеры слов, связанных между собой силой связи f = k .
Гипертекстовая ссылка. В данном варианте два слова А и В считаются связанными если в дефиниции каждого из них есть хотя бы одно общее слово — хаb., т.е. k = 1.
Кроме того, что это слово связывает слова А и В, оно еще является «отсылочным», по нему возможен «переход» от слова А к слову В и обратно. Следует заметить, что этот вариант достаточно активно используется в лексикографических системах (электронных словарях и энциклопедиях), текстовых редакторах, информационно-справочных системах и т.д. Несмотря на практическую распространенность работ посвященных количественному анализу использования данного метода и применение его для анализа знаний, представленных в естественно-языковой и лексикографической формах сравнительно мало.
Данный метод может использоваться для анализа системы определений, или словаря определений. Можно оценить качество словарных статей по числу их связей с другими словарными статьями, или по длине цепочки, которая образуется при попытке понять то или иное слово. Потенциально цепочка не может быть неограниченной, кроме этого ее длина прерывается субъектом в тех случаях, когда он достигает понимания определения.
Возможны исследования и эксцерпций в словарях определений, а также словарей текстов, которыми фактически являются hеlр-системы. Эксцерпция – конкретный пример употребления вокабулы в тексте. ... Указатель источника – точное указание места в тексте, где встречается та или иная эксцерпция
Метод частотно-семантического анализа (ЧСА) является развитием метода компонентного анализа. Существо метода состоит в использовании в качестве критерия оценки семантической «силы связи» между словами одновременно двух характеристик дефиниций этих слов: общности дефинирующих элементов и частоты их встречаемости.
Исходными данными для ЧСА являлись: некоторые идеографические словари — они использовались для составления списка дескрипторов, краткий толковый словарь русского языка для иностранцев — для составления списка слов, толковые словари С.И. Ожегова и Д.Н.Ушакова — для установки дефиниций слов и дескрипторов.
В основе метода ЧСА лежит идея о целостности (интегрированности) ПОРМ и отражении этого в ООРМ и в частности в языке. Образное представление этой идеи выражается следующей цитатой: «...представьте себе силы семантического притяжения в виде повсеместно существующего, разлитого в языке поля, в которое помещены тела — лексические единицы языка. Разные единицы в этом поле взаимодействуют между собой также, как атомы, молекулы, макротела, планеты, и космические объекты — и на одном уровне, т.е. с однородными единицами, и межуровнево.» [Караулов,1981. С.76].
Метод предложен Ю.Н.Карауловым и на его основе построен первый компьютерный семантический словарь русского языка [РСС,1982]. Словарь содержит 1600 понятий и 9000 слов, создан в 1980 году и издан в 1982. Еще в двух книгах представлены разработки метода: Караулов Ю.Н.
Частотный словарь семантических множителей русского языка.
– М.: Наука, 1980.
Караулов Ю.Н., В.И.Молчанов, В.А.Афанасьев, Н.В.Михалев. Анализ метаязыка словаря с использованием ЭВМ.
– М.: Наука, 1982. – 96 с.
В рамках поставленного эксперимента по отработке данных методом ЧСА практическая задача состояла в том, чтобы распределить 9000 слов по 1600 дескрипторам, т.е. сформировать так называемые семантические поля (ареалы).
Формально отнесение слова к дескриптору (включение его в семантическое поле дескриптора) можно представить следующим образом:
если ,
то , где
— значение силы семантической связи между словом wi и дескриптором dj ;
— множество допустимых значений силы семантической связи дескрипторов и слов;
Dj = {wij} — множество слов дескриптора;
wi — слово, i = 1...|W|, W = {wi} — множество слов;
dj — дескриптор, j = 1...|D|, D = {dj} — множество дескрипторов.
ВОПРОСЫ РЕШЕНИЯ ПРАКТИЧЕСКОЙ ЗАДАЧИ
1. Установление способа сравнения слов
Выбор способа получения (означивания) семантического множителя (лемматизация, свертка, выделение корня, выделение основы слова, выделение квазиосновы слова)
Разработка методики получения семантического кода слова
2. Установление частотных параметров семантических множителей.
3. Определение критерия семантической связи слов и дескрипторов.
Феноменологическая модель единичной связанности
Феноменологическая модель связанности K
Модель связанности с учетом частот множителей
Первый вопрос практического решения задачи построения семантических полей состоит в установлении способа сравнения слов.
В среднем каждое слово и дескриптор имеют дефиницию, состоящую из 10 слов, т.е. в случае эксперимента это составляет ~110000 словоформ. Для сравнимости слов было введено понятие семантического множителя — элементарной единицы содержательного плана. Это понятие объединяет ряд других ранее вводимых понятий: семантические компоненты, дифференциальные семантические признаки, семы, семантические маркеры, семантические классификаторы, лексические функции, элементарные значения и т.д. Основные предположения при этом введении состоят в следующем: а) семантическое пространство языка дискретно; б) набор элементов пространства конечен и обозрим; в) число комбинаций практически бесконечно; г) семантическое пространство элементарно, т.е. состоит из неразложимых элементов; д) семантические элементы одноплановы, т.е относятся к содержанию (являются единицами познания и мышления); е) Семантические элементы образуют универсальный набор, т.е. носят общесубъектный характер и их число и набор одинаковы для различных языков.
Способы получения (означивания) семантического множителя.
Семантические множители, которые используются для дефинирования других слов, являются полнозначными словами и представлены в различных словарных формах. Попытка формального сравнения словарных дефиниций вызывает явные сложности. Необходима предварительная процедура приведения форм семантического множителя к одной, или кодирования их неким единым знаком. Возможны несколько вариантов получения приведенной формы семантического множителя [Караулов, 1980]:
Лемматизация — получение канонической формы слова, т.е. сведение словоизменительных форм слова к исходной (для существительных — именительный падеж, единственное число; для прилагательных — именительный падеж, единственное число, мужской род; для глаголов — инфинитив и т.д.).Фактически при лемматизации все слова разбиваются на грамматические классы.
Свертка — свертывание слова, т.е. удаление гласных, кроме гласной первого слога, на основании статистической закономерности русского языка — наибольшей информативности согласных.
Выделение корня — представление слова корневой морфемой.
Выделение основы слова — представление слова несколькими морфемами, например, префиксом (приставкой) и корнем.
Выделение квазиосновы слова — произвольной начальной части слова, на основании факта сдвига смысла слова (его содержания) к его началу.
Методика получения семантического кода слова состоит в следующей последовательности процедур:
Внесение самого кодируемого слова в его код.
Исключение повторений семантического множителя.
Фильтрация (удаление «нулевых» семантических множителей (например, явление, совокупность, система, и т.п.), грамматических слов (например, повести, поискать, придержать и т.п.), предлогов, союзов и т.п.)
Дополнительные процедуры, например, лексикализация устойчивых словосочетаний: железная дорога — желдор.
Формирование квазиоснов слов.
После реализации методики получаются дескрипторные и словные множества семантических множителей, сопоставленные соответствующим дескрипторам и словам:
а) дескрипторные множества — dj = {};
б) словные множества — wi = {}.
Второй вопрос практического решения задачи построения семантических полей состоит в установлении частотных параметров семантических множителей. Каждому множителю х ставится в соответствие две частотные характеристики и — частоты встречаемости в дефинициях дескрипторов и слов соответственно.
, , где в числителе формул количество слов (дескрипторов), в которых встретился множитель х, а в знаменателе общее количество слов (дескрипторов).
Методика частотного анализа семантических множителей состоит из двух пунктов: а) вычисление частот и ; б) ранжирование и упорядочение множителей в дефинициях по возрастанию их ранга.
.
Третий вопрос практического решения задачи построения семантических полей состоит в определении критерия семантической связи слов и дескрипторов.
Разработка критерия связанности состоит из трех этапов: на первом этапе разрабатывается феноменологическая модель единичной связанности, на втором — связанности степени , на третьем — степени связанности с учетом частотных свойств семантических множителей.
Феноменологическая модель единичной связанности состоит в том, что если есть хотя бы один общий семантический множитель в дефинициях слов и дескрипторов, то они считаются связанными:
| dj wi | = 1; |{} {}| = 1.
Феноменологическая модель связанности K состоит в том, что если есть K общих семантических множителей в дефинициях слов и дескрипторов, то они считаются связанными:
| dj wi | = ; |{} {}| = .
Модель связанности с учетом частот множителей (селективный критерий Караулова) для конкретного случая исследования была определена для степени связанности и пороговой частоты семантического множителя на множестве дескрипторов .
Таким образом получаем, что слово и дескриптор семантически связаны друг с другом, если их дефиниции содержат более двух одинаковых семантических множителя, или если их дефиниции содержат хотя бы один общий семантический множитель и его частота на множестве дескрипторов больше шести, т.е.:
если = (|{}{}| = ) ((|{}{}| = 1) ()),
то .
Метод построения семантических полей состоит из следующих процедур: построение поля по феноменологической модели единичной связанности; сужение поля за счет учета числа совпадающих множителей; сужение поля за счет учета частоты семантических множителей.
Данный метод является весьма продуктивным, и на его основе могут быть построены более сложные методики. Его развитие состоит в поиске и применении более сложного селективного критерия, а также их некоторого множества.
Одним из направлений развития метода может быть нахождение более эффективных процедур получения семантического кода слова [Прохоров, 1999], при этом следует различать эффективность с точки зрения быстрого получения кода слова (квазиосновы) и эффективность последующего построения семантических полей.
Для самоконтроля усвоения материала лекции попытайтесь ответить на следующие вопросы:
Опишите модель текста «ранг-частота».
Сформулируйте закон частот слов Ципфа.
«Выведите» закон Ципфа.
Напишите формулу Мандельброта для закона частот слов.
Определите значения коэффициентов в формуле Мандельброта.
Получите (выведите) статистическое распределение «ранг-частота».
Перечислите методы построения ядра ЕЯ описания ПОРМ.
Перечислите этапы построения ядра ЕЯ описания ПОРМ на основе эталонного текста.
Опишите линейную схему построения ядра ЕЯ описания ПОРМ.
Опишите полносвязную схему построения ядра ЕЯ описания ПОРМ.